Daten schürfen mit Text Mining

Entitäten und Beziehungen gesucht

Mit dem Hidden-Markov-Modell (HMM) wird ein statistisches Modell als gerichteter Graph erstellt. Alternativ bietet sich das Conditional-Random-Field (CRF) an. Für neuronale Netze steht Long-Short-Term-Memory (LSTM) zur Verfügung, bei dem der Kontext berücksichtigt wird. Alternativ kann die Datenextraktion auf der Basis von Mustern über Convolutional-Neural-Networks (CNN) erfolgen. Aus dem Machine Learning ist die Sliding-Window-Technik bekannt, bei der bestimmte Bereiche des Textes in einem Fenster betrachtet werden. Was außerhalb des Fensters liegt, wird demnach ignoriert – der Kontext weiter entfernter Entitäten wird also nicht erfasst.

Klassen und Themenmodelle

Soll Text Mining eine kurze Beschreibung der untersuchten Dokumente liefern, bieten sich unterschiedliche Algorithmen an. Die Latent-Dirichlet-Allocation (LDA) behandelt den Text als Kombination von Themen, die Latent-Semantic-Analysis (LSA) stellt den Dokumenten-Korpus als Term-Dokument-Matrix dar. Die Ergebnisse statistischer Modelle können über eine additive Regularisation von Themenmodellen (ARTM), bei der die Textstruktur besser berücksichtigt wird, weiterverarbeitet werden. Methoden des Machine Learning können die Ergebnisse von Algorithmen wie Bag-of-Words und TF-IDF weiterverarbeiten. Statistische Methoden und Machine Learning finden Zusammenhänge automatisch ohne vorgegebene Regeln. Zudem können dadurch komplexere Beziehungen aufgedeckt werden. Die Systeme agieren nach einmaligem Training universell, jedoch kann der Aufwand für die Erstellung eines Trainingssatzes recht hoch sein. Die vom System getroffenen Entscheidungen sind nicht immer verständlich, falsche Ergebnisse werden oft nicht erkannt.

Datenschätze gehoben

Text Mining bietet viele Techniken, Algorithmen und ein ganzes Universum an Möglichkeiten zur Verarbeitung von Textkonvoluten im geschäftlichen Interesse. Je nach Aufgabenstellung wird die Leistung der eingesetzten Methoden unterschiedlich ausfallen. Wer die Vor- und Nachteile der Methoden kennt, dürfte aber schnell die passenden Techniken für ein Text-Mining-Pilotprojekt im eigenen Unternehmen finden, neue Erkenntnisse gewinnen und Entscheidungen somit auf ein datenbasiertes Fundament stellen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert