Natural language processing (NLP) – Was ist Computerlinguistik?

Quelle: freepik.com

Die Verarbeitung der natürlichen Sprache – insbesondere der deutschen Sprache – durch Maschinen ist kein einfaches Unterfangen. Wir alle wissen, wie komplex es ist, eine Sprache “richtig” zu lernen und zu sprechen.

Wir haben uns zum Ziel gesetzt, in diesem Teilbereich der Informatik unseren Beitrag leisten zu wollen. Gerne werden wir Ihnen auf den folgenden Seiten weitere Informationen hierzu zur Verfügung stellen. Dabei wollen wir nicht nur auf Grundlagen eingehen, sondern auch den aktuellen Stand der Forschung beleuchten und selbstverständlich verlieren wir die Anwendungen nicht aus dem Auge.

Was ist Computerlinguistik und was sind ihre wichtigsten Bestandteile?

In der Computerlinguistik oder morphosyntaktischen Informationsverarbeitung wird analysiert, wie klare Sprachfähigkeit in Gestalt von Text – oder Sprachinformationen mit Unterstützung des Computers mathematisch transportiert werden kann. Sie ist Schnittstelle zwischen Sprachbetrachtung und Computerwissenschaft. In dem englischsprachigen Schrifttum und Computerwissenschaft ist der Ausdruck Natural language processing üblich.

Die syntaktische Analyse

Grundlagen

Um Texte zu analysieren, unterscheidet man zwischen der syntaktischen und der semantischen Ebene. Syntaktisch steht die strukturelle Situation der Worte innerhalb eines Satzes im Vordergrund. Will man die Bedeutung von Texten untersuchen, so spricht man von der semantischen Ebene. Diese Analyse ist deutlich komplexer als die syntaktische Ebene, denn oftmals erschließt sich der Sinn eines Textes erst aus einer Vielzahl von Indizien.

Nehmen wir nur den Fall, dass ein Komma vergessen wurde, schon haben wir einen völlig anderen Zusammenhang:

Was willst du schon wieder? |   Was, willst du schon wieder?

Tokenisation und Sentence Segmentation

Tokenisierung bezeichnet in der Textlinguistik das Segmentation eines Textinhalts in Sequenzen der Wortebene. Die Tokenisierung des Textinhalts ist Bedingung für dessen Massenverarbeitung, zum Beispiel zu der syntaktisch-morphologischen Studie durch Parser, in dem Textmining oder Information Retrieval. In der Computerwissenschaft bezeichnet der Ausdruck gleichartig die Zergliederung eines in einer Interpretersprache geschriebenen Computerprogrammes in unbedeutendste Sequenzen, hier denke man an Token und tokenbasierte Komprimierung.

Part-of-Speech Tagging

Die Feststellung und Markierung der Wortarten wurde original semi-automatisch durchgeführt, in dem Verlauf der Zeit wurde die Methode kumulativ durch die Textlinguistik automatisiert. Die angewendeten Methoden können in forciertes automatisches Training und überwachendes Machine Learning gegliedert werden. Bei dem kontrollierten Unterricht werden gerne Hidden Markov Models oder Eric Brills Methoden oder auch Entscheidungsbäume verwendet. Sämtliche Wortart – Tags stammen aus einem konfigurierbaren Tagset. Für die deutsche Sprachr wird häufig das Stuttgart – Tübingen – Tagset (STTS) benutzt. Bei der unsupervised Lernstruktur steht das Tagset nicht bereits vor der Erstellung fest, sondern es entsteht durch eine stochastisches Methode.

Beispiel:
Es macht einfach Spass, die deutsche Sprache zu erforschen.

Tagset nach STTS: 0/Es/PPER 1/macht/VVFIN 2/einfach/ADV 3/Spass/NE 4/,/$, 5/die/ART 6/deutsche/ADJA 7/Sprache/NN 8/zu/PTKZU 9/erforschen/VVINF

Dabei bezeichnen die Zahlen 0 bis 9 die Token-Ids und die “Codes” wie ADV, PPER usw. finden sich direkt im STTS.

Morphologische Merkmale

Die deutsche Sprache funktioniert nach gewissen Regeln. Wir kennen etwa die Eigenschaft, dass je nach Stellung im Satz die Substantive hinsichtlich des Genus, Kasus und Numerus eingruppiert werden können – Deklination lautet der Fachbegriff. Allerdings ist das maschinelle “Erarbeiten” dieser morphologischen Merkmale, zu denen darüber hinaus Person, Tempus, Modus und Komparation noch zählen, technisch eine große Herausforderung, die bislang nur in etwa 85% – 92% der Fälle auch sachlich korrekt erfolgt.

Lemmatization

Um die Grundform eines flektierten Wortes zu finden, bedient man sich der Lemmatisierung. Darunter verstehen wir etwa das Grundwort eines Prädikats. “Wir gingen nach Hause”. In diesem Fall ist das Lemma von “gingen” dann “gehen”. Die Reduktion auf die Grundform von Worten spielt eine wichtige Rolle bei der Erkennung von semantischen Zusammenhängen. Aber auch in der Textgenerierung ist es bedeutsam zu wissen, welche verschiedenen Tempora hinsichtlich einer Grundform bestehen. Wollen wir etwa zum Ausdruck bringen, dass eine Tätigkeit in der Zukunft liegt, das Basissatz jedoch in der Vergangenheit geschrieben wurde, so können wir über den Umweg des Lemmas von der Vergangenheitsform auf die Zukunftsform schließen: “Wir gingen” … “Wir gehen” … “Wir werden … gehen”.

Named Entity Recognition (NER)

Eigennamen spielen eine wichtige Rolle – ihr Auffinden ist eine wichtige und spannende Aufgabe. Nehmen wir einen englischen Satz mit “Apple”. Geht es dann um die berühmte IT-Firma oder um das Obst? Außerdem kann man Eigennamen danach gruppieren, ob sie zu Lokalitäten (Orte, Regionen, Länder), Personen, Firmen usw. gehören. NER ist ein mittlerweile gut entwickelter Bestandteil vieler Softwarelösungen, die man oftmals kostenfrei auffinden kann: Etwa bei Spacy↗ oder Stanza↗ der Stanford University.