Terminologieextraktion konfigurieren#
Die Konfiguration der Terminologieextraktion erfolgt im Hauptdialog der Funktion. Hier finden Sie drei Reiter, deren Einstellungen einen entscheidenden Einfluss auf die Ergebnisse der Extraktion haben:

Extraktion: Hier wählen Sie die zu verarbeitende Datei, die Stoppwortliste und legen die Parameter für den Export fest. Nach der Extraktion sehen sie hier wichtige Statistiken.
Einstellungen: In diesem Reiter definieren Sie die linguistischen Muster sowie weitere Parameter für die Extraktion.
Stoppwortlisten: Hier können Sie eigene Stoppwortlisten verwalten.
Reiter “Extraktion”#
Im Reiter “Extraktion” nehmen Sie die folgenden Einstellungen vor:
Hinweis
Der folgende Befehl ist erst dann aktiv, wenn Sie im Reiter “Einstellungen” die notwendigen Parameter eingegeben haben
Extraktionsdatei auswählen: Wählen Sie die Datei aus, aus der Sie Termini extrahieren möchten. Unterstützte Formate sind TXT, DOCX und PDF.
Stoppwortliste auswählen: Wählen Sie eine oder mehrere Stoppwortliste aus, um häufig vorkommende Wörter von der Extraktion auszuschließen. Eine Stoppwortliste enthält Wörter, die von der Extraktion ausgeschlossen werden sollen.
Exportparameter festlegen: Legen Sie fest, welche extrahierten Termini in eine CSV-Datei und/oder nach LookUp exportiert werden sollen.
Zusätzlich können Sie in diesem Reiter nach der Erstellung der Rohdatenliste wertvolle Statistiken einsehen und die Ergebnisse sortieren und filtern. Eine Suchfunktion zum Auffinden bestimmter Termini steht ebenfalls zur Verfügung.
Reiter “Einstellungen”#

Im Reiter “Einstellungen” der Terminologie-Extraktion können Benutzer spezifische Konfigurationen für den Extraktionsprozess vornehmen. Diese Einstellungen haben einen großen Einfluss auf die Ergebnisse. Daher ist es wichtig, im Voraus sorgfältig zu überlegen, welche Arten von Termini für das Extraktionsprojekt relevant sind.
Im Folgenden sind die Optionen und ihre Funktionen beschrieben:
Extraktionssprache auswählen:: Der Benutzer kann die Sprache auswählen, in der der Textkorpus verfasst ist. Diese Einstellung ist entscheidend, da sie die linguistischen Muster beeinflusst, die bei der Extraktion angewendet werden. In der aktuellen Version kann der Benutzer zwischen den Sprachen Deutsch und Englisch wählen.
Syntaktische Modelle: Hier kann der Benutzer auswählen, welche syntaktischen Modelle für die Terminologieextraktion verwendet werden sollen. LookUp benutzt die syntaktischen Attribute der linguistischen Programmbibliothek Spacy. Die verfügbaren Optionen sind:
Die folgende Tabelle zeigt Beispiele in Deutsch bzw. Englisch für die verschiedenen syntaktischen Muster:
Syntaktisches Modell |
Beispiel |
|---|---|
Nomen |
Traktor |
Verb |
pflügen |
Adjektiv |
hydraulisch |
Nomen-Nomen |
Processing Unit |
Adjektiv-Nomen |
automatischer Pflug |
Nomen-Konjunktion-Nomen |
Traktor und Anhänger |
Nomen-Präposition-Nomen |
Pflug mit Hydrauliksystem |
Nomen-Nomen-Nomen |
Electric Power Generation |
Diese Modelle ermöglichen eine gezielte Extraktion von Termini, die für spezifische Anwendungen wichtig sind.
In das Wörterbuch importieren
Import von Homonymen erlauben:
Ermöglicht den Import von Termini, die mehrere Bedeutungen haben (Homonymen). Beim Importieren wird der Terminus als neuer Begriff angelegt. Der Benutzer muss den importierten Terminus dann entweder als neuen Begriff in LookUp belassen oder ihn mit einem vorhandenen Begriff zusammenführen.Beispiele beim Importieren hinzufügen:
Der Benutzer kann auswählen, wie viele Beispiele für die Verwendung eines Terminus beim Import hinzugefügt werden sollen. Dies hilft, die praktische Anwendung der Begriffe zu verstehen.Importsprache:
Der Benutzer wählt die Zielsprache für den Import der Begriffe ins Wörterbuch. Diese sollte mit der Extraktionssprache übereinstimmen. Im LookUp-Wörterbuch können EN-US und EN-GB vorkommen. Hier muss sich der Benutzer für eine Variante entscheiden.
Als CSV exportieren
Export mit Wörterbuchabgleich:
Aktiviert den Export der extrahierten Termini als CSV-Datei, wobei diese mit mit dem geladenen Wörterbuch abgeglichen werden, um Konsistenz und Genauigkeit zu gewährleisten.Abgleichsprachen:
Hier können die Sprachen ausgewählt werden, mit denen die extrahierten Termini abgeglichen werden sollen. Mögliche Optionen sind die Sprachen, die bereits im LookUp-Wörterbuch angelegt sind. Der Benutzer kann eine oder mehrere dieser Sprachen aktivieren, je nach Bedarf und Anwendungsfall.
Reiter “Stoppwortlisten”#

Im Reiter “Stoppwortlisten” können Sie eigene Stoppwortlisten importieren und verwalten. Eine Stoppwortliste enthält Wörter, die von der Extraktion ausgeschlossen werden sollen. Sie können z.B. eine Standardliste verwenden und zusätzlich eine Liste, die Sie für einen spezifischen Anwendungsfall erstellt haben.
Die Stoppwortlisten müssen im Text-Format mit UTF-8-Codierung vorliegen.
Stoppwortlisten können Sie jederzeit aktualisieren. Damit LookUp mit der aktualisierten Version der Stoppwortliste arbeitet, klicken Sie auf das Aktualisierungssymbol neben dem Namen der Stoppwortliste. Im rechten Panel sehen Sie den Inhalt der Stoppwortliste.