Aufbaumodul: Automatische Texterkennung (OCR)


Das Modul Automatische Texterkennung zielt auf die systematische Vermittlung vertiefter Kenntnisse der Textverarbeitung sowie die Befähigung zu deren Anwendung mit ausgewählten Tools und Texten verschiedensten Wissenschaftsbereiche und Studienrichtungen (wie z.B. historische Dokumente der Rechtsgeschichte, Naturwissenschaften, Theologie, etc.).


Das Modul ist aufbauend auf die Einführung zu Textdigitalisierung- und verarbeitung im Grundkurs Methoden der Digital Humanities anwenden und reflektieren konzipiert.


Zur Anwendung der automatischen Texterkennung werden die Tools OCR4all und Transkribus vorgestellt. OCR4all ist ein Tool für die automatische Texterkennung historischer Drucktexte. Die Plattform Transkribus dient für Digitalisierung, AI-gestützte Texterkennung, Transkription und Annotation von historischen Dokumenten.

Nach absolvieren dieses Moduls…

  • verfügt ihr über ein theoretisches Grundverständnis des maschinellen Lernens und der darauf bauenden automatischen Text- und Bilderkennung.
  • seid ihr zudem fähig eignen ausgewählte Textdateien aufzubereiten, zu modellieren und anhand der o.g. Tools (Tranksribus/OCR4all) deren Texterkennung zu automatisieren.
  • werdet ihr in der Lage sein, Fragen wie Wofür kann eine automatische Texterkennung nützlich sein?, Welche Funktionalitäten bieten die Tools? oder Wie müssen historische Textdokumente für die automatische Texterkennung aufbereitet sein? zu beantworten.