ML-basierte Rechtschreibprüfung

# ML-basierte Rechtschreibprüfung ## Organisatorisches * Beteiligte: DG, AA, AB, SB (+AT, ...) * Monatliches Kontingent: insgesamt 3-4 PT (24-32h) * Produra: Lingware LE > neue Sprachtechnologien * Quartalsweise bzw. alle 2/3 Monate Zwischenberichte ## Dokumentation & Recherche * [Sharepoint-Ordner](https://congree.sharepoint.com/sites/CongreeTeamLin/Shared%20Documents/Forms/AllItems.aspx?ct=1669023248601&or=Teams%2DHL&ga=1&id=%2Fsites%2FCongreeTeamLin%2FShared%20Documents%2FBetrieb%2FProjekte%2FNeue%20Sprachtechnologien&viewid=0024f7d0%2Ddc86%2D42ac%2D860a%2Dd63e4ad9cd76) * [AB's Recherche zu BLUC-1817](https://congree-my.sharepoint.com/:w:/p/aborisenkov/EaWcoBeJrVVPq4gvGBLK1zgBkrahJaJszO30CSfKMY1QIw?e=Br7Tqd&isSPOFile=1&clickparams=eyJBcHBOYW1lIjoiVGVhbXMtRGVza3RvcCIsIkFwcFZlcnNpb24iOiIyNy8yMjEwMjgwNzIwMCIsIkhhc0ZlZGVyYXRlZFVzZXIiOmZhbHNlfQ%3D%3D) * [DG's und AA's Recherche zu mehr KV](https://congree.atlassian.net/wiki/spaces/LIN/pages/145260804) * [Confluence-Seite mit Ideen für neue Sprachtechnologien](https://congree.atlassian.net/wiki/spaces/LIN/pages/227180545/M+gliche+Projekte+mit+statistischen+oder+neuronalen+Methoden) ## Wissenstransfer * [Wissenstransfer zu Lingware & LE (Aufzeichnungen)](https://congree.atlassian.net/wiki/spaces/ORGALL/pages/82054168/2020-09-15+-+2020-12-08+-+Wissenstransfer+zu+Lingware+und+Linguistic+Engine) * [Step korrigiere (iaiwiki)](http://10.10.10.187/iaiwiki/index.php/Step_korrigiere) ## Tools * X-PROBE (zur Noise-Generierung für Trainingsdaten): [Paper](https://arxiv.org/pdf/1906.05061.pdf) ## Daten * [Offene BLUCs mit LIN-Label "Maschinelles_Lernen"](https://congree.atlassian.net/issues/?jql=cf%5B10570%5D%20%3D%20%22Maschinelles_Lernen%22) & Beispiele aus gram.291de → [Exceltabelle](https://congree.sharepoint.com/:x:/s/CongreeTeamLin/ERXU5i3FPjlLl78JKcjTE90B9OeQ-B3fEA-zmc0dfWBOrQ?e=YgVQFY) mit Beispielsätzen zu offenen ML-BLUCs und zu bereits abgedeckten Beispielen von gram.291de - Offene BLUCs: 26 Sätze * [RWSE Wikipedia Revision Dataset](https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/2451) ([Paper dazu](https://aclanthology.org/E12-1054.pdf)): - de_natural_train: 108 Sätze - de_natural_test: 200 Sätze - de_artifical_noun: 1000 Sätze - de_artifical_token: 1000 Sätze -> Annotierte und rohe Daten unter T:\CongreeSB_Team\anam\Neue_Sprachtechnologien * [Falko](https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko) * X-PROBE (zur Noise-Generierung für Trainingsdaten): [Daten](https://github.com/ltgoslo/xprobe) ### Baseline aufsetzen & evaluieren - [x] Evaluationsmethode bestimmen: Accuracy, Precision, Recall, F-score - [ ] Evaluationsskript aufsetzen (AA) - [ ] Testdaten bereitstellen (Korpus und/oder generieren) - Wie viele Testdaten brauchen wir? - Welche Korpora für Testdaten? XProbe, News, Gutenberg, ... - Testdaten annotieren (entsprechend Eval-Methode) - [ ] Testdaten mit Congree prüfen (je nach Menge in Personal-VM oder mit dg) - [ ] Congree-Prüfungsergebnisse evaluieren - [ ] Testdaten mit LanguageTool prüfen und auswerten - [ ] Testdaten mit DeepL Write prüfen und auswerten - [ ] evtl. englische Daten vorbereiten (für Vergleich mit NeuSpell) - [ ] evtl. Philipps WIM-Datenbank integrieren ### Congree-Rechtschreibprüfung erweitern (nach Quartalsbericht) - [ ] ML-Ansatz auswählen (n-grams & SVM, word embeddings & NNs, ...?) - [ ] Infrastruktur bereitstellen (Server, git, Google Colab) - [ ] Entscheiden, an welcher Stelle in Congree integrieren: - nach orth-Prüfung? Preprocessing (Tokenisierung, Lemmatisierung) und Postprocessing beachten! - [ ] Geschwindigkeit vs. Qualität - [ ] Trainingsdaten vorbereiten - [ ] Training starten - [ ] Modelle optimieren ### Mögliche Herausforderungen * Named Entities (unbekannte Namen) > orth.unknownpers? * POS-Tagging (auch maschinell ermitteln?)