# ML-basierte Rechtschreibprüfung
## Organisatorisches
* Beteiligte: DG, AA, AB, SB (+AT, ...)
* Monatliches Kontingent: insgesamt 3-4 PT (24-32h)
* Produra: Lingware LE > neue Sprachtechnologien
* Quartalsweise bzw. alle 2/3 Monate Zwischenberichte
## Dokumentation & Recherche
* [Sharepoint-Ordner](https://congree.sharepoint.com/sites/CongreeTeamLin/Shared%20Documents/Forms/AllItems.aspx?ct=1669023248601&or=Teams%2DHL&ga=1&id=%2Fsites%2FCongreeTeamLin%2FShared%20Documents%2FBetrieb%2FProjekte%2FNeue%20Sprachtechnologien&viewid=0024f7d0%2Ddc86%2D42ac%2D860a%2Dd63e4ad9cd76)
* [AB's Recherche zu BLUC-1817](https://congree-my.sharepoint.com/:w:/p/aborisenkov/EaWcoBeJrVVPq4gvGBLK1zgBkrahJaJszO30CSfKMY1QIw?e=Br7Tqd&isSPOFile=1&clickparams=eyJBcHBOYW1lIjoiVGVhbXMtRGVza3RvcCIsIkFwcFZlcnNpb24iOiIyNy8yMjEwMjgwNzIwMCIsIkhhc0ZlZGVyYXRlZFVzZXIiOmZhbHNlfQ%3D%3D)
* [DG's und AA's Recherche zu mehr KV](https://congree.atlassian.net/wiki/spaces/LIN/pages/145260804)
* [Confluence-Seite mit Ideen für neue Sprachtechnologien](https://congree.atlassian.net/wiki/spaces/LIN/pages/227180545/M+gliche+Projekte+mit+statistischen+oder+neuronalen+Methoden)
## Wissenstransfer
* [Wissenstransfer zu Lingware & LE (Aufzeichnungen)](https://congree.atlassian.net/wiki/spaces/ORGALL/pages/82054168/2020-09-15+-+2020-12-08+-+Wissenstransfer+zu+Lingware+und+Linguistic+Engine)
* [Step korrigiere (iaiwiki)](http://10.10.10.187/iaiwiki/index.php/Step_korrigiere)
## Tools
* X-PROBE (zur Noise-Generierung für Trainingsdaten): [Paper](https://arxiv.org/pdf/1906.05061.pdf)
## Daten
* [Offene BLUCs mit LIN-Label "Maschinelles_Lernen"](https://congree.atlassian.net/issues/?jql=cf%5B10570%5D%20%3D%20%22Maschinelles_Lernen%22) & Beispiele aus gram.291de
→ [Exceltabelle](https://congree.sharepoint.com/:x:/s/CongreeTeamLin/ERXU5i3FPjlLl78JKcjTE90B9OeQ-B3fEA-zmc0dfWBOrQ?e=YgVQFY) mit Beispielsätzen zu offenen ML-BLUCs und zu bereits abgedeckten Beispielen von gram.291de
- Offene BLUCs: 26 Sätze
* [RWSE Wikipedia Revision Dataset](https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/2451) ([Paper dazu](https://aclanthology.org/E12-1054.pdf)):
- de_natural_train: 108 Sätze
- de_natural_test: 200 Sätze
- de_artifical_noun: 1000 Sätze
- de_artifical_token: 1000 Sätze
-> Annotierte und rohe Daten unter T:\CongreeSB_Team\anam\Neue_Sprachtechnologien
* [Falko](https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/forschung/falko)
* X-PROBE (zur Noise-Generierung für Trainingsdaten): [Daten](https://github.com/ltgoslo/xprobe)
### Baseline aufsetzen & evaluieren
- [x] Evaluationsmethode bestimmen: Accuracy, Precision, Recall, F-score
- [ ] Evaluationsskript aufsetzen (AA)
- [ ] Testdaten bereitstellen (Korpus und/oder generieren)
- Wie viele Testdaten brauchen wir?
- Welche Korpora für Testdaten? XProbe, News, Gutenberg, ...
- Testdaten annotieren (entsprechend Eval-Methode)
- [ ] Testdaten mit Congree prüfen (je nach Menge in Personal-VM oder mit dg)
- [ ] Congree-Prüfungsergebnisse evaluieren
- [ ] Testdaten mit LanguageTool prüfen und auswerten
- [ ] Testdaten mit DeepL Write prüfen und auswerten
- [ ] evtl. englische Daten vorbereiten (für Vergleich mit NeuSpell)
- [ ] evtl. Philipps WIM-Datenbank integrieren
### Congree-Rechtschreibprüfung erweitern (nach Quartalsbericht)
- [ ] ML-Ansatz auswählen (n-grams & SVM, word embeddings & NNs, ...?)
- [ ] Infrastruktur bereitstellen (Server, git, Google Colab)
- [ ] Entscheiden, an welcher Stelle in Congree integrieren:
- nach orth-Prüfung? Preprocessing (Tokenisierung, Lemmatisierung) und Postprocessing beachten!
- [ ] Geschwindigkeit vs. Qualität
- [ ] Trainingsdaten vorbereiten
- [ ] Training starten
- [ ] Modelle optimieren
### Mögliche Herausforderungen
* Named Entities (unbekannte Namen) > orth.unknownpers?
* POS-Tagging (auch maschinell ermitteln?)