# IDEEN MIT ANDREAS
# Music 2 Symbols and Symbols 2 Music
* Music-Themen; https://www.ableton.com/en/live/max-for-live/
* Lyric analyse -> Lyric analyse; traurige Wörter -> traurige Musik generieren zB MIDI --> und dann Midi2Audio
* Audio --> 2 Midi --> vergleich mit den Lyrics.
* Lyrics classification -> allgemein Thesaurus; zB News, Geografie.
* Programmiersprache: Python
## Library #
* Music with Python: https://wiki.python.org/moin/PythonInMusic
* Speech to text: https://www.kdnuggets.com/2020/06/easy-speech-text-python.html
## Side note example #
Iacopo Vagliano, Lukas Galke, Florian Mai, Ansgar Scherp:
Using Adversarial Autoencoders for Multi-Modal Automatic Playlist Continuation. RecSys Challenge 2018: 5:1-5:6
https://dl.acm.org/doi/10.1145/3267471.3267476
# Faultier
## Funktionale Anforderungen
* Ermitteln und Visualisieren der Satzkomplexität (z.B. zu viele oder zu wenige Satzzeichen)
* Analyiseren der Dokumentenstruktur
* Identifizieren des Dokumententyps (Artikel, Abschlussarbeit, ...)
* Identifizieren der Überschriften
* Identifizieren der Abschnitte
* Identifizieren der Spaltenanzahl
* Identifizieren der Titelseite
* Identifizieren von Quellen und Literaturverzeichnis
* Identifizieren von Tabellen und Abbildungen sowie deren Beschreibungstexte
* Identifizieren von Kopf- und Fußzeilen
* Zusammenfügen getrennter Wortsilben bei Zeilen- und Seitenumbrüchen
* Vergleich der Dokumentenstruktur mit der in der jeweiligen Disziplin üblichen Struktur
* Vergleich der Dokumentenstruktur mit der in dem Dokumententyp üblichen Struktur
* Erkennen von Formulierungen, die in wissenschaftlichen Arbeiten nicht verwendet werden sollen ("Bad Words")
* Umgangssprachliche Formulierungen
* Erzählerische Ausschweifungen
* Unsachliche Formulierungen
* Erkennen überflüssiger Füllwörter
* Füllwörter sind in einigen Stellen für die Bedeutung des Satzes wichtig, in anderen nicht. Um dies zu unterscheiden, muss die Satzstruktur analysiert werden.
* Erkennen unsachlicher und unpassender Quellen, insbesondere Webquellen
* Suchergebnisse auf Websites sind keine Quellen
* heise.de, chip.de, golem.de u.ä. sollte nur in Ausnahmefällen zitiert werden, wenn es (noch) keine wissenschaftliche Literatur dazu gibt
* YouTube-Videos u.a. sollen nach Möglichkeit vermieden werden
* bild.de u.ä. sind keine seriösen Quellen
* Wikipedia ist als Quelle nur in Ausnahmefällen zu zitieren. Wenn, dann mit minutengenauem Abrufdatum.
* Prüfen der Vollständigkeit von Quellenangaben
* Prüfen, ob bei jeder Webquelle ein Abrufdatum angegeben ist
* Prüfen, ob zu jeder Quelle mindestens Autor, Titel und Jahr angegeben ist
*
* Rechtschreibprüfung (mittels Einbinden externer Werkzeuge)
* Ausnahme bestimmter Dokumentbestandteile bei der Rechtschreibprüfung wie Literaturverzeichnis
* Grammatikprüfung (mittels Einbinden externer Werkzeuge wie Grammarly)
* Unterstützung mehrerer Sprachen
* MUSS: Englisch (US, GB oder beides?)
* SOLL: Deutsch
## Technische Anforderungen
* Programmiersprache ist Python
* Bereitstellung erfolgt als Docker-Image
* Bereitstellung erfolgt als Open-Source
* Erweiterbarkeit durch Plugins, um weitere (auch externe) Funktionen zu integrieren
## Prozessschritte
### PDF als Eingabe
1. PDF to Text
2. Text analysieren
3. Text to PDF als Visualisierung
### LaTeX als Eingabe
1. Text und Struktur im Quellcode analysieren
2. Einbinden der Analyse-Ergebnisse zur Visualiserung in den LaTeX-Quellcode
3. Kompilieren des angepassten LaTeX-Quelltexts als PDF