IDEEN MIT ANDREAS

# IDEEN MIT ANDREAS # Music 2 Symbols and Symbols 2 Music * Music-Themen; https://www.ableton.com/en/live/max-for-live/ * Lyric analyse -> Lyric analyse; traurige Wörter -> traurige Musik generieren zB MIDI --> und dann Midi2Audio * Audio --> 2 Midi --> vergleich mit den Lyrics. * Lyrics classification -> allgemein Thesaurus; zB News, Geografie. * Programmiersprache: Python ## Library # * Music with Python: https://wiki.python.org/moin/PythonInMusic * Speech to text: https://www.kdnuggets.com/2020/06/easy-speech-text-python.html ## Side note example # Iacopo Vagliano, Lukas Galke, Florian Mai, Ansgar Scherp: Using Adversarial Autoencoders for Multi-Modal Automatic Playlist Continuation. RecSys Challenge 2018: 5:1-5:6 https://dl.acm.org/doi/10.1145/3267471.3267476 # Faultier ## Funktionale Anforderungen * Ermitteln und Visualisieren der Satzkomplexität (z.B. zu viele oder zu wenige Satzzeichen) * Analyiseren der Dokumentenstruktur * Identifizieren des Dokumententyps (Artikel, Abschlussarbeit, ...) * Identifizieren der Überschriften * Identifizieren der Abschnitte * Identifizieren der Spaltenanzahl * Identifizieren der Titelseite * Identifizieren von Quellen und Literaturverzeichnis * Identifizieren von Tabellen und Abbildungen sowie deren Beschreibungstexte * Identifizieren von Kopf- und Fußzeilen * Zusammenfügen getrennter Wortsilben bei Zeilen- und Seitenumbrüchen * Vergleich der Dokumentenstruktur mit der in der jeweiligen Disziplin üblichen Struktur * Vergleich der Dokumentenstruktur mit der in dem Dokumententyp üblichen Struktur * Erkennen von Formulierungen, die in wissenschaftlichen Arbeiten nicht verwendet werden sollen ("Bad Words") * Umgangssprachliche Formulierungen * Erzählerische Ausschweifungen * Unsachliche Formulierungen * Erkennen überflüssiger Füllwörter * Füllwörter sind in einigen Stellen für die Bedeutung des Satzes wichtig, in anderen nicht. Um dies zu unterscheiden, muss die Satzstruktur analysiert werden. * Erkennen unsachlicher und unpassender Quellen, insbesondere Webquellen * Suchergebnisse auf Websites sind keine Quellen * heise.de, chip.de, golem.de u.ä. sollte nur in Ausnahmefällen zitiert werden, wenn es (noch) keine wissenschaftliche Literatur dazu gibt * YouTube-Videos u.a. sollen nach Möglichkeit vermieden werden * bild.de u.ä. sind keine seriösen Quellen * Wikipedia ist als Quelle nur in Ausnahmefällen zu zitieren. Wenn, dann mit minutengenauem Abrufdatum. * Prüfen der Vollständigkeit von Quellenangaben * Prüfen, ob bei jeder Webquelle ein Abrufdatum angegeben ist * Prüfen, ob zu jeder Quelle mindestens Autor, Titel und Jahr angegeben ist * * Rechtschreibprüfung (mittels Einbinden externer Werkzeuge) * Ausnahme bestimmter Dokumentbestandteile bei der Rechtschreibprüfung wie Literaturverzeichnis * Grammatikprüfung (mittels Einbinden externer Werkzeuge wie Grammarly) * Unterstützung mehrerer Sprachen * MUSS: Englisch (US, GB oder beides?) * SOLL: Deutsch ## Technische Anforderungen * Programmiersprache ist Python * Bereitstellung erfolgt als Docker-Image * Bereitstellung erfolgt als Open-Source * Erweiterbarkeit durch Plugins, um weitere (auch externe) Funktionen zu integrieren ## Prozessschritte ### PDF als Eingabe 1. PDF to Text 2. Text analysieren 3. Text to PDF als Visualisierung ### LaTeX als Eingabe 1. Text und Struktur im Quellcode analysieren 2. Einbinden der Analyse-Ergebnisse zur Visualiserung in den LaTeX-Quellcode 3. Kompilieren des angepassten LaTeX-Quelltexts als PDF