Sprachmodelle mit eigenen Texten trainieren mit GPT-2 GPT-J GPT4All oder füttern mit Claude-Instant ChatPDF

# Sprachmodelle mit eigenen Texten trainieren mit [GPT-2](https://en.wikipedia.org/wiki/GPT-2), z.B. auf [huggingface.com](https://huggingface.co/gpt2) [GPT-J](https://huggingface.co/docs/transformers/model_doc/gptj) [GPT4All](https://gpt4all.io/index.html) oder füttern mit [Claude-Instant](https://poe.com/Claude-instant) ChatPDF[](https://www.chatpdf.com/) [GPT-2](https://en.wikipedia.org/wiki/GPT-2) ... und somit eine **Initiative zur Nutzung freier Opensource KI-Text-Generatoren** starten: für den **Bildungs- und Kunstbereich**, z.B. für Autor:innen, die unabhängig von OpenAI, Microsoft & Co. offen und frei mit KI-Bots arbeiten können - und vor allem eigene Texte für das Prozessieren hochladen oder trainieren können :-)) ... auch um herauszufinden, ob man mit diesem Ansatz aus vorhandenen "freien Texten" (etwa aus Wikipedia, Gutenberg, zeno.org und anderen freien Quellen **gezielt** neue Dokumente erstellen kann ... ... und natürlich auch eigene Text-Sammlungen einbeziehen kann, ohne sie etwa in die Prompts vom CHAT-GPT einzubauen ... .. angeregt dazu hat mich ein **Experiment**: ## Hannes Bajohr hat Lyrik Texte "remixen lassen" und lässt einen Roman aus 4 Gegenwartsromanen schreiben! > "Ich versuche gerade selbst, **einen Roman mit KI zu schreiben.** Es ist ein Experiment: Ich habe die **KI mit vier aktuellen Gegenwartsromanen trainiert – alle mit inhaltlichem Digitalbezug.** Und jetzt schreibt die KI in diesem Stil – oder versucht es zumindest. Das ist ästhetisch und literaturwissenschaftlich aufschlussreich: Dieser Stil ist ein Amalgam, das nicht mehr aus einem Autor besteht, sondern aus vier Stimmen. Gleichzeitig ist es auch eine Umkehrung der Digital Humanities, indem man die Analyse zur Synthese macht, der Output also Rückschlüsse auf den Input erlaubt. Und schließlich erfährt man auch etwas über die Arbeitsweise der KI, die nämlich eigentlich nicht erzählen kann, es aber auf Teufel komm raus trotzdem versucht. Das ist auch ein großer Spaß." Quelle: [Die ZEIT](https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur/seite-2?utm_referrer=https%3A%2F%2Fwww.google.com%2F) ## Berlin-Miami (mit GPT-J) > … noch interessanter wird es durch einen Beitrag von > [@hannesbajohr](https://twitter.com/hannesbajohr), der mit Hilfe von **GPT-J** sozusagen die **sprachliche Quintessenz des Gegenwartsromans** erstellt hat. > DFG-Projekt „Schreibweisen der Gegenwart“ > via [twitter](https://twitter.com/ggw_hgw/status/1657024901188820994?s=20) > ![](https://hackmd.io/_uploads/rkSEln3V2.png =400x) Quelle: https://pbs.twimg.com/media/Fv7u8JAXwAYda8x?format=jpg&name=large ### Zugriff auf GPT-J?? ### EleutherAI - GPT-J-6B ist eine kostenlose browserbasierte Anwendung, die es Benutzern ermöglicht, EAI-Modelle allein aus Texteingabe zu generieren. https://eleutherai-gpt-j-6b.de.softonic.com/web-apps https://6b.eleuther.ai/ ### GPT4All https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b A free-to-use, locally running, privacy-aware chatbot. No GPU or internet required. https://gpt4all.io/index.html . GPT4All Open-source assistant-style large language models that run locally on your CPU GPT4All Website https://gpt4all.io/ GPT4All Documentation https://docs.gpt4all.io/ Discord https://discord.gg/mGZE39AS3e 🦜️🔗 Official Langchain Backend https://python.langchain.com/en/latest/modules/models/llms/integrations/gpt4all.html GPT4All is made possible by our compute partner Paperspace. https://www.paperspace.com/ ## Lernprozesse. Lyrik (Auswahl) https://hannesbajohr.de/wp-content/uploads/2021/09/Hannes_Bajohr_Lernprozesse-Lyrik.pdf .. darin findet sich eine Bemerkung: > "Das KI-Sprachmodell GPT-2 (in der Version von zamia und mittels der hugging- face-Bibliothek) wurde mit allen deutschsprachigen Gedichten von „lyrikline.org“ trainiert; es handelt sich bei den Gedichten somit um einen statistischen Querschnitt deutschsprachiger Gegenwartslyrik." + im Zeit-Interview (15. April 2023) spricht er ein neues Projekt an > Bajohr: Das wird ein interessanter Aushandlungsprozess werden. Ich versuche gerade selbst, einen Roman mit KI zu schreiben. Es ist ein Experiment: Ich habe die KI mit vier aktuellen Gegenwartsromanen trainiert – alle mit inhaltlichem Digitalbezug. Und jetzt schreibt die KI in diesem Stil – oder versucht es zumindest. Das ist ästhetisch und literaturwissenschaftlich aufschlussreich: Dieser Stil ist ein Amalgam, das nicht mehr aus einem Autor besteht, sondern aus vier Stimmen. Gleichzeitig ist es auch eine Umkehrung der Digital Humanities, indem man die Analyse zur Synthese macht, der Output also Rückschlüsse auf den Input erlaubt. Und schließlich erfährt man auch etwas über die Arbeitsweise der KI, die nämlich eigentlich nicht erzählen kann, es aber auf Teufel komm raus trotzdem versucht. Das ist auch ein großer Spaß. Quelle: https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur/seite-2 ### das "deutschsprachige" GPT-2 Modell https://huggingface.co/dbmdz/german-gpt2 More details about GPT-2 can be found in the great **Hugging Face documentation**. https://huggingface.co/docs/transformers/model_doc/gpt2 ### Training corpora We use pretty much the same corpora as used for training the DBMDZ BERT model, that can be found in this repository. https://github.com/dbmdz/berts .. ein weiteres Beispiel: ## Die Gedicht-KI von Lukas Diestel: https://www.falschegefuehle.de/info/ > "Grundlage für die KI ist ein [vortrainiertes deutsches GPT-2-Modell](https://huggingface.co/dbmdz/german-gpt2). GPT-2 ist ein künstliches neuronales Netz, ein statistisches Sprachmodell, welches im Grunde genommen Sprache ausrechnet und dann berechnen kann wie wahrscheinlich, in welchem Kontext, welches Wort ist (sehr verkürzt). Dadurch ist es mit GPT-2 möglich, abhängig von ein paar ersten Wörtern, quasi endlos neuen Text zu generieren. Das vortrainierte Modell wurde von mir mit einem selbst zusammengestellten Korpus aus etwas über 90'000 Zeilen deutschsprachiger Lyrik weitertrainiert (für Interessierte: mit [Transformers](https://github.com/huggingface/transformers))." sehr schöne Beispiele ... u.a. "mit" Text-Material" Allen Ginsberg und T.S. Eliot finden sich auch hier: ### GPT-2 Neural Network Poetry https://gwern.net/gpt-2 > Demonstration tutorial of retraining OpenAI’s GPT-2 (a text-generating Transformer neural network) on large poetry corpuses to generate high-quality English verse. > ... > * GPT-2-117M completions of **Allen Ginsberg’s “Howl**”: “An Eternal Howl” > * Shelley’s “Ozymandias”: “GPT-2 Writes a **Shelley Poem**” > * **Alexander Pope’s Essay On Criticism**: “GPT-2 As Step Toward General Intelligence” > * 8 famous opening lines from **Tennyson**, **Yeats**, **Shakespeare**, **Henley**, **Whitman**, **T.S. Eliot**: Peter Krantz > * “Ask GPT-2: Helpful Advice From A Confused Robot”: **T.S. Eliot’s ⁠“Wasteland**” ... andere **Anleitungen**: ## Wie man GPT-3, GPT-J und GPT-Neo verwendet, mit wenigen Schritten zu lernen > "GPT-Neo und GPT-J sind beides Open-Source-Modelle für die Verarbeitung natürlicher Sprache, die von einem Kollektiv von Forschern entwickelt wurden, die an der Forschern, die an Open Source AI arbeiten (siehe die Website von EleutherAI). > > GPT-J hat 6 Milliarden Parameter und ist damit das fortschrittlichste Open-Source-Modell für natürliche Sprachverarbeitung Modell zum Zeitpunkt dieses Schreibens. Es ist eine direkte Alternative zu OpenAIs proprietärem GPT-3 Curie. > > Diese Modelle sind sehr vielseitig. Sie können für fast jeden Anwendungsfall der natürlichen Sprachverarbeitung verwendet werden: Texterstellung, Sentiment Analyse, Klassifizierung, maschinelle Übersetzung, ... und vieles mehr (siehe unten). Sie effektiv zu nutzen erfordert manchmal etwas Übung. Ihre Reaktionszeit (Latenz) kann auch länger sein als bei Standardmodellen der natürlichen Sprachverarbeitung Modelle. > > GPT-J und GPT-Neo sind beide über die NLP Cloud API verfügbar. Im Folgenden zeigen wir Ihnen Beispiele, die unter Verwendung des GPT-J Endpunkt der NLP Cloud auf GPU, mit dem Python-Client. Wenn Sie die Beispiele kopieren und einfügen möchten, bitte vergessen Sie nicht, Ihr eigenes API-Token hinzuzufügen. Um den Python-Client zu installieren, führen Sie zunächst Folgendes aus: pip install nlpcloud." > https://nlpcloud.com/de/effectively-using-gpt-j-gpt-neo-gpt-3-alternatives-few-shot-learning.html https://nlpcloud.com/de/effectively-using-gpt-j-gpt-neo-gpt-3-alternatives-few-shot-learning.html ## Deine KI selbst programmieren: Wie du Künstliche Intelligenz zur Vorhersage von Immobiliendaten verwendest http://python-programmieren.maximilianwittmann.de/kiselbstprogrammieren/ ## oder doch gleich 🤖 GPT4All – jetzt einfach und kostenlos auf deinem Rechner installieren https://github.com/nomic-ai/gpt4all ## How To Make Custom AI-Generated Text With GPT-2 https://minimaxir.com/2019/09/howto-gpt2/ > In February 2019, OpenAI released a paper describing GPT-2, a AI-based text-generation model based on the Transformer architecture and trained on massive amounts of text all around the internet. From a text-generation perspective, the included demos were very impressive: the text is coherent over a long horizon, and grammatical syntax and punctuation are near-perfect. > At the same time, the Python code which allowed anyone to download the model (albeit smaller versions out of concern the full model can be abused to mass-generate fake news) and the TensorFlow code to load the downloaded model and generate predictions was open-sourced on GitHub. > Neil Shepperd created a fork of OpenAI’s repo which contains additional code to allow finetuning the existing OpenAI model on custom datasets. A notebook was created soon after, which can be copied into Google Colaboratory and clones Shepperd’s repo to finetune GPT-2 backed by a free GPU. From there, the proliferation of GPT-2 generated text took off: researchers such as Gwern Branwen made GPT-2 Poetry and Janelle Shane made GPT-2 Dungeons and Dragons character bios. > > I waited to see if anyone would make a tool to help streamline this finetuning and text generation workflow, a la textgenrnn which I had made for recurrent neural network-based text generation. Months later, no one did. So I did it myself. Enter gpt-2-simple, a Python package which wraps Shepperd’s finetuning code in a functional interface and adds many utilities for model management and generation control. > > Thanks to gpt-2-simple and this Colaboratory Notebook, you can easily finetune GPT-2 on your own dataset with a simple function, and generate text to your own specifications! **... you can easily finetune GPT-2 on your own dataset with a simple function, and generate text to your own specifications!** ### minimaxir / gpt-2-simple https://github.com/minimaxir/gpt-2-simple > A simple Python package that wraps existing model fine-tuning and generation scripts for OpenAI's GPT-2 text generation model ... mit sehr schönen "klassischen" Beispielen von Literatur-Remixes / Umschreibungen mit KI: ## Erste Einführung von Pit Noack (13.12.22) .. dessen wunderbares Buch **"Künstliche Intelligenz verstehen - eine spielerische Einführung"** gerade erschienen ist: https://www.maschinennah.de/ki-buch/ (.. mit Programmierbeispielen zu allen Kapiteln!!) Ich durfte ihm bei einer ersten Erkundung über die Schulter schauen: Die Programmier-Umgebung für Python ### colab: https://colab.research.google.com/ ### Einführungen zu colab: https://colab.research.google.com/#scrollTo=Nma_JWh-W-IF #### Willkommen bei Colaboratory #### https://lehre.idh.uni-koeln.de/lehrveranstaltungen/sosem20/ki-kunstgeschichte/block-i-python/google-colab/ #### Google Colab: Alles, was Sie wissen müssen: https://geekflare.com/de/google-colab/ ### Ein notebook in colab erstellen > Wählen Sie im **Kontextmenü Datei** -> N**eues Notizbuch**. > Ihr neues Python-Notebook ist fertig. Sie können die Notebook-Datei umbenennen. https://geekflare.com/de/google-colab/, **Kapitel 7**) ### colab Syntax https://colab.research.google.com/notebooks/basic_features_overview.ipynb ### Anleitung: Train a language model > .. if you're opening this Notebook on colab, you will probably need to install 🤗 Transformers and 🤗 Datasets. Uncomment the following cell and run it. https://github.com/huggingface/notebooks/blob/main/examples/language_modeling_from_scratch.ipynb .. auch dieser Schritt-für-Schritt Anleitung die jeweiligen Python Befehle kopieren und in das eigene notebook einfügen ... **Anmerkungen**: Der Token, den man generiert muß „**write**“ sein … mit **!** setzt man „Terminalbefehle“ ein … Das dauerte ca. 30 Minuten - Dann fing das Training an: nach 30 Minuten waren 7 von 6000 Datensätzen generiert … (Beschränkung der kostenlosen Version😞 ### wie man auf github gehostete jupyter notebooks auf colab öffnet Pit Noack fand später noch heraus: Ich habe rausgefunden, wie man auf github gehostete jupyter notebooks auf colab öffnet. du musst einfach github.com um tocolab ergänzen. also: https://githubtocolab.com/huggingface/notebooks/blob/main/examples/language_modeling_from_scratch.ipynb ### Transformers for Natural Language Processing - Second Edition By Denis Rothman ... zur Vertiefung ist ein Transformer Buch zu empfehlen - es kostet als pdf nur 5 €: https://www.packtpub.com/product/transformers-for-natural-language-processing-second-edition/9781803247335 ## Tutorials https://minimaxir.com/2019/09/howto-gpt2/ ... to be continued :-)