Try   HackMD

Sprachmodelle mit eigenen Texten trainieren mit GPT-2, z.B. auf huggingface.com GPT-J GPT4All oder füttern mit Claude-Instant ChatPDF GPT-2

und somit eine Initiative zur Nutzung freier Opensource KI-Text-Generatoren starten: für den Bildungs- und Kunstbereich, z.B. für Autor:innen, die unabhängig von OpenAI, Microsoft & Co. offen und frei mit KI-Bots arbeiten können - und vor allem eigene Texte für das Prozessieren hochladen oder trainieren können :-))

auch um herauszufinden, ob man mit diesem Ansatz aus vorhandenen "freien Texten" (etwa aus Wikipedia, Gutenberg, zeno.org und anderen freien Quellen gezielt neue Dokumente erstellen kann
und natürlich auch eigene Text-Sammlungen einbeziehen kann, ohne sie etwa in die Prompts vom CHAT-GPT einzubauen
.. angeregt dazu hat mich ein Experiment:

Hannes Bajohr hat Lyrik Texte "remixen lassen" und lässt einen Roman aus 4 Gegenwartsromanen schreiben!

"Ich versuche gerade selbst, einen Roman mit KI zu schreiben. Es ist ein Experiment: Ich habe die KI mit vier aktuellen Gegenwartsromanen trainiert – alle mit inhaltlichem Digitalbezug. Und jetzt schreibt die KI in diesem Stil – oder versucht es zumindest. Das ist ästhetisch und literaturwissenschaftlich aufschlussreich: Dieser Stil ist ein Amalgam, das nicht mehr aus einem Autor besteht, sondern aus vier Stimmen. Gleichzeitig ist es auch eine Umkehrung der Digital Humanities, indem man die Analyse zur Synthese macht, der Output also Rückschlüsse auf den Input erlaubt. Und schließlich erfährt man auch etwas über die Arbeitsweise der KI, die nämlich eigentlich nicht erzählen kann, es aber auf Teufel komm raus trotzdem versucht. Das ist auch ein großer Spaß."
Quelle: Die ZEIT

Berlin-Miami (mit GPT-J)

… noch interessanter wird es durch einen Beitrag von
@hannesbajohr, der mit Hilfe von GPT-J sozusagen die sprachliche Quintessenz des Gegenwartsromans erstellt hat.
DFG-Projekt „Schreibweisen der Gegenwart“
via twitter

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

Quelle: https://pbs.twimg.com/media/Fv7u8JAXwAYda8x?format=jpg&name=large

Zugriff auf GPT-J??

EleutherAI - GPT-J-6B ist eine kostenlose browserbasierte Anwendung, die es Benutzern ermöglicht, EAI-Modelle allein aus Texteingabe zu generieren.

https://eleutherai-gpt-j-6b.de.softonic.com/web-apps

https://6b.eleuther.ai/

GPT4All

https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b
A free-to-use, locally running, privacy-aware chatbot. No GPU or internet required.
https://gpt4all.io/index.html
.
GPT4All
Open-source assistant-style large language models that run locally on your CPU

GPT4All Website
https://gpt4all.io/

GPT4All Documentation
https://docs.gpt4all.io/

Discord
https://discord.gg/mGZE39AS3e

🦜️🔗 Official Langchain Backend
https://python.langchain.com/en/latest/modules/models/llms/integrations/gpt4all.html

GPT4All is made possible by our compute partner Paperspace.
https://www.paperspace.com/

Lernprozesse. Lyrik (Auswahl)

https://hannesbajohr.de/wp-content/uploads/2021/09/Hannes_Bajohr_Lernprozesse-Lyrik.pdf
.. darin findet sich eine Bemerkung:

"Das KI-Sprachmodell GPT-2 (in der Version von zamia und mittels der hugging- face-Bibliothek) wurde mit allen deutschsprachigen Gedichten von „lyrikline.org“ trainiert; es handelt sich bei den Gedichten somit um einen statistischen Querschnitt deutschsprachiger Gegenwartslyrik."

  • im Zeit-Interview (15. April 2023) spricht er ein neues Projekt an

Bajohr: Das wird ein interessanter Aushandlungsprozess werden. Ich versuche gerade selbst, einen Roman mit KI zu schreiben. Es ist ein Experiment: Ich habe die KI mit vier aktuellen Gegenwartsromanen trainiert – alle mit inhaltlichem Digitalbezug. Und jetzt schreibt die KI in diesem Stil – oder versucht es zumindest. Das ist ästhetisch und literaturwissenschaftlich aufschlussreich: Dieser Stil ist ein Amalgam, das nicht mehr aus einem Autor besteht, sondern aus vier Stimmen. Gleichzeitig ist es auch eine Umkehrung der Digital Humanities, indem man die Analyse zur Synthese macht, der Output also Rückschlüsse auf den Input erlaubt. Und schließlich erfährt man auch etwas über die Arbeitsweise der KI, die nämlich eigentlich nicht erzählen kann, es aber auf Teufel komm raus trotzdem versucht. Das ist auch ein großer Spaß.
Quelle: https://www.zeit.de/kultur/2023-04/hannes-bajohr-kuenstliche-intelligenz-literatur/seite-2

das "deutschsprachige" GPT-2 Modell

https://huggingface.co/dbmdz/german-gpt2

More details about GPT-2 can be found in the great Hugging Face documentation.
https://huggingface.co/docs/transformers/model_doc/gpt2

Training corpora

We use pretty much the same corpora as used for training the DBMDZ BERT model, that can be found in this repository.
https://github.com/dbmdz/berts

.. ein weiteres Beispiel:

Die Gedicht-KI von Lukas Diestel: https://www.falschegefuehle.de/info/

"Grundlage für die KI ist ein vortrainiertes deutsches GPT-2-Modell. GPT-2 ist ein künstliches neuronales Netz, ein statistisches Sprachmodell, welches im Grunde genommen Sprache ausrechnet und dann berechnen kann wie wahrscheinlich, in welchem Kontext, welches Wort ist (sehr verkürzt). Dadurch ist es mit GPT-2 möglich, abhängig von ein paar ersten Wörtern, quasi endlos neuen Text zu generieren. Das vortrainierte Modell wurde von mir mit einem selbst zusammengestellten Korpus aus etwas über 90'000 Zeilen deutschsprachiger Lyrik weitertrainiert (für Interessierte: mit Transformers)."

sehr schöne Beispiele u.a. "mit" Text-Material" Allen Ginsberg und T.S. Eliot finden sich auch hier:

GPT-2 Neural Network Poetry

https://gwern.net/gpt-2

Demonstration tutorial of retraining OpenAI’s GPT-2 (a text-generating Transformer neural network) on large poetry corpuses to generate high-quality English verse.

  • GPT-2-117M completions of Allen Ginsberg’s “Howl”: “An Eternal Howl”
  • Shelley’s “Ozymandias”: “GPT-2 Writes a Shelley Poem
  • Alexander Pope’s Essay On Criticism: “GPT-2 As Step Toward General Intelligence”
  • 8 famous opening lines from Tennyson, Yeats, Shakespeare, Henley, Whitman, T.S. Eliot: Peter Krantz
  • “Ask GPT-2: Helpful Advice From A Confused Robot”: T.S. Eliot’s ⁠“Wasteland

andere Anleitungen:

Wie man GPT-3, GPT-J und GPT-Neo verwendet, mit wenigen Schritten zu lernen

"GPT-Neo und GPT-J sind beides Open-Source-Modelle für die Verarbeitung natürlicher Sprache, die von einem Kollektiv von Forschern entwickelt wurden, die an der Forschern, die an Open Source AI arbeiten (siehe die Website von EleutherAI).

GPT-J hat 6 Milliarden Parameter und ist damit das fortschrittlichste Open-Source-Modell für natürliche Sprachverarbeitung Modell zum Zeitpunkt dieses Schreibens. Es ist eine direkte Alternative zu OpenAIs proprietärem GPT-3 Curie.

Diese Modelle sind sehr vielseitig. Sie können für fast jeden Anwendungsfall der natürlichen Sprachverarbeitung verwendet werden: Texterstellung, Sentiment Analyse, Klassifizierung, maschinelle Übersetzung, und vieles mehr (siehe unten). Sie effektiv zu nutzen erfordert manchmal etwas Übung. Ihre Reaktionszeit (Latenz) kann auch länger sein als bei Standardmodellen der natürlichen Sprachverarbeitung Modelle.

GPT-J und GPT-Neo sind beide über die NLP Cloud API verfügbar. Im Folgenden zeigen wir Ihnen Beispiele, die unter Verwendung des GPT-J Endpunkt der NLP Cloud auf GPU, mit dem Python-Client. Wenn Sie die Beispiele kopieren und einfügen möchten, bitte vergessen Sie nicht, Ihr eigenes API-Token hinzuzufügen. Um den Python-Client zu installieren, führen Sie zunächst Folgendes aus: pip install nlpcloud."
https://nlpcloud.com/de/effectively-using-gpt-j-gpt-neo-gpt-3-alternatives-few-shot-learning.html

https://nlpcloud.com/de/effectively-using-gpt-j-gpt-neo-gpt-3-alternatives-few-shot-learning.html

Deine KI selbst programmieren: Wie du Künstliche Intelligenz zur Vorhersage von Immobiliendaten verwendest

http://python-programmieren.maximilianwittmann.de/kiselbstprogrammieren/

oder doch gleich 🤖 GPT4All – jetzt einfach und kostenlos auf deinem Rechner installieren

https://github.com/nomic-ai/gpt4all

How To Make Custom AI-Generated Text With GPT-2

https://minimaxir.com/2019/09/howto-gpt2/

In February 2019, OpenAI released a paper describing GPT-2, a AI-based text-generation model based on the Transformer architecture and trained on massive amounts of text all around the internet. From a text-generation perspective, the included demos were very impressive: the text is coherent over a long horizon, and grammatical syntax and punctuation are near-perfect.
At the same time, the Python code which allowed anyone to download the model (albeit smaller versions out of concern the full model can be abused to mass-generate fake news) and the TensorFlow code to load the downloaded model and generate predictions was open-sourced on GitHub.

Neil Shepperd created a fork of OpenAI’s repo which contains additional code to allow finetuning the existing OpenAI model on custom datasets. A notebook was created soon after, which can be copied into Google Colaboratory and clones Shepperd’s repo to finetune GPT-2 backed by a free GPU. From there, the proliferation of GPT-2 generated text took off: researchers such as Gwern Branwen made GPT-2 Poetry and Janelle Shane made GPT-2 Dungeons and Dragons character bios.

I waited to see if anyone would make a tool to help streamline this finetuning and text generation workflow, a la textgenrnn which I had made for recurrent neural network-based text generation. Months later, no one did. So I did it myself. Enter gpt-2-simple, a Python package which wraps Shepperd’s finetuning code in a functional interface and adds many utilities for model management and generation control.

Thanks to gpt-2-simple and this Colaboratory Notebook, you can easily finetune GPT-2 on your own dataset with a simple function, and generate text to your own specifications!
you can easily finetune GPT-2 on your own dataset with a simple function, and generate text to your own specifications!

minimaxir / gpt-2-simple

https://github.com/minimaxir/gpt-2-simple

A simple Python package that wraps existing model fine-tuning and generation scripts for OpenAI's GPT-2 text generation model

mit sehr schönen "klassischen" Beispielen von Literatur-Remixes / Umschreibungen mit KI:

Erste Einführung von Pit Noack (13.12.22)

.. dessen wunderbares Buch "Künstliche Intelligenz verstehen - eine spielerische Einführung" gerade erschienen ist:
https://www.maschinennah.de/ki-buch/
(.. mit Programmierbeispielen zu allen Kapiteln!!)

Ich durfte ihm bei einer ersten Erkundung über die Schulter schauen:

Die Programmier-Umgebung für Python

colab: https://colab.research.google.com/

Einführungen zu colab: https://colab.research.google.com/#scrollTo=Nma_JWh-W-IF

Willkommen bei Colaboratory

https://lehre.idh.uni-koeln.de/lehrveranstaltungen/sosem20/ki-kunstgeschichte/block-i-python/google-colab/

Google Colab: Alles, was Sie wissen müssen: https://geekflare.com/de/google-colab/

Ein notebook in colab erstellen

Wählen Sie im Kontextmenü Datei -> Neues Notizbuch.
Ihr neues Python-Notebook ist fertig. Sie können die Notebook-Datei umbenennen.
https://geekflare.com/de/google-colab/, Kapitel 7)

colab Syntax

https://colab.research.google.com/notebooks/basic_features_overview.ipynb

Anleitung: Train a language model

.. if you're opening this Notebook on colab, you will probably need to install 🤗 Transformers and 🤗 Datasets. Uncomment the following cell and run it.
https://github.com/huggingface/notebooks/blob/main/examples/language_modeling_from_scratch.ipynb

.. auch dieser Schritt-für-Schritt Anleitung die jeweiligen Python Befehle kopieren und in das eigene notebook einfügen

Anmerkungen:
Der Token, den man generiert muß „write“ sein …
mit
!
setzt man „Terminalbefehle“ ein …

Das dauerte ca. 30 Minuten - Dann fing das Training an: nach 30 Minuten waren 7 von 6000 Datensätzen
generiert … (Beschränkung der kostenlosen Version😞

wie man auf github gehostete jupyter notebooks auf colab öffnet

Pit Noack fand später noch heraus:
Ich habe rausgefunden, wie man auf github gehostete jupyter notebooks auf colab öffnet. du musst einfach
github.com um tocolab ergänzen. also:
https://githubtocolab.com/huggingface/notebooks/blob/main/examples/language_modeling_from_scratch.ipynb

Transformers for Natural Language Processing - Second Edition By Denis Rothman

zur Vertiefung ist ein Transformer Buch zu empfehlen - es kostet als pdf nur 5 €: https://www.packtpub.com/product/transformers-for-natural-language-processing-second-edition/9781803247335

Tutorials

https://minimaxir.com/2019/09/howto-gpt2/

to be continued :-)