# KI-Grundlagen
## **Chunking**
Aufteilen längerer Texte in kleinere, inhaltlich sinnvolle Abschnitte, damit sie effizient verarbeitet, gespeichert oder gesucht werden können (z. B. bei RAG).
---
## **Chunk Overlap**
Überlappung zwischen zwei Chunks, damit zusammenhängende Informationen nicht an Chunk-Grenzen verloren gehen.
---
## **Chunk Size**
Anzahl der Tokens pro Chunk. Zu große Chunks verwässern den Kontext, zu kleine verlieren Bedeutung.
---
## **Fine-Tuning**
Gezieltes Nachtrainieren eines bereits vortrainierten Modells mit speziellen Daten, um Verhalten, Stil oder Fachwissen anzupassen.
---
## **Halluzination**
Fehlerhaftes Verhalten eines Modells, bei dem es plausibel klingende, aber faktisch falsche oder erfundene Inhalte erzeugt – oft durch fehlenden oder falschen Kontext.
---
## **LLM (Large Language Model)**
Großes neuronales Sprachmodell, das Texte versteht und erzeugt, indem es Wahrscheinlichkeiten für die nächsten Tokens berechnet (z. B. Mistral, LLaMA, GPT).
---
## **Parameter**
Interne Gewichte eines Modells, die während des Trainings gelernt werden. Die Anzahl (z. B. 7B) gibt grob die Modellgröße und -kapazität an, nicht direkt die Qualität.
---
## **Prompt**
Der vollständige Eingabetext, den das Modell erhält. Er bestimmt maßgeblich Struktur, Stil und Qualität der Ausgabe.
---
## **Quantisierung**
Technik zur Reduktion der numerischen Genauigkeit von Modellgewichten (z. B. von FP16 auf INT4), um Speicherbedarf und Rechenlast zu senken – meist mit minimalem Qualitätsverlust.
---
## **Token**
Kleinste Verarbeitungseinheit eines Sprachmodells. Ein Token kann ein Wortteil, ein ganzes Wort oder ein Sonderzeichen sein.
---
## **Token-Limit**
Maximale Anzahl an Tokens, die ein Modell gleichzeitig verarbeiten kann (Eingabe + Ausgabe zusammen).
---
## **Tokenisierung**
Prozess, bei dem Text in Tokens zerlegt wird. Unterschiedliche Modelle verwenden unterschiedliche Tokenizer.
---
## **Training**
Vortraining eines Modells auf sehr großen Textmengen, bei dem es grundlegende Sprachmuster, Grammatik und Weltwissen lernt.
---
## **User Prompt**
Der Teil des Prompts, der direkt vom Nutzer kommt (im Gegensatz zu z. B. System- oder Entwickler-Prompts).
---
## Was sind Embeddings?
Embeddings = Bedeutung als Zahlen
Ein Embedding ist ein Vektor, z. B.:
[0.012, -0.883, 1.442, 0.091, ...]
Dieser Vektor beschreibt nicht den Text, sondern seine semantische Bedeutung.
| Text | Bedeutung |
| ---------------------- | --------- |
| „SQL JOIN erklärt“ | 🔵 |
| „INNER JOIN Beispiel“ | 🔵 |
| „Wie koche ich Pasta?“ | 🔴 |
Die KI rechnet nicht mit Wörtern, sondern mit Abständen zwischen Vektoren