# KI-Grundlagen ## **Chunking** Aufteilen längerer Texte in kleinere, inhaltlich sinnvolle Abschnitte, damit sie effizient verarbeitet, gespeichert oder gesucht werden können (z. B. bei RAG). --- ## **Chunk Overlap** Überlappung zwischen zwei Chunks, damit zusammenhängende Informationen nicht an Chunk-Grenzen verloren gehen. --- ## **Chunk Size** Anzahl der Tokens pro Chunk. Zu große Chunks verwässern den Kontext, zu kleine verlieren Bedeutung. --- ## **Fine-Tuning** Gezieltes Nachtrainieren eines bereits vortrainierten Modells mit speziellen Daten, um Verhalten, Stil oder Fachwissen anzupassen. --- ## **Halluzination** Fehlerhaftes Verhalten eines Modells, bei dem es plausibel klingende, aber faktisch falsche oder erfundene Inhalte erzeugt – oft durch fehlenden oder falschen Kontext. --- ## **LLM (Large Language Model)** Großes neuronales Sprachmodell, das Texte versteht und erzeugt, indem es Wahrscheinlichkeiten für die nächsten Tokens berechnet (z. B. Mistral, LLaMA, GPT). --- ## **Parameter** Interne Gewichte eines Modells, die während des Trainings gelernt werden. Die Anzahl (z. B. 7B) gibt grob die Modellgröße und -kapazität an, nicht direkt die Qualität. --- ## **Prompt** Der vollständige Eingabetext, den das Modell erhält. Er bestimmt maßgeblich Struktur, Stil und Qualität der Ausgabe. --- ## **Quantisierung** Technik zur Reduktion der numerischen Genauigkeit von Modellgewichten (z. B. von FP16 auf INT4), um Speicherbedarf und Rechenlast zu senken – meist mit minimalem Qualitätsverlust. --- ## **Token** Kleinste Verarbeitungseinheit eines Sprachmodells. Ein Token kann ein Wortteil, ein ganzes Wort oder ein Sonderzeichen sein. --- ## **Token-Limit** Maximale Anzahl an Tokens, die ein Modell gleichzeitig verarbeiten kann (Eingabe + Ausgabe zusammen). --- ## **Tokenisierung** Prozess, bei dem Text in Tokens zerlegt wird. Unterschiedliche Modelle verwenden unterschiedliche Tokenizer. --- ## **Training** Vortraining eines Modells auf sehr großen Textmengen, bei dem es grundlegende Sprachmuster, Grammatik und Weltwissen lernt. --- ## **User Prompt** Der Teil des Prompts, der direkt vom Nutzer kommt (im Gegensatz zu z. B. System- oder Entwickler-Prompts). --- ## Was sind Embeddings? Embeddings = Bedeutung als Zahlen Ein Embedding ist ein Vektor, z. B.: [0.012, -0.883, 1.442, 0.091, ...] Dieser Vektor beschreibt nicht den Text, sondern seine semantische Bedeutung. | Text | Bedeutung | | ---------------------- | --------- | | „SQL JOIN erklärt“ | 🔵 | | „INNER JOIN Beispiel“ | 🔵 | | „Wie koche ich Pasta?“ | 🔴 | Die KI rechnet nicht mit Wörtern, sondern mit Abständen zwischen Vektoren