Glossar Künstliche Intelligenz

Seit dem Start von ChatGPT spricht fast jeder mit KI und wer noch nicht mit KI spricht, spricht über KI; mehr oder weniger wissend. Wir haben viel mit Perplexity, ChatGPT, Claude, Llama gesprochen und noch mehr über die Modelle und ihre Hintergründe gelesen. Unser Wissen halten wir fest, damit Sie, liebe Leserin, lieber Leser, es einfach greifen können. Diese Seite wächst stetig an und wir werden auch aktuelle Entwicklungen abbilden.

DALL-E 3

DALL-E 3 ist ein von OpenAI entwickeltes Modell zur Generierung von Bildern aus Textbeschreibungen. Es wird für kreative Anwendungen, wie die Bildgenerierung im Design und Kunstbereich, eingesetzt. Das Modell basiert auf einer Transformer-Architektur und ist proprietär lizenziert. DALL-E 3 ist besonders in kreativen Industrien für die visuelle Gestaltung von Bedeutung und wurde im Oktober 2023 veröffentlich.

 

Deep Learning

Eine spezielle Art des maschinellen Lernens, die tiefe neuronale Netzwerke mit vielen Schichten verwendet, um komplexe Muster in großen Datenmengen zu lernen. Jede Schicht im Netzwerk verarbeitet die Informationen weiter und lernt zunehmend abstraktere Merkmale, was es besonders nützlich für Aufgaben wie Bilderkennung, Spracherkennung und Übersetzungen macht.

 

ERNIE 4.0

ERNIE 4.0 wurde am 17. Oktober 2023 von Baidu in Peking offiziell vorgestellt und veröffentlicht. Im November 2023 wurde ERNIE 4.0 dann für zahlende Abonnenten verfügbar gemacht. Es hat ähnlich wie GPT 4 multimodale Fähigkeiten, kann anders als GPT aber auch Anfragen mit Videos verarbeiten. Das Modell wurde auf etwa 4 Billionen Tokens trainiert und ist proprietär lizenziert. ERNIE 4.0 ist besonders in China von Bedeutung, wurde hauptsächlich für die chinesische Sprache entwickelt, kann aber auch auf Englisch antworten, wenn auch auf einem weniger fortgeschrittenen Niveau.

 

Foundation Modell

Ein Foundation Modell ist ein leistungsfähiges KI-System, das auf einer großen und vielfältigen Menge von Daten trainiert wurde und als Basis für verschiedene Anwendungen dient. Diese Modelle können komplexe Aufgaben in Bereichen wie Textverarbeitung, Bildanalyse und Spracherkennung bewältigen, ohne für jede spezifische Aufgabe neu trainiert werden zu müssen. Sie nutzen fortschrittliche Techniken des maschinellen Lernens, um Muster zu erkennen und allgemeine Fähigkeiten zu entwickeln. Foundation Modelle können durch Feinabstimmung an spezifische Anwendungen angepasst werden, was ihre Vielseitigkeit erhöht. Beispiele sind GPT, BERT oder DALL·E.

 

Gato

Gato ist ein Multi-Task-Modell von DeepMind, das für Sprachverarbeitung, Bildverarbeitung und Steuerung von Robotern entwickelt und im Mai 2022 vorgestellt wurde. Es kann mehr als 600 verschiedene Aufgaben verarbeiten. DeepMind sieht Gato als einen Schritt in Richtung genereller künstlicher Intelligenz. Gato ist proprietär lizenziert und wird in vielen Bereichen der KI eingesetzt, die unterschiedliche Datenverarbeitungen erfordern.

 

Gopher

Gopher ist ein Sprachmodell von DeepMind, das auf einem großen Textkorpus von 10,5 TB trainiert wurde und verfügt über 280 Milliarden Parameter. Google / DeepMind hat es im Januar 2022 veröffentlicht. Das Modell zeigte besonders gute Leistungen bei wissensintensiven Aufgaben wie Faktenüberprüfung, allgemeinem Wissen, MINT-Themen und Medizin. Gopher ist proprietär lizenziert.

 

GPT-4

GPT-4 ist ein Sprachmodell von OpenAI, das auf der Transformer-Architektur basiert und am 13. Mai 2024 von OpenAI veröffentlicht. Es wurde mit etwa 1,8 Billionen Parametern trainiert und kann große Textmengen verarbeiten. GPT-4 wird für Textgenerierung, Übersetzung und Textzusammenfassung eingesetzt. Es kann auf einen sehr großen Token-Kontext zugreifen (bis zu 128.000 Tokens). Das Modell ist proprietär lizenziert. Im Mai 2024 wurde die jüngste Version GPT-4o vorgestellt mit weiteren Verbesserungen hinsichtlich des Konversationsverhaltens, Problemlösefähigkeiten, Multi-modalität und Ressourceneffizienz.

 

Grok-2          

Grok ist ein Sprachmodell von xAI, das für die Verarbeitung natürlicher Sprache entwickelt wurde. Es wird für Aufgaben wie Text- und Bildgenerierung und Fragebeantwortung verwendet, es beherrscht aber auch Programmierung und Mathematik. Das Modell ist insbesondere auf die Social Media Integration in X optimiert. Grok nutzt den Echtzeitzugriff auf X-Daten als Wettbewerbsvorteil und zielt darauf ab, eine menschenähnlichere Interaktion zu bieten als andere KI-Modelle, so kann es z.B. mit Humor und einer "rebellischen Ader" antworten, was es von neutraleren KI-Assistenten unterscheidet. Teile der Grok-1-Software wurden im März 2024 als Open Source freigegeben.

 

Large-Language-Modelle (LLM)

Ein Large Language Model (LLM) ist ein KI-Modell, das darauf trainiert ist, menschliche Sprache zu verstehen und zu generieren. Diese Modelle basieren in der Regel auf neuronalen Netzwerken, insbesondere auf der Transformer-Architektur. LLMs bilden die Grundlage für Chatbots und Sprachassistenten und weitere textbasierte Anwendungen. Beispiele für LLM sind GPT, BERT, Llama oder Grok.

 

LLaMA 2

LLaMA 2 ist ein Sprachmodell von Meta AI mit 70 Milliarden Parametern. Es wird für Textgenerierung, Sprachverstehen und Dialogsysteme verwendet. Das Modell wurde auf einem großen Datensatz von etwa 2 Billionen Tokens trainiert und kann bis zu 4096 Tokens im Kontext verarbeiten. Es ist weitgehend frei nutzbar, unterliegt aber einigen Einschränkungen, die es von einer vollständigen Open-Source-Lizenz unterscheiden. Llama 2 wurde am 18. Juli 2023 von Meta in Zusammenarbeit mit Microsoft veröffentlicht.

 

long short-term memory-networks (LSTM)

Long Short-Term Memory-Networks (LSTM) sind eine Art von künstlichen neuronalen Netzwerken, die besonders gut darin sind, Informationen aus Reihen von Daten über längere Zeiträume zu speichern und zu nutzen. Sie sind nützlich für Aufgaben wie Spracherkennung, Textverarbeitung und Vorhersagen, weil sie sich an frühere Informationen erinnern können, auch wenn diese schon eine Weile her sind. LSTMs verwenden spezielle Mechanismen, um zu entscheiden, welche Informationen wichtig sind und behalten werden sollen, und welche verworfen werden können, was ihnen hilft, besser mit komplexen Daten umzugehen.

 

Luminous

Luminous ist ein Sprachmodell des deutschen KI-Unternehmens Aleph Alpha aus dem Jahr 2021, das für komplexe Aufgaben in der Sprachverarbeitung eingesetzt wird. Es ist proprietär lizenziert. Es beherrscht Multimodalität - kann Text und Bilder verarbeiten.

 

maschinelles Lernen

Maschinelles Lernen (ML) ist ein Bereich der Künstlichen Intelligenz (KI), bei dem Computerprogramme anhand von Daten eigenständig lernen, ohne dass sie dafür explizit programmiert werden müssen. Anstatt festen Regeln zu folgen, entwickeln diese Programme ihre eigenen Muster, um Vorhersagen oder Entscheidungen zu treffen. Dies geschieht durch das Trainieren von Algorithmen auf großen Datenmengen, sodass sie mit der Zeit immer besser darin werden, Aufgaben wie Bilderkennung, Sprachverarbeitung oder Datenanalyse zu erledigen. Maschinelles Lernen wird in vielen Bereichen eingesetzt, z.B. in der personalisierten Werbung, in Sprachassistenten oder bei der Betrugserkennung in Finanzsystemen.

 

Megatron-Turing NLG (MT-NLG)

MT-NLG ist ein von NVIDIA und Microsoft entwickeltes Sprachmodell mit 530 Milliarden Parametern, das im Januar 2022 vorgestellt wurde. Es wird für fortschrittliche Sprachverarbeitungsaufgaben wie Textgenerierung und Übersetzung verwendet. Das Modell wurde auf einem Datensatz von 270 Milliarden Tokens trainiert und ist unabhängig lizenziert. MT-NLG war zum Zeitpunkt seiner Veröffentlichung das größte Transformer-basierte Sprachmodell.

 

Mistral 7B

Mistral 7B wurde am 27. September 2023 veröffentlicht. Es ist ein Sprachmodell des französischen Unternehmens Mistral AI, das 7 Milliarden Parameter umfasst. Es wird für natürliche Sprachverarbeitung und Textgenerierung verwendet. Mistral 7B ist Open-Source und zeigt sehr gute Leistungen in Bereichen wie Mathematik, Code-Generierung und logischem Denken.

 

multi-modale Modelle

Multi-Modalität  bezieht sich auf die Fähigkeit eines KI-Modells, Informationen aus verschiedenen Arten von Daten (auch “Modalitäten” genannt) zu verarbeiten und zu integrieren. Diese Modalitäten können visuelle Daten (wie Bilder oder Videos), akustische Daten (wie Sprache oder Geräusche), textuelle Daten (wie geschriebener Text) und sensorische Daten (wie Temperatur oder Bewegungen) umfassen. Das ist deswegen so wichtig, weil in vielen Fällen Informationen parallel aus unterschiedlichen Quellen kommen, wie z.B: bei Videos, in denen Bild, Ton und Untertitel gleichzeitig erfasst werden müssen.

 

Natural Language Processing (NLP)

Ein Teilgebiet der KI, das sich mit der Verarbeitung und Analyse von natürlicher Sprache beschäftigt, um Maschinen zu ermöglichen, menschliche Sprache zu verstehen und zu generieren.

 

neuronales Netzwerk

Ein neuronales Netzwerk kann man sich als schrittweises (oder geschichtetes) System der Informationsverarbeitung vorstellen. In einer ersten Schicht werden Informationen von außen aufgenommen. In einer oder mehreren weiteren Schichten (bzw. Schritten) werden diese Informationen dann verdichtet. Wenn im Zuge dieser Verdichtung ein Schwellenwert überschritten wird, wird über die Ausgabeschicht ein Signal weitergegeben. So wird Beispielsweise der Lichteinfall im Auge von Neuronen in mehreren Schichten verdichtet auf die Gesamtmenge der Lichtintensität.  Diese verdichtete Information wird dann an den Edinger-Westphal-Kern übergeben, der die Steuerung der Pupillenverengung vornimmt. Künstliche neuronale Netzwerke bilden diese Grundstruktur nach. Dabei gibt es unterschiedliche Arten, wie z.B. Feedforward Neural Networks (FNN), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory Networks (LSTM) oder Transformer-Netzwerke.

 

Neuronen

Neuronen sind Zellen, über die im Nervensystem von Lebewesen Informationen weitergegeben werden. Neuronen haben üblicherweise mehree "Informationseingänge" und nur einen "Ausgang". Wenn die Summer der Eingangssignale einen Schwellenwert überschreiten, gibt das Neuron über den Ausgang einen Impuls. Dadurch wird aus mehreren Datenpunkten ein "zusammenfassendes" Ergebnis gebildet.

 

Overfitting

Ein Problem, bei dem ein Modell zu gut an die Trainingsdaten angepasst wird und dadurch schlecht generalisiert, d.h., es funktioniert schlecht auf neuen, unbekannten Daten.

 

PaLM 2

PaLM 2 ist ein Sprachmodell von DeepMind / Google, das auf der Pathways-Technologie basiert. Es hat etwa 340 Milliarden Parameter und wird für verschiedene Aufgaben der Sprachverarbeitung eingesetzt, darunter maschinelles Lernen und Textverständnis. PaLM 2 wurde am 10. Mai 2023 von Google veröffentlicht. Zum Zeitpunkt der Veröffentlichung gab Google an, dass PaLM 2 bereits in über 25 Google-Produkten und -Funktionen zum Einsatz kam, darunter Bard, Google Workspace und spezialisierte Versionen für Cybersicherheit und medizinisches Wissen. Es ist proprietär lizenziert.

 

Parameter

Parameter sind Zahlenwerte, die innerhalb eines Modells die Verbindungen und Gewichtungen zwischen den einzelnen Neuronen in einem neuronalen Netzwerk festlegen. Sie beeinflussen, wie stark ein bestimmtes Eingabedatum auf die endgültige Entscheidung oder Ausgabe des Modells wirkt. Während des Trainings eines KI-Modells werden diese Parameter durch den Lernprozess kontinuierlich angepasst, um das Modell zu verbessern und genauer zu machen. Je mehr Parameter ein Modell hat, desto mehr Informationen kann es verarbeiten, aber es benötigt auch mehr Rechenleistung und Daten. Parameter sind somit zentrale Bausteine, die bestimmen, wie gut ein KI-Modell Aufgaben wie Bilderkennung oder Sprachverarbeitung bewältigen kann.

 

Prompt

Ein Prompt ist eine Eingabe oder Aufforderung, die einem KI-Modell gegeben wird, um eine Antwort oder Reaktion zu erzeugen. Es kann ein kurzer Text, eine Frage oder eine Anweisung sein, die das Modell dazu bringt, relevante Informationen oder einen Text zu generieren. Die Qualität und Klarheit des Prompts beeinflusst, wie gut das Modell die Aufgabe versteht und darauf reagiert. In der Interaktion mit KI ist der Prompt der Schlüssel, um gezielte Antworten oder Aktionen des Modells zu steuern.

 

recurrent neural networks (RNN)

Ein RNN verarbeitet Informationen, die in einer bestimmten Reihenfolge kommen, wie z.B. Sätze in einem Text, Noten in einem Musikstück oder Messwerte über die Zeit. Die Informationen, zum Beispiel ein Wort, werden dabei "stückweise" verarbeitet und das Modell merkt sich, was vorher passiert ist. Dann benutzt es diese Erinnerung, um das nächste Stück Information besser zu verarbeiten. Viele Aufgaben, wie das Verstehen von Texten oder das Vorhersagen von Ereignissen in einer Zeitreihe, erfordern, dass vorherige Informationen erinnert werden und präsent sind. Aktuelle KI-Modelle basieren jedoch nicht mehr auf RNN sondern auf den leistungsfähigeren Transformer-Modellen.

 

Stable Diffusion

Stable Diffusion ist ein Open-Source-Modell von Stability AI, das in Zusammenarbeit mit Forschern der Ludwig-Maximilians-Universität München und Runway zur Bildgenerierung aus Texten entwickelt wurde. Stable Diffusion wurde am 22. August 2022 veröffentlicht. Es wird in den Bereichen Kunst, Design und Bildgenerierung eingesetzt. Das Modell nutzt einen diffusionsbasierten Ansatz, um hochauflösende und fotorealistische Bilder zu erzeugen. Stable Diffusion ist eine frei zugängliche Plattform.

 

T5

T5 (Text-to-Text Transfer Transformer) ist ein älteres Sprachmodell von Google, das alle NLP-Aufgaben in ein Text-zu-Text-Format umwandelt. Es wurde im Jahr 2019 von Google entwickelt und veröffentlicht. T5 wurde für Aufgaben wie Textübersetzung, Textzusammenfassung und Fragebeantwortung verwendet. Es wurde auf einem Textkorpus von 750 GB trainiert. T5 ist Open-Source unter der Apache 2.0-Lizenz.

 

Token

Ein Token ist im Zusammenhang mit Künstlicher Intelligenz (KI), insbesondere in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), eine grundlegende Einheit von Daten, die ein Modell verarbeitet. Tokens sind in der Regel Wörter, Wortteile oder sogar Zeichen, die aus einem Text extrahiert und für die Verarbeitung durch ein KI-Modell, wie beispielsweise ein Sprachmodell, vorbereitet werden.

 

Trainingsdaten

Trainingsdaten sind Beispiele, die ein KI-Modell während des Lernprozesses verwendet, um Muster, Beziehungen und Regeln zu erkennen. Je besser die Qualität und Vielfalt der Trainingsdaten, desto besser kann das Modell generalisieren und auf unbekannte Daten reagieren. Die Qualität bemisst sich in vielen Dimensionen, unter anderem in Güte und Genauigkeit, Repräsentativität, Ausgewogenheit und Datenmenge. Die einige der aktuellsten KI-Modelle wurden mit hunderten von Milliarden oder sogar Billionen von Token und Terabyte von Bilddaten trainiert.

 

Transformer

Ein Transformer-Netzwerk achtet nicht nur auf ein Wort nach dem anderen, sondern es schaut sich den gesamten Satz auf einmal an. Es entscheidet dann, welche Wörter wichtig sind und wie sie sich aufeinander beziehen, egal wo sie im Satz stehen. Diese Fähigkeit, auf alles gleichzeitig zu achten, wird Selbstaufmerksamkeit genannt. Durch diese Methode konnte die Qualität von Übersetzungen oder Textzusammenfassungen gegenüber älteren Verfahren ennorm verbessert werden. Beispiele füpr Transformer sind GPT, BERT oder T5.

 

Wu Dao 2.0

Wu Dao 2.0 ist ein Sprachmodell der Beijing Academy of Artificial Intelligence (BAAI), das auf einem umfangreichen Datensatz von 1,2 TB Text trainiert und im Juni 2021 vorgestellt wurde. Es wird für Sprachverarbeitung, Textgenerierung und maschinelles Lernen verwendet. Wu Dao 2.0 ist proprietär lizenziert und ein weiteres Beispiel für die rasanten Fortschritte in der chinesischen KI-Forschung.