007: Aufmerksamkeit ist alles

Heute vor sieben Jahren, am 12. Juni 2017, wurde das bahnbrechende Paper „Attention Is All You Need“ veröffentlicht. Dieses Werk hat die Welt der Künstlichen Intelligenz revolutioniert. Die Grundlage heutiger KI-Agenten wurde mit diesem wissenschaftlichen Paper geschaffen: Die 007 der künstlichen Intelligenz.

Kernaussagen

Aufmerksamkeit ist genau wie für die Menschen auch für die KI fundamental.

Die Kernaussagen des Papers sind:

Innovative Transformer-Architektur, die aus Encoder- und Decoder -Komponenten besteht.
Aufmerksamkeitsmechanismus, der unterschiedlichen Teilen der Eingabe unterschiedliche Bedeutung beimisst.
Dadurch Steigerung der Effizienz und der Skalierbarkeit der KI.

Auswirkungen

Das Paper von Vaswani et al (2017) war der Wegweiser zur weiteren KI Entwicklung:

Transformer-Modelle wie DeepL erzielen bei der Sprachübersetzung gute Ergebnisse.
Auf dieser Transformer-Architektur funktionieren Sprachmodelle wie ChatGPT oder BERT.
Auch für die Bildgenerierung mit DALL-E oder Midjourney werden diese Transformer-Modelle genutzt.

Die Transformer-Architektur hat sich als so einflussreich erwiesen, dass sie die Grundlage für viele weitere Modelle bildet. Sie wurden beispielsweise auch für die Verarbeitung von Videos angepasst.

Selbstaufmerksamkeit lässt die Fehler weichen

Selbstaufmerksamkeit ermöglicht es den KI Modellen, Daten richtig zu erfassen und komplexe Muster zu erkennen. Mithilfe der Selbstaufmerksamkeit kann die künstliche Intelligenz auch ihre eigenen Fehler besser erkennen und korrigieren.

Die Selbstaufmerksamkeit ermöglicht es, Kontextinformationen über große Entfernungen in der Eingabesequenz zu berücksichtigen. Dies hilft, Inkonsistenzen oder Fehler im eigenen Output zu erkennen, indem sie frühere und spätere Informationen besser in Zusammenhang bringen können.

Durch die Berücksichtigung des gesamten Kontextes kann ein Modell die Antworten genauer und kohärenter gestalten. Das führt zu weniger Fehlern. Das Modell kann durch die erneute Bewertung des Kontexts selbst eine Korrektur vornehmen.

Selbstaufmerksamkeit ermöglicht es, die Ausgaben iterativ zu verfeinern. Die KI analysiert ihren Output selbst, identifiziert die Probleme und verbessert diese gezielt.

Indem die KI-Modelle relevante Teile des Inputs stärker gewichten, werden wichtige Informationen nicht übersehen.

In Kombination mit Reinforcement Learning und anderen Feedback-Mechanismen trägt die Selbstaufmerksamkeit dazu bei, dass Modelle aus ihren Fehlern langfristig lernen. Sie verbessern so ihre Leistung kontinuierlich.

Bei generativen Aufgaben wie Textgenerierung werden durch diese Selbstaufmerksamkeit, vorherige Teile des generierten Textes berücksichtigt. Dadurch schaffen die KI-Modelle logische und kohärente Texte.

Grundlage für KI-Agenten 007

Der Artikel „Attention is All You Need“ hat auch zur Entwicklung von KI-Agenten beigetragen:

Die Transformer-Architektur hat die Verarbeitung natürlicher Sprache (NLP) revolutioniert. Diese Fortschritte sind entscheidend für KI-Agenten, die Sprache verstehen und generieren müssen, um mit Menschen oder anderen Agenten zu interagieren.
Transformer-Modelle sind sehr effizient. Dies ist wichtig für KI-Agenten, die in Echtzeit Entscheidungen treffen und handeln müssen.
Die Transformer-Architektur hat sich als sehr gut für Transfer Learning erwiesen. Dabei überträgt ein Modell, das für eine Aufgabe trainiert wurde, das Wissen auf eine andere Aufgabe. Dadurch werden KI-Agenten schneller und mit weniger Daten trainiert.
Die Transformer-Architektur wurde erfolgreich auf Bilder und Videos erweitert. Dies eröffnet neue Möglichkeiten für KI-Agenten. Sie können die Informationen aus verschiedenen Quellen kombinieren und können aufgrund multimodaler Modelle bessere Entscheidungen treffen.

Sind die KI-Agenten 007 unsere neuen Meister?

Mit „Attention is All You Need“ hat die wissenschaftliche Entwicklung ein neues Paradigma in der Entwicklung von KI-Agenten aufgeschlagen.

Wurde nicht durch diese Selbstreflexion der KI eine neue Spezies geschaffen, die das Potenzial hat, unser Meiser werden zu können?

Oder mit Goethes Worten:

„Die alten Meister sind nun weg,
Da fang ich selbst das Regiment an;
Ich bin nun bald im Stande,
Mit Geistesstärke und Tat
Zu üben die hohe Magie.
…
Herr, die Not ist groß!
Die ich rief, die Geister,
Werd ich nun nicht los.“

Jedoch sehen wir dem innovativen Mindset keine Not, sondern unsere größte Chance.

Heute feiern wir den 007. Geburtstag der KI-Agenten.

Herzlichen Glückwunsch 007!

Quellen

„Attention is All You Need“ Paper:

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008):
Attention Is All You Need auf arXiv (ar5iv) (ar5iv).

Transformer-Modelle:

DeepL: DeepL Blog (https://www.deepl.com/blog) – Hier finden Sie Informationen über die Technologie und Forschung hinter DeepL.
ChatGPT: OpenAI’s GPT-3 Paper (Brown et al., 2020) – Das Paper beschreibt die Grundlagen von GPT-3, auf dem ChatGPT basiert.
BERT: Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
DALL-E: Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., … & Sutskever, I. (2021). Zero-shot text-to-image generation. arXiv preprint arXiv:2102.12092.
Midjourney: Midjourney Website (https://www.midjourney.com/) – Hier finden Sie Informationen über das Modell und seine Anwendungsmöglichkeiten.

Videoverarbeitung mit Transformer-Modellen:

Phenaki: (ehemals VideoGPT) – Runway Research Website (https://research.runwayml.com/) – Hier finden Sie Informationen über Phenaki und andere Forschungsprojekte von Runway.

KI-Agenten:

AlphaStar: Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., … & Silver, D. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782), 350-354.

Edith Therese Nörthemann

Edith Noerthemann ist Diplomkauffrau mit der Diplomnote 0,7. Sie verbindet analytische Tiefe mit Innovations- und KI-Kompetenz. Sie begleitet Unternehmen im Umgang mit Ambiguitäten und hilft dabei, Kreativität zu kultivieren und sie als echte Wettbewerbsvorteile zu nutzen.