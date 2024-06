Gut drei Wochen ist es her, dass Google im Rahmen der Entwicklerkonferenz I/O eine neue Werbeoffensive für sein KI-Modell Gemini gestartet hat. Eine klare Kampfansage an den unmittelbaren Konkurrenten ChatGPT, der - zumindest in der öffentlichen Wahrnehmung - immer einen kleinen Schritt voraus zu sein scheint. Bei Google sieht man das freilich anders. OpenAI sei mit der Veröffentlichung von ChatGPT medienwirksam vorgeprescht. Nicht mehr, nicht weniger. Selbst forsche man schon seit Jahren an der Entwicklung ganz ähnlicher Modelle, nicht zuletzt gab CEO Sundar Pichai intern bereits vor Jahren die Devise "AI first" aus.

Dennoch kommen aktuelle Berichte über schlechte Erfahrungen im Zusammenhang mit künstlicher Intelligenz aus dem Hause Google zur Unzeit. Etwa dass die neuen KI-Überblicke, die kürzlich in den USA in die Google-Suche integriert wurden, den Nutzerinnen und Nutzern die Empfehlung gaben, den Käse auf ihrer Pizza mit Klebstoff zu befestigen. Es war dies nur eines von vielen Beispielen für falsche Informationen, die unter anderem deshalb zustande kamen, weil die KI satirische Beiträge für bare Münze nahm und sie direkt an Google-Suchende weitergab.

Auch das multimodale Sprachmodell Gemini neigt zu Fehlern. Es kann halluzinieren, also Behauptungen aufstellen, die schlicht falsch sind. Das ist kein neues Phänomen, auch ChatGPT halluziniert. Doch hat Google gar keine Bedenken, dass Geminis Halluzinationen zu einem Imageschaden für das Unternehmen führen? "Das ist natürlich ein sehr wichtiges Thema für uns", sagt Martin Bäuml, der das Gemini-Team in Zürich leitet. An den Google-Standorten in der Schweiz werde in großen Gruppen genau an diesen Problemen gearbeitet. Ein Ergebnis dieser Arbeit ist, dass Nutzer eine erneute Überprüfung von Geminis Antworten veranlassen können. Bei dieser Double-Check-Funktion werden die einzelnen Aspekte einer Antwort mithilfe der Google-Suche erneut überprüft. Kommt Gemini dabei zu dem Schluss, dass einzelne Teile der zuvor gegebenen Antwort korrekt sind, werden diese grün markiert. Orange bedeutet, dass keine zusätzliche Quellen gefunden wurden, die eine konkrete Aussage bestätigen.

Auf die Möglichkeit, dass Antworten gegeben werden, die schlicht falsch sind, weist Google an prominenter Stelle hin. "Es werden möglicherweise fehlerhafte Informationen angezeigt", heißt es in der Gemini-App. Bäuml geht noch einen Schritt weiter und betont, dass es sich um ein Sprachmodell handelt, dessen Stärke im Erzeugen neuer, kreativer Texte liege: "In vielen Anwendungsfällen, gerade wenn es ums kreative Schreiben geht, ist diese Halluzination ein Feature. Wir wollen ja nicht immer den langweiligen Text, der schon vorher existiert hat." Daraus ergebe sich ein Balanceakt, so Bäuml. Es gehe darum, "für bestimmte Fragen diese Kreativität zu nutzen und für andere Fragen sehr faktengerecht zu sein."

Aus Bäumls Ausführungen ergibt sich ein eindeutiges Bild, das Google - zumindest nach außen hin - zeichnet. Es soll eine klare Unterscheidung zwischen Gemini und der Google-Suche geben. Und man legt es in die Verantwortung der Nutzer, welches Werkzeug diese verwenden - Gemini für kreatives Schaffen, die Suche für die Recherche von Fakten.

Bild: Google

Sprache als Kernkompetenz

Herausforderungen ergeben sich bei KI-Modellen auch bei der Verwendung verschiedener Sprachen. Vor allem wenn es darum geht, diese Sprachen miteinander zu verknüpfen. "Die Modelle können ja die meisten Sprachen schon, trotzdem muss man eine Extra-Arbeit leisten", sagt Sabine Lehmann, die mit ihrem Team daran arbeitet, dass die KI auf Deutsch - oder in einer anderen der insgesamt 35 unterstützten Sprachen - antwortet.

Einen häufigen Anwendungsfall für den Einsatz von KI-Modellen sieht Lehmann im bewussten Umgang mit Sprache und sprachlichen Nuancen. Etwa wenn es darum geht, einen Text in einer bestimmten Sprache zu verfassen, die der Nutzer gar nicht spricht. Oder einen bereits verfassten Text nach stilistischen Vorgaben abzuändern.

Lehmann betont, dass ein Austausch mit der KI keineswegs eine Einbahnstraße sei: "Mit diesen Modellen kann man Konversation machen." Das sogenannte Kontextfenster beschreibt dabei die Menge an Informationen, die das Modell auf einmal verarbeiten kann. Das aktuelle Gemini-Modell schafft in der Bezahlversion bis zu einer Million Tokens, was in etwa 750.000 Wörtern entspricht. Derzeit testet Google Arbeitsbereiche bis zu zehn Millionen Tokens.

Was Googles KI-Modell kann - und wie es funktioniert

Mobile App: Seit Anfang Juni können Android-Nutzer auch in Österreich die App Gemini herunterladen. Für iOS-Nutzer wird Gemini hierzulande "in den kommenden Wochen" verfügbar sein.

Seit Anfang Juni können Android-Nutzer auch in Österreich die App Gemini herunterladen. Für iOS-Nutzer wird Gemini hierzulande "in den kommenden Wochen" verfügbar sein. Großes Sprachmodell: Das dahinterstehende KI-Modell Gemini ist sogenanntes großes Sprachmodell (Large Language Model, LLM), das Anfragen in Textform (geschrieben oder gesprochen) versteht, aber auch Bilder analysieren kann. Später soll es zudem Audiodateien und Videos verarbeiten können.

Das dahinterstehende KI-Modell Gemini ist sogenanntes großes Sprachmodell (Large Language Model, LLM), das Anfragen in Textform (geschrieben oder gesprochen) versteht, aber auch Bilder analysieren kann. Später soll es zudem Audiodateien und Videos verarbeiten können. Dateien verarbeiten und strukturierte Datenanalyse: Nutzer können eine oder mehrere Dateien (etwa PDF-Dateien oder Bilder) hochladen und anschließend Fragen an Gemini stellen, die sich auf die Inhalte dieser Dateien beziehen. Die KI stellt dabei strukturierte Zusammenhänge her. Wenn ein Nutzer etwa mehrere Restaurant-Rechnungen hochlädt, kann Gemini die bezahlten Preise extrahieren und daraus ein Diagramm erstellen.

Nutzer können eine oder mehrere Dateien (etwa PDF-Dateien oder Bilder) hochladen und anschließend Fragen an Gemini stellen, die sich auf die Inhalte dieser Dateien beziehen. Die KI stellt dabei strukturierte Zusammenhänge her. Wenn ein Nutzer etwa mehrere Restaurant-Rechnungen hochlädt, kann Gemini die bezahlten Preise extrahieren und daraus ein Diagramm erstellen. Kontextfenster: Das "context window" beschreibt die Menge an Informationen, die das Modell auf einmal verarbeiten kann. Das aktuelle Modell schafft in der Bezahlversion bis zu einer Million Tokens, was in etwa 750.000 Wörtern entspricht. Derzeit testet Google Arbeitsbereiche bis zu zehn Millionen Tokens.

Das "context window" beschreibt die Menge an Informationen, die das Modell auf einmal verarbeiten kann. Das aktuelle Modell schafft in der Bezahlversion bis zu einer Million Tokens, was in etwa 750.000 Wörtern entspricht. Derzeit testet Google Arbeitsbereiche bis zu zehn Millionen Tokens. Kontextuale Chats: Innerhalb dieses Kontextfensters können sich Nutzer bei ihren Fragen auf zuvor gegebene Antworten beziehen. Das Sprachmodell kann also auch längere Gespräche führen und sich auf frühere Teile der Konversation beziehen.

Innerhalb dieses Kontextfensters können sich Nutzer bei ihren Fragen auf zuvor gegebene Antworten beziehen. Das Sprachmodell kann also auch längere Gespräche führen und sich auf frühere Teile der Konversation beziehen. Programmiercode schreiben: "Wir haben gesehen, dass die Fähigkeit, Probleme mit Logik zu lösen, einhergeht mit der Fähigkeit, Programmiercode zu schreiben", erklärt Bäuml. Dies könne als Hilfe beim Erlernen einer Programmiersprache dienen oder in Zukunft die Entwicklung von Programmen und Apps vereinfachen.

"Wir haben gesehen, dass die Fähigkeit, Probleme mit Logik zu lösen, einhergeht mit der Fähigkeit, Programmiercode zu schreiben", erklärt Bäuml. Dies könne als Hilfe beim Erlernen einer Programmiersprache dienen oder in Zukunft die Entwicklung von Programmen und Apps vereinfachen. Trainingsdaten: Ob beim Code-Schreiben oder im Bereich des Allgemeinwissens - Google füttert sein KI-Modell einerseits mit lizensierten Trainingsdaten. Hierfür werden etwa Code-Beispiele bei Firmen in Auftrag gegeben. Andererseits greift man auf sämtliche öffentlich zugängliche Daten aus dem Internet zurück. Webseitenbetreiber, die nicht möchten, dass ihre Daten zu Trainingszwecken verwendet werden, können dies direkt bei Google beantragen. "Dann respektieren wir das natürlich", sagt Bäuml.

Grüezi bei Google!

Seit 2004 ist Google in Zürich vertreten. Wegen der Zusammenarbeit mit der Eidgenössischen Technischen Hochschule (ETH) gilt Zürich als wichtigster Google-Entwicklungsstandort in Europa.

Mehr als 5000 Mitarbeiterinnen und Mitarbeiter aus 85 Nationen sind hier beschäftigt. Der Großteil von ihnen arbeitet im Bereich der Software-Entwicklung.

In Zürich wird an allen Google-Produktbereichen gearbeitet. Neben künstlicher Intelligenz sind also auch Dienste wie die Suche, Google Maps und YouTube vertreten.

"In Zürich kommen die meisten Google‑Produktbereiche zusammen, das ist einzigartig und ermöglicht kurze Wege", sagt Christine Antlanger-Winter. Die gebürtige Linzerin ist Länderchefin von Google Schweiz. Von 2018 bis 2023 war die FH-Hagenberg-Absolventin Country Director für Google Austria.

ePaper Jetzt ePaper lesen! Lesen Sie die tagesaktuelle ePaper-Ausgabe der OÖNachrichten - jetzt gleich digital durchblättern! zum Epaper

Autor Thomas Nigl Online- und Technik-Redakteur Thomas Nigl