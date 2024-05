Wieder einmal hat sich ChatGPT-Entwickler OpenAI einen speziellen Zeitpunkt für die Veröffentlichung seiner Neuheiten ausgesucht. Am Montag – und somit einen Tag vor Googles Entwicklerkonferenz I/O – wurde das neue KI-Modell GPT-4o erstmals der Öffentlichkeit präsentiert. Tags darauf hatte auch Google eine ordentliche Portion KI im Gepäck.

Wie die neuesten Entwicklungen aussehen und warum sich beide Unternehmen dabei zum Teil gegenseitig zum Vorbild nehmen – die OÖN geben einen Überblick.

GPT-4o: Das "Omnimodell"

Für die mehr als 100 Millionen Nutzerinnen und Nutzer, die nach Angabe von OpenAI mit ChatGPT arbeiten, gibt es einige Neuerungen. Zwar gab es schon bisher eine Spracheingabe, für die Verarbeitung und Beantwortung von Anfragen musste die Software allerdings eine kurze Pause einlegen. Mit dem neuen "Flaggschiff-Modell" GPT-4o soll nun eine "viel natürlichere und wesentlich einfachere" Art der Interaktion zwischen Mensch und Maschine stattfinden können. Diese Interaktion soll – vom KI-Standpunkt aus betrachtet – auf dem Level von GPT-4 stattfinden, dabei aber wesentlich schneller vonstattengehen.

In den letzten Jahren sei man bei OpenAI darauf fokussiert gewesen, die KI zu verbessern. Nun würde man erstmals bei der Benutzerfreundlichkeit einen großen Schritt nach vorne machen, sagte Technologiechefin Mira Murati bei der Onlinepräsentation.

"GPT-4o kombiniert logisches Denken in Sprache, Text und Bilderkennung", sagte Murati weiters. OpenAI spricht deshalb auch von einem "Omnimodell", was das "o" im Namen erklärt. Nutzer haben die Möglichkeit, Fotos und Dokumente hochzuladen. Zusätzlich kann die Software das Livebild einer Smartphone-Kamera analysieren. Aus all diesen Informationsquellen entnimmt GPT-4o Informationen und wertet sie aus.

Sowohl bei der Aufnahme als auch der Ausgabe von Informationen kann die Software auf verschiedene Emotionen eingehen. In einer Demonstration erfand ChatGPT eine Gute-Nacht-Geschichte und las sie vor. Dabei konnte man die Software unterbrechen und bitten, mehr Dramatik in die Stimme zu bringen oder wie ein Roboter zu sprechen. Den letzten Satz sang ChatGPT auf Wunsch sogar vor. Die Funktionen von GPT-4o stehen in 50 verschiedenen Sprachen zur Verfügung – und zwar auch für Gratisnutzer. Zahlende Kunden dürfen die verschiedenen Angebote in größerem Umfang nutzen.

OpenAI-Chef Sam Altman schrieb nach der Präsentation, es sei die beste Art, einen Computer zu bedienen, die er je erlebt habe. "Es fühlt sich an wie die KI aus Kinofilmen. Und es überrascht mich immer noch ein wenig, dass es real ist." Der Präsentation waren Gerüchte vorausgegangen, wonach OpenAI mit einer KI-gestützten Suchmaschine Google Konkurrenz machen könnte. Davon war dann am Montag zwar nicht die Rede, Murati schloss die Präsentation aber mit einem Hinweis auf das "nächste große Ding", das OpenAI schon "bald" vorstellen will.

Mehr KI beim Googeln

Nach den Ankündigungen zu GPT-4o lag die Latte für Google hoch. Immerhin hat die Software das Potenzial, eine klügere Version von Sprachassistenten wie Siri, Alexa oder dem Google Assistant zu werden. Google ließ sich nicht zweimal bitten und zog am Dienstag bei der Entwicklerkonferenz I/O ebenfalls mit Ankündigungen im KI-Bereich nach.

Googles Ansatz nennt sich Gemini – ein KI-Modell, mit dem Anfragen nicht mehr nur als Text, sondern auch in Bildform gestellt werden können. Auf Smartphones von Google und Samsung ist das bereits möglich. Unter dem Motto "Wir erledigen das Googeln für Sie" wird diese Funktion nun in weitere Google-Dienste integriert. Das neueste und bisher schnellste Mitglied der Gemini-Familie heißt Gemini 1.5 Flash und soll schneller und effizienter arbeiten.

Ein neuer Aspekt der Google-Suche nennt sich "Overviews", zu Deutsch Übersichten. Damit dürfte das Googeln in Zukunft eher an die Interaktion mit einem Chatbot erinnern. In einem eigenen Übersichtsbereich versucht Google, die gestellte Suchanfrage direkt zu beantworten. Erst darunter folgen die – aus der bisherigen Google-Suche bekannten – Links zu anderen Websites. Eine Testphase hat gezeigt, dass durch diese Art der Suche die Nutzung zunimmt – und mit ihr auch die Zufriedenheit der Nutzer. Die neue KI-gestützte Suche wird zunächst in den USA auf Englisch eingeführt. Sie soll aber "in absehbarer Zeit" nach Europa kommen.

Wie ChatGPT soll auch Gemini künftig hochgeladene Dateien analysieren können. Unter dem Titel Gemini Live hat Google zudem ein Update für zahlende Kunden im Köcher. So sollen Nutzer des zahlungspflichtigen Angebots Gemini Advanced auf ihren Mobilgeräten Unterhaltungen mit dem KI-Assistenten führen können. Ähnlich wie bei GPT-4o können Nutzer zwischen mehreren "natürlich klingenden" Stimmen wählen und die Antworten von Gemini unterbrechen, um Nachfragen zu stellen. Diese Funktion soll "in den kommenden Monaten" verfügbar sein.

