Text: Ule W. Ritgen • Veröffentlicht: 30.09.2024 20:47 • Lesedauer: 2,5 Min.

Die ersten 14 Tage mit OpenAI o1 – ein Fazit

Wie das neue Sprachmodell von OpenAI Probleme schrittweise analysiert und bei komplexen Aufgaben glänzt – doch es hat auch Schwächen.

OpenAI hat vor zwei Wochen sein neues Sprachmodell o1 veröffentlicht – und wir haben die ersten Erfahrungen gesammelt, auch wenn aktuell nur 50 Abrufe pro Woche zur Verfügung stehen.

Das Modell, das intern während der Entwicklung „Strawberry“ genannt wurde, zeigt beeindruckende Denkfähigkeiten. Es analysiert Probleme schrittweise und liefert sehr gründliche Lösungen – besonders bei komplexen Aufgaben, bei denen es jeden seiner Schritte nachvollziehbar erklärt und alle möglichen externen Faktoren aufschlüsselt.

Fun fact: Der Arbeitsname "Strawberry" wurde während der Entwicklungszeit wohl gewählt, weil Sprachmodelle wie ChatGPT aufgrund ihrer Arbeitsweise, nämlich ganze Worte in mehrere Bedeutungstoken umzuwandeln, die einfache Frage "Wie viele Rs enthält das Wort "Strawberry" meist nicht korrekt beantworten können. Das Problem lässt sich auch mit dem deutschen Wort "Erdbeere" reproduzieren:

Wie viele E-s enthält das Wort Erdbeere? Nein, nicht drei.

Das neue Modell schafft den Strawberry-Test mit Leichtigkeit, weil es von sich aus ohne entsprechendes Prompting Schritt-für-Schritt eine Aufgabe durchdenkt. Aber OpenAi hat sich entschieden, lieber mit "o1" an den Markt zu gehen mit der Begründung:

„Für komplexe Aufgaben ist das ein signifikanter Fortschritt und markiert eine neue Stufe der KI-Fähigkeit. Daher setzen wir den Zähler zurück auf 1 und nennen die Serie OpenAI o1.“

Ein bisschen wie der Neustart einer Erfolgsserie – nur diesmal mit noch mehr Handlungstiefe.

Aber, im täglichen Einsatz zeigt sich, dass o1, bzw. die o1-Vorschauversion, oft auch zu viel des Guten ist. Es braucht verständlicherweise viel länger, als das Vorgängermodell GPT-4o und neigt dazu, bei einfachen Fragen unnötig komplizierte Antworten zu liefern. Während GPT-4o eine schnelle, präzise Antwort gibt, grübelt o1 im Grund immer zu lange über einfache Fragen nach.

Unser Fazit nach den ersten 14 Tagen:

Für die meisten Anwendungen ist GPT-4o immer noch die bessere Wahl. Es ist schneller, liefert gute Ergebnisse und reicht für die alltäglichen Aufgaben völlig aus.

Aber wir sind auf die o1 Vollversion gespannt. Vielleicht ist dann ja eine Weiche eingebaut, die einfache Fragen nach Art von GPT-4o beantwortet und nur für komplexe Fragestellungen „den Denker“ aktiviert.

> Wenn du tiefer in die besonderen Fähigkeiten von o1 einsteigen willst, dann lies unseren ausführlichen Artikel, der erklärt, was o1 wirklich kann und wie es sich von GPT-4o unterscheidet. Erfahre mehr über das „Mehrstufige Denken“ und warum es bei komplexen Aufgaben überzeugt: Neues Sprachmodell OpenAI o1: Erst denken, dann sprechen!

Quelle: OpenAI

Highlights

o1 analysiert Probleme Schritt für Schritt und liefert gründliche Lösungen.
Bei komplexen Aufgaben glänzt es, im Alltag ist es oft zu langsam.
GPT-4o bleibt für einfache Anfragen schneller und effizienter.
Wir sind gespannt, ob die finale Version eine Lösung für einfache Aufgaben bietet.