Halluzinationen zählen zu den größten Herausforderungen der neuen großen Sprachmodelle. Wenn diese Modelle an ihre Grenzen stoßen – und manchmal auch schon vorher – beginnen sie oft, erfundene Informationen überzeugend zu präsentieren, sodass man versucht ist, sie als Fakten zu akzeptieren. Auch Apples KI ist nicht frei von diesem Problem, wie Tim Cook bereits im Vorfeld eingeräumt hat. Allerdings betont er, dass die Apple-KI weniger häufig halluziniere als andere.
Trotz des Hypes und der berechtigten Bewunderung für die Leistungen großer Sprachmodelle wie GPT-4 oder Gemini haben sie alle ein ernstes, bisher ungelöstes Problem: die Halluzinationen. Das Phänomen tritt auf, wenn ein Sprachmodell eine Anfrage mit scheinbar echten, aber tatsächlich erfundenen Fakten beantwortet. Diese Halluzinationen sind bis zu einem gewissen Grad unvorhersehbar und nicht immer zuverlässig reproduzierbar. Die gleiche Anfrage kann zu unterschiedlichen Zeiten stark abweichende Antworten liefern – aufgrund der kontinuierlichen Optimierung durch die Entwickler und dem eigenständigen Lernprozess der Modelle, der oft wie eine Blackbox funktioniert und selbst für die Entwickler nicht immer durchschaubar ist.
Die Überzeugungskraft der Halluzinationen macht sie besonders tückisch: Selbst erfahrene Nutzer mit umfangreichem Allgemeinwissen und kritischem Denken sind nicht vor allzu glaubwürdig erscheinenden Falschaussagen sicher.
Tim Cook: Auch Apple Intelligence bleibt nicht verschont
Dieses Problem ist bis heute ungelöst und alle großen Sprachmodelle neigen zu Halluzinationen. Diese Unvorhersehbarkeit gilt als der größte Unsicherheitsfaktor, der die breite Nutzung von Künstlicher Intelligenz in geschäftlichen sowie privaten Anwendungen hemmt. Tim Cook räumte in einem Interview ein, dass auch Apples KI-Tools vor diesem Problem nicht gefeit sind.
Er betonte, dass auch Apple Intelligence halluzinieren könne, obwohl man sich intensiv um die Entwicklung eines zuverlässigen Systems bemüht habe, das qualitativ hochwertige Antworten liefert. Halluzinationen könne man jedoch nicht vollständig ausschließen – sie sollen aber seltener auftreten als bei der Konkurrenz.
Apple Intelligence zeigt weniger Anomalien
In einer veröffentlichten Studie stellt Apple fest, dass auch Apple Intelligence auf Anfragen manchmal irreführende oder sogar schädliche Informationen liefert. Man beziffert die Rate solcher problematischen Antworten auf 6,6%, was im Vergleich zwar nicht überwältigend, aber immer noch besser ist als die Leistungen anderer Marktführer wie ChatGPT mit dem Modell GPT-4 Turbo, einer der vorhergehenden Versionen.
Das vermeintlich bessere Abschneiden der Apple-Lösung könnte jedoch auch darauf zurückzuführen sein, dass Apple Intelligence nicht als universelles Tool wie ChatGPT oder Gemini konzipiert ist. Stattdessen ist es auf einige spezialisierte Anwendungsbereiche fokussiert, was die Wahrscheinlichkeit von Halluzinationen möglicherweise verringert.