Laut einem neuen Bericht von zeigte OpenAI einigen seiner Kunden ein neues multimodales KI-Modell, das sowohl mit Ihnen sprechen als auch Objekte erkennen kann Information. Unter Berufung auf anonyme Quellen, die es gesehen haben, sagt das Outlet, dass es Teil dessen sein könnte, was das Unternehmen am Montag zeigen will.

Das neue Modell würde eine schnellere und genauere Interpretation von Bildern und Audio ermöglichen als die bestehenden separaten Transkriptions- und Text-to-Speech-Modelle.. Anscheinend könnte es Kundendienstmitarbeitern dabei helfen, „den Tonfall der Stimmen von Anrufern besser zu verstehen oder zu verstehen, ob sie sarkastisch sind“, und „theoretisch“ kann das Modell Schülern bei der Mathematik helfen oder Zeichen der realen Welt in schriftlicher Form übersetzen Die Information.

Die Quellen des Outlets sagen, dass das Modell GPT-4 Turbo bei der „Beantwortung bestimmter Arten von Fragen“ übertreffen kann, aber es ist immer noch wahrscheinlich, dass es mit Sicherheit falsch liegt.

Laut Entwickler Ananay Arora, der den obigen Screenshot des anrufbezogenen Codes gepostet hat, ist es möglich, dass OpenAI auch eine neue integrierte ChatGPT-Funktion zum Tätigen von Telefonanrufen vorbereitet. Arora entdeckte auch Hinweise darauf, dass OpenAI Server bereitgestellt hatte, die für die Audio- und Videokommunikation in Echtzeit vorgesehen waren.

Nichts davon wäre GPT-5, wenn es nächste Woche veröffentlicht würde. CEO Sam Altman bestritt ausdrücklich, dass seine bevorstehende Ankündigung irgendetwas damit zu tun habe, dass das Modell angeblich „wesentlich besser“ als GPT-4 sei. Information schreibt, dass GPT-5 bis Ende des Jahres der Öffentlichkeit zugänglich gemacht werden könnte.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *