OpenAI bietet eingeschränkten Zugriff auf eine von ihm entwickelte Plattform zur Text-zu-Sprache-Generierung namens Voice Engine, die eine synthetische Stimme basierend auf einem 15-sekündigen Ausschnitt der Stimme einer Person erstellen kann. Die von der KI erzeugte Stimme kann auf Befehl Textansagen in der gleichen Sprache wie der Sprecher oder in einer Reihe anderer Sprachen vorlesen. „Diese kleinen Bereitstellungen helfen dabei, unseren Ansatz, unsere Sicherheitsvorkehrungen und unsere Überlegungen darüber zu prägen, wie Voice Engine in verschiedenen Branchen sinnvoll eingesetzt werden könnte“, sagte OpenAI in seinem Blogbeitrag.

Zu den Unternehmen mit Zugang gehören das Edtech-Unternehmen Age of Learning, die visuelle Storytelling-Plattform HeyGen, der Frontline-Softwarehersteller für das Gesundheitswesen Dimagi, der Hersteller von KI-Kommunikations-Apps Livox und das Gesundheitssystem Lifespan.

In diesen von OpenAI veröffentlichten Beispielen können Sie hören, was Age of Learning mit der Technologie gemacht hat, um vorgefertigte Voiceover-Inhalte zu generieren, und können „personalisierte Echtzeit-Antworten“ an Schüler lesen, die von GPT-4 verfasst wurden. .

Zuerst das englische Referenzaudio:

Und hier sind drei KI-generierte Audioclips basierend auf diesem Beispiel:

OpenAI sagte, es habe Ende 2022 mit der Entwicklung der Voice Engine begonnen und die Technologie habe bereits vordefinierte Stimmen für die Text-to-Speech-API und die Vorlesefunktion von ChatGPT bereitgestellt. Im Interview mit TechCrunchJeff Harris, Mitglied des OpenAI-Produktteams für Voice Engine, sagte, das Modell sei auf „einer Mischung aus lizenzierten und öffentlich verfügbaren Daten“ trainiert worden. OpenAI teilte der Veröffentlichung mit, dass das Modell nur etwa zehn Entwicklern zur Verfügung stehen würde.

Die KI-Text-zu-Audio-Generierung ist ein Bereich der generativen KI, der sich ständig weiterentwickelt. Während sich die meisten auf instrumentale oder natürliche Klänge konzentrieren, haben sich weniger auf die Stimmerzeugung konzentriert, was teilweise auf die von OpenAI genannten Probleme zurückzuführen ist. Zu den Namen in diesem Bereich zählen Unternehmen wie Podcastle und ElevenLabs, die Technologien und Tools zum Klonen von KI-Stimmen anbieten. Edgecast letztes Jahr erkundet.

Laut OpenAI haben sich seine Partner bereit erklärt, seine Nutzungsrichtlinien zu respektieren, die besagen, dass sie die Sprachgenerierung nicht nutzen werden, um sich ohne deren Zustimmung als Personen oder Organisationen auszugeben. Es erfordert außerdem, dass Partner eine „ausdrückliche und informierte Zustimmung“ des ursprünglichen Sprechers einholen, keine Mittel für einzelne Benutzer bereitstellen, um ihre eigenen Stimmen zu erstellen, und den Zuhörern offenlegen, dass die Stimmen von KI erzeugt werden. OpenAI hat Audioclips außerdem ein Wasserzeichen hinzugefügt, um deren Herkunft zu verfolgen und aktiv zu überwachen, wie das Audio verwendet wird.

OpenAI schlug mehrere Maßnahmen vor, von denen es sagte, dass sie die mit Tools wie diesen verbundenen Risiken begrenzen könnten, darunter die schrittweise Abschaffung der Sprachauthentifizierung für den Zugriff auf Bankkonten, Richtlinien zum Schutz der Sprachnutzung von Menschen in der KI, bessere Aufklärung über KI-Deepfakes und die Entwicklung von Tracking Systeme. von KI-Inhalten.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *