Der Ingenieur hinter der Spracherkennungssoftware von Samsung

Jedes Mal, wenn Sie Ihre Stimme verwenden, um eine Nachricht auf einem Samsung Galaxy-Mobiltelefon zu generieren oder ein Google Home-Gerät zu aktivieren, verwenden Sie Tools, die Chanwoo Kim mitentwickelt hat. Der ehemalige Executive Vice President der Global AI Centers von Samsung Research ist auf End-to-End-Spracherkennung, End-to-End-Text-to-Speech-Tools und Sprachmodellierung spezialisiert.

„Der lohnendste Teil meiner Karriere besteht darin, bei der Entwicklung von Technologien mitzuhelfen, die meine Freunde und Familienmitglieder nutzen und genießen“, sagt Kim.

Vor kurzem verließ er Samsung, um seine Arbeit in diesem Bereich an der Korea University in Seoul fortzusetzen und dort das Speech and Language Processing Lab der Schule zu leiten. Als Professor für künstliche Intelligenz sagt er, es sei ihm eine Leidenschaft, die nächste Generation von Technologieführern auszubilden.

„Ich freue mich, mein eigenes Labor an der Schule zu haben und die Schüler bei ihrer Forschung anzuleiten“, sagt er.

Vermarktung von Google Home

Als Amazon 2014 ankündigte, intelligente Lautsprecher mit KI-gestützter Technologie zu entwickeln, ein Gadget, das heute als Echo bekannt ist, beschloss Google, eine eigene Version zu entwickeln. Kim sah in diesem Unterfangen eine Rolle für sein Fachwissen: Er hat einen Ph.D. Er hat einen BA in Sprache und Informationstechnologie von der Carnegie Mellon und ist auf robuste Spracherkennung spezialisiert. Freunde, die bei Google in Mountain View, Kalifornien, an solchen Projekten arbeiteten, ermutigten ihn, sich dort für eine Stelle als Softwareentwickler zu bewerben. Er verließ Microsoft in Seattle, wo er drei Jahre lang als Softwareentwicklungsingenieur und Sprachspezialist arbeitete.

Nachdem er 2013 dem Akustikmodellierungsteam von Google beigetreten war, sorgte er dafür, dass die KI-unterstützende Technologie des Unternehmens, die in Google Home-Produkten verwendet wird, auch bei Hintergrundgeräuschen funktionieren konnte.

Chanwoo Kim

Arbeitgeber

Korea-Universität in Seoul

Titel

Direktor des Labors für Sprach- und Sprachverarbeitung und Professor für Künstliche Intelligenz

Mitgliederbewertung

Mitglied

Alma Mater

Seoul Nationaluniversität; Carnegie Mellon

Er leitete die Bemühungen, die Spracherkennungsalgorithmen von Google Home zu verbessern, einschließlich der Verwendung akustischer Modellierung, die es einem Gerät ermöglicht, die Beziehung zwischen Sprache und Phonemen (phonetischen Einheiten von Sprachen) zu interpretieren.

„Wenn Menschen die Spracherkennungsfunktion ihres Mobiltelefons nutzten, standen sie höchstens etwa einen Meter vom Gerät entfernt“, erklärt er. „Für den Sprecher mussten mein Team und ich sicherstellen, dass er den Benutzer versteht, wenn er aus größerer Entfernung spricht.“

Kim schlug den Einsatz einer groß angelegten Datenerweiterung vor, die Fernfeld-Sprachdaten simuliert, um die Spracherkennungsfähigkeiten des Geräts zu verbessern. Die Datenerweiterung analysiert die empfangenen Trainingsdaten und generiert künstlich zusätzliche Trainingsdaten, um die Erkennungsgenauigkeit zu verbessern.

Seine Beiträge halfen dem Unternehmen im Jahr 2016, sein erstes Google Home-Produkt, einen intelligenten Lautsprecher, auf den Markt zu bringen.

„Es war eine wirklich bereichernde Erfahrung“, sagt er.

Im selben Jahr wurde Kim leitender Softwareentwickler und verbesserte weiterhin die Algorithmen, die Google Home für die groß angelegte Datenerweiterung verwendet. Er entwickelte außerdem Technologien, um die vom neuronalen Netzwerk benötigte Zeit und Rechenleistung zu reduzieren und die Strahlformung mit mehreren Mikrofonen für die Fernfeld-Spracherkennung zu verbessern.

Kim, der in Südkorea aufgewachsen ist, vermisste seine Familie und kehrte 2018 zurück, um zu Samsung als Vizepräsident des KI-Zentrums in Seoul zu wechseln.

Als er zu Samsung kam, bestand sein Ziel darin, eine End-to-End-Spracherkennung und Text-to-Speech-Engines für die Produkte des Unternehmens zu entwickeln, wobei der Schwerpunkt auf der Verarbeitung auf dem Gerät lag. Um seine Ziele zu erreichen, gründete er ein Sprachverarbeitungslabor und leitete ein Forscherteam, das neuronale Netze entwickelte, um die herkömmlichen Spracherkennungssysteme zu ersetzen, die damals in den KI-Geräten von Samsung verwendet wurden.

„Der lohnendste Teil meiner Arbeit besteht darin, bei der Entwicklung von Technologien mitzuhelfen, die meine Freunde und Familienmitglieder nutzen und genießen. »

Zu diesen Systemen gehörten ein akustisches Modell, ein linguistisches Modell, ein Aussprachemodell, ein gewichteter Finite-State-Wandler und ein inverser Textnormalisierer. Das Sprachmodell untersucht die Beziehung zwischen vom Benutzer gesprochenen Wörtern, während das Aussprachemodell wie ein Wörterbuch fungiert. Der Reverse Text Normalizer, der am häufigsten von Text-to-Speech-Tools auf Telefonen verwendet wird, wandelt Sprache in schriftliche Ausdrücke um.

Aufgrund der großen Komponenten sei es mit herkömmlicher Technologie nicht möglich gewesen, ein genaues Spracherkennungssystem auf dem Gerät zu entwickeln, sagt Kim. Ein durchgängiges neuronales Netzwerk würde alle Aufgaben erfüllen und „Spracherkennungssysteme drastisch vereinfachen“, sagt er.

eine große Gruppe von Männern und Frauen, die gemeinsam für ein Gruppenporträt posieren Chanwoo Kim [top row, seventh from the right] mit einigen Mitgliedern seines Sprachverarbeitungslabors bei Samsung Research.Chanwoo Kim

Er und sein Team verwendeten bei der Entwicklung ihres Modells einen Streaming-Aufmerksamkeitsansatz. Eine Eingabesequenz (die gesprochenen Wörter) wird codiert und dann mithilfe eines Kontextvektors, einer numerischen Darstellung von Wörtern, die von einem vorab trainierten Deep-Learning-Modell für maschinelle Übersetzung generiert werden, in eine Zielsequenz decodiert.

Das Modell kam 2019 auf den Markt und ist mittlerweile Teil von Samsungs Galaxy-Handy. Im selben Jahr wurde eine Cloud-Version des Systems veröffentlicht, die vom virtuellen Assistenten des Telefons, Bixby, verwendet wird.

Kims Team verbesserte weiterhin die Spracherkennung und die Text-to-Speech-Systeme in anderen Produkten und veröffentlichte jedes Jahr eine neue Engine.

Dazu gehören leistungsnormalisierte Cepstralkoeffizienten, die die Spracherkennungsgenauigkeit in Umgebungen mit Störungen wie zusätzlichem Rauschen, Signaländerungen, mehreren Sprechern und Nachhall verbessern. Es beseitigt die Auswirkungen von Hintergrundrauschen, indem es Statistiken zur Schätzung von Merkmalen verwendet. Mittlerweile kommt es in einer Vielzahl von Samsung-Produkten zum Einsatz, darunter Klimaanlagen, Mobiltelefone und Roboterstaubsauger.

Samsung beförderte Kim im Jahr 2021 zum Executive Vice President seiner sechs globalen KI-Zentren mit Sitz in Cambridge, England; Montreal; Seoul; Silicon Valley; New York; und Toronto.

In dieser Funktion leitete er die Forschung zur Integration von künstlicher Intelligenz und maschinellem Lernen in Samsung-Produkte. Er ist die jüngste Person, die als Executive Vice President des Unternehmens fungiert.

Er leitete auch die Entwicklung der großen generativen Sprachmodelle von Samsung, die sich zu Samsung Gauss entwickelten. Die Suite generativer KI-Modelle kann Code, Bilder und Text generieren.

Im März verließ er das Unternehmen, um als Professor für künstliche Intelligenz an die Korea University zu wechseln, was ein wahrgewordener Traum sei, sagt er.

„Als ich mit meiner Doktorarbeit begann, war es mein Traum, eine Karriere in der Wissenschaft anzustreben“, sagt Kim. „Aber nach meiner Promotion war ich von den Auswirkungen meiner Forschung auf reale Produkte fasziniert und beschloss, in die Industrie zu gehen.“

Er sagte, er sei begeistert, an die Korea University zu gehen, weil „sie eine starke Präsenz auf dem Gebiet der künstlichen Intelligenz hat“ und eine der besten Universitäten des Landes ist.

Kim sagt, dass sich seine Forschung auf generative Sprachmodelle, multimodale Verarbeitung und die Integration generativer Sprache mit Sprachmodellen konzentrieren wird.

Verfolgen Sie Ihren Traum bei Carnegie Mellon

Kims Vater war Elektroingenieur und schon in jungen Jahren wollte Kim in seine Fußstapfen treten, sagte er. Er besuchte ein naturwissenschaftliches Gymnasium in Seoul, um sich einen Vorsprung beim Erlernen von Ingenieurs- und Programmierthemen zu verschaffen. Er erhielt seinen Bachelor- und Master-Abschluss in Elektrotechnik 1998 bzw. 2001 von der Seoul National University.

Kim hatte schon lange darauf gehofft, an einer amerikanischen Universität promovieren zu können, weil er glaubte, dadurch mehr Möglichkeiten zu haben.

Und genau das hat er getan. Er ging 2005 nach Pittsburgh, um dort zu promovieren. in Sprachen und Informationstechnologie an der Carnegie Mellon.

„Ich habe mich für die Spezialisierung auf Spracherkennung entschieden, weil ich die Messlatte höher legen wollte“, sagt er. „Mir gefiel auch, dass das Fachgebiet vielfältig war und ich an Hardware oder Software arbeiten und problemlos von der Echtzeit-Signalverarbeitung zur Bildsignalverarbeitung oder einem anderen Bereich des Fachgebiets wechseln konnte.“

Kim verfasste seine Doktorarbeit unter der Aufsicht des IEEE Lifetime Scholar Richard Stern, der wahrscheinlich vor allem für seine theoretischen Arbeiten darüber bekannt ist, wie das menschliche Gehirn den Schall vergleicht, der von beiden Ohren kommt, um zu beurteilen, woher der Schall kommt.

„Damals wollte ich die Genauigkeit automatischer Spracherkennungssysteme in lauten Umgebungen oder bei mehreren Sprechern verbessern“, erklärt er. Er entwickelte mehrere Signalverarbeitungsalgorithmen unter Verwendung mathematischer Darstellungen, die aus Informationen darüber erstellt wurden, wie Menschen auditive Informationen verarbeiten.

Kim erhielt ihren Ph.D. im Jahr 2010 und kam als Softwareentwicklungsingenieur und Sprachspezialist zu Microsoft nach Seattle. Er arbeitete drei Jahre lang bei Microsoft, bevor er zu Google kam.

Zugang zu zuverlässigen Informationen

Kim kam als Doktorand zum IEEE, damit er seine Forschungsarbeiten auf IEEE-Konferenzen präsentieren konnte. Im Jahr 2016 wurde ein Artikel, den er zusammen mit Stern schrieb, im veröffentlicht IEEE/ACM-Transaktionen zur Audio-, Sprach- und Sprachverarbeitung. Dies brachte ihnen den Best Paper Award der IEEE Signal Processing Society 2019 ein. Kim fühlte sich geehrt, diese „prestigeträchtige Auszeichnung“ zu erhalten, sagt er.

Kim behält seine IEEE-Mitgliedschaft unter anderem deshalb bei, weil IEEE seiner Meinung nach eine zuverlässige Informationsquelle ist und er auf die neuesten technischen Informationen zugreifen kann.

Ein weiterer Vorteil der Mitgliedschaft sei das globale Netzwerk des IEEE, sagt Kim.

„Als Mitglied habe ich die Möglichkeit, andere Ingenieure in meinem Fachgebiet kennenzulernen“, sagt er.

Er nimmt regelmäßig an der jährlichen IEEE-Konferenz zu Akustik, Sprache und Signalverarbeitung teil. In diesem Jahr ist er stellvertretender Vorsitzender des technischen Programmausschusses für das Treffen, das nächsten Monat in Seoul stattfinden soll.

Der Ingenieur hinter der Spracherkennungssoftware von Samsung

Byrb8jg

Vermarktung von Google Home

Chanwoo Kim

Verfolgen Sie Ihren Traum bei Carnegie Mellon

Zugang zu zuverlässigen Informationen

By rb8jg

Related Post

Iranische Hacker versuchten, gehackte E-Mails aus Trumps Wahlkampfteam an die Demokraten weiterzuleiten

Folge 129 – Zurück vom Mars!

Besser als Blutuntersuchungen? Nanopartikel könnten zur Beurteilung der Nieren eingesetzt werden

Leave a Reply Cancel reply

You missed

Iranische Hacker versuchten, gehackte E-Mails aus Trumps Wahlkampfteam an die Demokraten weiterzuleiten

Folge 129 – Zurück vom Mars!

Besser als Blutuntersuchungen? Nanopartikel könnten zur Beurteilung der Nieren eingesetzt werden

„The Plucky Squire“ ist ein bezauberndes Abenteuer, das 2D und 3D vermischt