Bo Li, ein außerordentlicher Professor an der University of Chicago, der sich auf Stresstests und provozierende KI-Modelle zur Erkennung unangemessenen Verhaltens spezialisiert hat, ist für einige Beratungsunternehmen zu einer Referenz geworden. Letztere beschäftigen sich mittlerweile weniger mit der Intelligenz von KI-Modellen als vielmehr mit deren Problematik – auf rechtlicher, ethischer und regulatorischer Ebene.
Li und seine Kollegen an mehreren anderen Universitäten sowie das von Li mitbegründete Virtue AI und Lapis Labs haben kürzlich eine Taxonomie der KI-Risiken sowie einen Benchmark entwickelt, der den Grad der Nichteinhaltung durch die verschiedenen Hauptsprachen aufzeigt Modelle. „Wir brauchen bestimmte Grundsätze für die KI-Sicherheit, in Bezug auf die Einhaltung gesetzlicher Vorschriften und den normalen Gebrauch“, sagt Li gegenüber WIRED.
Die Forscher analysierten staatliche KI-Vorschriften und -Richtlinien, unter anderem in den USA, China und der EU, und untersuchten die Nutzungsrichtlinien von 16 großen KI-Unternehmen aus der ganzen Welt.
Die Forscher haben außerdem AIR-Bench 2024 entwickelt, einen Benchmark-Test, der Tausende von Eingabeaufforderungen verwendet, um zu bestimmen, wie beliebte KI-Modelle bei bestimmten Risiken abschneiden. Es zeigt beispielsweise, dass Claude 3 Opus von Anthropic sehr gut abschneidet, wenn es darum geht, Cybersicherheitsbedrohungen zu vermeiden, während Gemini 1.5 Pro von Google sehr gut abschneidet, wenn es darum geht, Cybersicherheitsbedrohungen durch nicht einvernehmliche sexuelle Nacktheit zu vermeiden.
DBRX Instruct, ein von Databricks entwickeltes Modell, erzielte durchweg die niedrigste Punktzahl. Als das Unternehmen im März sein Modell veröffentlichte, kündigte es an, die Sicherheitsfunktionen von DBRX Instruct weiter zu verbessern.
Anthropic, Google und Databricks reagierten nicht sofort auf eine Bitte um Stellungnahme.
Für Unternehmen, die KI in bestimmten Märkten oder für bestimmte Anwendungsfälle einsetzen möchten, kann es immer wichtiger werden, die Risikolandschaft sowie die Vor- und Nachteile bestimmter Modelle zu verstehen. Ein Unternehmen, das beispielsweise ein LLM für den Kundenservice nutzen möchte, ist möglicherweise mehr an der Neigung eines Models interessiert, bei Provokation beleidigende Ausdrücke zu produzieren, als an seiner Fähigkeit, ein Nukleargerät zu entwerfen.
Bo fügt hinzu, dass die Analyse auch interessante Fragen hinsichtlich der Entwicklung und Regulierung von KI aufdeckt. Forscher haben beispielsweise herausgefunden, dass staatliche Vorschriften weniger umfassend sind als Unternehmensrichtlinien insgesamt, was darauf hindeutet, dass Spielraum für eine stärkere Regulierung besteht.
Die Analyse legt auch nahe, dass einige Unternehmen mehr tun könnten, um die Sicherheit ihrer Modelle zu gewährleisten. „Wenn Sie bestimmte Modelle anhand der unternehmenseigenen Richtlinien testen, sind sie möglicherweise nicht konform“, sagt Bo. „Das bedeutet, dass sie viel Raum für Verbesserungen haben. »
Andere Forscher versuchen, Ordnung in die verwirrende und chaotische KI-Risikolandschaft zu bringen. Diese Woche stellten zwei MIT-Forscher ihre eigene Datenbank zu KI-Gefahren vor, die aus 43 verschiedenen Risikorahmen zusammengestellt wurde. „Viele Organisationen befinden sich noch in einem frühen Stadium dieses KI-Einführungsprozesses“, was bedeutet, dass sie Hinweise zu möglichen Gefahren benötigen, sagt Neil Thompson, ein an dem Projekt beteiligter MIT-Forscher.
Peter Slattery, Projektleiter und Forscher der FutureTech-Gruppe des MIT, die Fortschritte im Computerbereich untersucht, sagt, die Datenbank zeige, dass einige KI-Risiken mehr Aufmerksamkeit erhalten als andere. Mehr als 70 % der Führungskräfte nennen beispielsweise Datenschutz- und Sicherheitsbedenken, aber nur etwa 40 % verweisen auf Fehlinformationen.
Die Bemühungen, KI-Risiken abzubilden und zu messen, müssen sich parallel zur KI weiterentwickeln. Laut Li wird es wichtig sein, aufkommende Probleme wie emotionale Starrheit in KI-Modellen zu untersuchen. Sein Unternehmen hat kürzlich die größte und leistungsstärkste Version des Llama 3.1-Modells von Meta analysiert. Es stellte sich heraus, dass das Modell zwar eine bessere Leistung erbringt, aber nicht wesentlich sicherer ist, was auf eine größere Lücke schließen lässt. „Die Sicherheit verbessert sich nicht wirklich wesentlich“, sagt Li.