Sarah Bird, Produktdirektorin für verantwortungsvolle KI bei Microsoft, erklärt Die Kante In einem Interview entwarf sein Team mehrere neue Sicherheitsfunktionen, die für Azure-Kunden einfach zu verwenden sein werden, die keine Gruppen roter Teams einstellen, um die von ihnen entwickelten KI-Dienste zu testen. Laut Microsoft können diese LLM-basierten Tools potenzielle Schwachstellen erkennen, „plausible, aber nicht unterstützte“ Halluzinationen überwachen und böswillige Eingabeaufforderungen in Echtzeit für Azure AI-Kunden blockieren, die mit jedem auf der Plattform gehosteten Modell arbeiten.

„Wir wissen, dass nicht alle Kunden über fundierte Kenntnisse in Rapid-Injection-Angriffen oder hasserfüllten Inhalten verfügen. Das Bewertungssystem generiert daher die notwendigen Hinweise, um solche Angriffe zu simulieren. Kunden können dann eine Bewertung erhalten und die Ergebnisse sehen“, sagt sie.

Drei Funktionen: Prompt Shields, das Prompt-Injections oder bösartige Eingabeaufforderungen von externen Dokumenten blockiert, die Modelle dazu verleiten, gegen ihr Training zu verstoßen; Groundedness Detection, die Halluzinationen erkennt und blockiert; und Sicherheitsbewertungen, die Modellschwachstellen bewerten, sind jetzt in der Vorschau auf Azure AI verfügbar. Zwei weitere Funktionen, um Modelle zu sicheren Ausgängen zu leiten und Folgeaufforderungen zur Meldung potenziell problematischer Benutzer sind in Kürze verfügbar.

Unabhängig davon, ob der Benutzer eine Eingabeaufforderung eingibt oder das Modell Daten von Drittanbietern verarbeitet, wertet das Überwachungssystem diese aus, um festzustellen, ob sie verbotene Wörter auslöst oder versteckte Eingabeaufforderungen enthält, bevor es entscheidet, ob sie zur Beantwortung an das Modell gesendet werden. Als nächstes untersucht das System die Antwort des Modells und prüft, ob die halluzinierten Informationen des Modells im Dokument oder in der Eingabeaufforderung fehlen.

Im Fall von Google Gemini-Bildern hatten Filter zur Reduzierung von Verzerrungen unerwartete Auswirkungen, ein Bereich, in dem Microsoft mit seinen Azure-KI-Tools eine personalisiertere Steuerung ermöglichen wird. Bird räumt ein, dass Microsoft und andere Unternehmen entscheiden könnten, was für KI-Modelle geeignet ist und was nicht. Deshalb hat sein Team Azure-Kunden eine Möglichkeit hinzugefügt, das Filtern von Hassreden oder Gewalt zu ermöglichen, die das Modell erkennt und blockiert.

Zukünftig können Azure-Benutzer auch einen Bericht über Benutzer erhalten, die versuchen, unsichere Exits auszulösen. Bird sagt, dass Systemadministratoren dadurch feststellen können, welche Benutzer zum eigenen roten Team gehören und welche möglicherweise Personen mit böswilligeren Absichten sind.

Bird behauptet, dass Sicherheitsfunktionen sofort an GPT-4 und andere beliebte Modelle wie Llama 2 „angehängt“ werden. Da der Modellgarten von Azure jedoch viele KI-Modelle enthält, müssen Benutzer offener Systeme kleinerer, weniger genutzter Quellen möglicherweise manuell auf die Sicherheit hinweisen. Funktionen zu den Modellen.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *