Ein LLM generiert Text Token für Token. Diese Token können ein einzelnes Zeichen, ein Wort oder einen Teil eines Satzes darstellen. Um eine kohärente Textsequenz zu erstellen, sagt das Modell das nächste Token voraus, das am wahrscheinlichsten generiert wird. Diese Vorhersagen basieren auf vorherigen Wörtern und den jedem potenziellen Token zugewiesenen Wahrscheinlichkeitswerten.

Zum Beispiel mit dem Satz „Meine liebsten tropischen Früchte sind __“. Der LLM kann den Satz mit den Tokens „Mango“, „Litschi“, „Papaya“ oder „Durian“ vervollständigen und jedem Token wird eine Wahrscheinlichkeitsbewertung zugewiesen. Wenn eine Reihe verschiedener Token zur Auswahl stehen, kann SynthID die Wahrscheinlichkeitsbewertung jedes vorhergesagten Tokens anpassen, sofern dies die Qualität, Genauigkeit und Kreativität des Ergebnisses nicht beeinträchtigt.

Dieser Vorgang wird im gesamten generierten Text wiederholt, sodass ein einzelner Satz zehn oder mehr angepasste Wahrscheinlichkeitswerte und eine Seite Hunderte enthalten kann. Das endgültige Bewertungsmuster für die Wortwahl des Modells in Kombination mit den angepassten Wahrscheinlichkeitsbewertungen wird als Wasserzeichen betrachtet.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *