KI-Prompt-Engineering ist tot

Seit der Veröffentlichung von ChatGPT im Herbst 2022 versucht sich jeder mit seinem Esel am Rapid Engineering und findet eine clevere Möglichkeit, Ihre Anfrage in einem großen Sprachmodell (LLM) oder einem Generator zu formulieren. Kunst oder KI-Video, um die besten Ergebnisse zu erzielen oder Seitenschutz. Das Internet ist voll von schnellen technischen Leitfäden, Spickzetteln und Ratgeberthreads, die Ihnen helfen, das Beste aus einem LLM herauszuholen.

Im kommerziellen Sektor liefern sich Unternehmen jetzt einen Wettlauf mit LLMs, um Produkt-Co-Piloten zu entwickeln, mühsame Arbeit zu automatisieren, persönliche Assistenten zu schaffen und mehr, sagt Austin Henley, ein ehemaliger Microsoft-Mitarbeiter, der eine Reihe von Interviews mit Menschen geführt hat, die auf der Entwicklung von Co-Piloten basieren auf dem LLM. Piloten. „Jedes Unternehmen versucht, es für praktisch jeden Anwendungsfall zu nutzen, den es sich vorstellen kann“, sagt Henley.

„Vielleicht ist der einzige wirkliche Trend das Fehlen eines Trends. Was für ein bestimmtes Modell, einen bestimmten Datensatz und eine bestimmte Anreizstrategie am besten ist, hängt wahrscheinlich von der betreffenden Kombination ab. –Rick Battle und Teja Gollapudi, VMware

Dazu griffen sie auf schnelle, professionelle Ingenieure zurück.

Neue Forschungsergebnisse deuten jedoch darauf hin, dass Rapid Engineering am besten vom Modell selbst und nicht von einem menschlichen Ingenieur durchgeführt werden kann. Dies hat Zweifel an der Zukunft des Rapid Engineering geweckt und den Verdacht geweckt, dass viele Berufe im Rapid Engineering eine vorübergehende Modeerscheinung sein könnten, zumindest so, wie man sich das Gebiet derzeit vorstellt.

Automatisch abgestimmte Eingabeaufforderungen sind erfolgreich und seltsam

Rick Battle und Teja Gollapudi vom kalifornischen Cloud-Computing-Unternehmen VMware waren verblüfft darüber, wie launisch und unvorhersehbar die LLM-Leistung als Reaktion auf seltsame Anreiztechniken war. Beispielsweise stellten Menschen fest, dass die Leistung von Modellen bei einer Reihe von mathematischen und logischen Fragen verbessert wurde, wenn man Modelle dazu aufforderte, ihre Überlegungen Schritt für Schritt zu erklären (eine Technik namens Kettendenken). Noch merkwürdiger ist, dass Battle herausfand, dass es manchmal zu einer Leistungsverbesserung führte, wenn man einem Modell positive Aufforderungen wie „Das wird Spaß machen“ oder „Du bist so schlau wie chatGPT“ gab.

Battle und Gollapudi beschlossen, systematisch die Auswirkungen verschiedener Rapid-Engineering-Strategien auf die Fähigkeit eines LLM zu testen, Mathematikfragen in der Grundschule zu lösen. Sie testeten drei verschiedene Open-Source-Sprachmodelle mit jeweils 60 verschiedenen Eingabeaufforderungskombinationen. Was sie fanden, war ein überraschender Mangel an Konsistenz. Sogar Gedankenkettenaufforderungen halfen manchmal, manchmal beeinträchtigten sie die Leistung. „Vielleicht ist der einzige wirkliche Trend das Fehlen eines Trends“, schreiben sie. „Was für ein bestimmtes Modell, einen bestimmten Datensatz und eine bestimmte Anreizstrategie am besten funktioniert, hängt wahrscheinlich von der jeweiligen Kombination ab, um die es geht. »

Laut einem Forschungsteam sollte kein Mensch jemals wieder Eingabeaufforderungen manuell optimieren.

Es gibt eine Alternative zum Versuch-und-Irrtum-Prompt-Engineering, das zu so inkonsistenten Ergebnissen geführt hat: das Sprachmodell aufzufordern, seine eigene optimale Eingabeaufforderung zu entwerfen. Kürzlich wurden neue Tools entwickelt, um diesen Prozess zu automatisieren. Anhand einiger Beispiele und einer quantitativen Erfolgsmessung werden diese Tools iterativ den optimalen Satz für die Einspeisung in das LLM finden. Battle und Kollegen stellten fest, dass diese automatisch generierte Eingabeaufforderung in fast allen Fällen besser funktionierte als die beste Eingabeaufforderung, die durch Versuch und Irrtum gefunden wurde. Und der Prozess war viel schneller, ein paar Stunden statt tagelanger Recherche.

Die vom Algorithmus ausgegebenen optimalen Eingabeaufforderungen waren so bizarr, dass sie wahrscheinlich kein Mensch jemals gegeben hätte. „Ich konnte einige der Dinge, die es erzeugte, buchstäblich nicht glauben“, sagt Battle. In einem Fall war die Aufforderung nur eine erweiterte Anspielung auf Star Trek: „Kommando, wir brauchen Sie, um einen Kurs durch diese Turbulenzen zu bestimmen und die Quelle der Anomalie zu lokalisieren.“ Nutzen Sie alle verfügbaren Daten und Ihr Fachwissen, um uns durch diese schwierige Situation zu führen. Anscheinend dachte er, es sei Captain Kirk gewesen, der diesem LLM dabei geholfen hat, Mathematikfragen aus der Grundschule besser zu beantworten.

Laut Battle ist die algorithmische Optimierung von Eingabeaufforderungen grundsätzlich sinnvoll, wenn man bedenkt, was Sprachmodelle eigentlich sind: Vorlagen. „Viele Menschen vermenschlichen diese Dinge, weil sie „Englisch sprechen“. Nein, das ist es nicht“, sagt Battle. ” Er spricht kein Englisch. Das ist eine Menge Mathematik.

Tatsächlich sagt Battle angesichts der Ergebnisse seines Teams, dass kein Mensch jemals wieder Eingabeaufforderungen manuell optimieren sollte.

„Sie sitzen nur da und versuchen herauszufinden, welche spezielle magische Wortkombination Ihnen die bestmögliche Leistung für Ihre Aufgabe bietet“, sagt Battle. „Aber hier hoffen wir, dass diese Forschung eingreift und sagt: ‚Machen Sie sich keine Sorgen.‘“ . „Entwickeln Sie einfach eine Bewertungsmetrik, damit das System selbst bestimmen kann, ob eine Eingabeaufforderung besser ist als eine andere, und lassen Sie dann das Modell sich selbst optimieren.“

Durch automatisch abgestimmte Eingabeaufforderungen werden die Bilder außerdem hübscher

Auch Bilderzeugungsalgorithmen können von automatisch generierten Eingabeaufforderungen profitieren. Kürzlich hat ein Team bei Intel Labs unter der Leitung von Vasudev Lal eine ähnliche Aufgabe in Angriff genommen, um Eingabeaufforderungen für das Stable Diffusion-Bilderzeugungsmodell zu optimieren. „Es scheint eher ein Fehler von LLMs und Bereitstellungsmodellen zu sein und kein Feature, dass man dieses fachmännische Rapid Engineering durchführen muss“, sagt Lal. „Deshalb wollten wir sehen, ob wir diese Art des Rapid Engineering automatisieren können.“

„Wir haben jetzt diese komplette Maschinerie, den kompletten Kreislauf, der durch dieses verstärkende Lernen vervollständigt wird. … Deshalb sind wir in der Lage, die menschliche Ingenieurskunst zu übertreffen. –Vasudev Lal, Intel Laboratories

Lals Team hat ein Tool namens NeuroPrompts entwickelt, das eine einfache Eingabeaufforderung, wie zum Beispiel „Junge auf einem Pferd“, automatisch verbessert, um ein besseres Bild zu erzeugen. Dazu begannen sie mit einer Reihe von Eingabeaufforderungen, die von Human-Engineering-Experten erstellt wurden. Anschließend trainierten sie ein Sprachmodell, um einfache Eingabeaufforderungen in Eingabeaufforderungen auf Expertenebene umzuwandeln. Darüber hinaus nutzten sie Reinforcement Learning, um diese Eingabeaufforderungen zu optimieren und ästhetisch ansprechendere Bilder zu erstellen, wie von einem anderen maschinellen Lernmodell, PickScore, einem kürzlich entwickelten Bildbewertungstool, bewertet wurde.

zwei Bilder eines Jungen auf einem Pferd NeuroPrompts ist eine generative automatische KI-Abstimmung von Eingabeaufforderungen, die einfache Eingabeaufforderungen in detailliertere und visuell beeindruckende StableDiffusion-Ergebnisse umwandelt, wie in diesem Fall ein von einer generischen Eingabeaufforderung generiertes Bild (links) im Vergleich zu einem entsprechenden von NeuroPrompt generierten Bild.Intel Labs/Stable Broadcast

Auch hier schnitten die automatisch generierten Eingabeaufforderungen besser ab als die von Experten als Ausgangspunkt verwendeten menschlichen Eingabeaufforderungen, zumindest gemäß der PickScore-Metrik. Lal fand das nicht überraschend. „Menschen werden dies nur durch Versuch und Irrtum erreichen“, sagt Lal. „Aber jetzt haben wir diese vollständige Maschinerie, die vollständige Schleife, die durch dieses verstärkende Lernen abgeschlossen wird. … Deshalb sind wir in der Lage, die menschliche Ingenieurskunst zu übertreffen.

Da die ästhetische Qualität notorisch subjektiv ist, wollten Lal und sein Team dem Benutzer eine gewisse Kontrolle darüber geben, wie seine Eingabeaufforderung optimiert wurde. In seinem Tool kann der Benutzer die ursprüngliche Eingabeaufforderung (z. B. „Junge zu Pferd“) sowie einen Künstler zum Nachahmen, einen Stil, ein Format und andere Modifikatoren angeben.

Lal glaubt, dass mit der Weiterentwicklung generativer KI-Modelle, seien es Bildgeneratoren oder große Sprachmodelle, die seltsamen Macken der schnellen Sucht verschwinden sollten. „Ich denke, es ist wichtig, dass diese Art von Optimierungen untersucht und letztendlich tatsächlich in das Basismodell selbst integriert werden, damit man nicht wirklich ein schnelles und kompliziertes Engineering benötigt.“

Rapid Engineering wird unter jedem Namen überleben

Selbst wenn Auto-Tuning-Eingabeaufforderungen zum Industriestandard werden, werden Rapid-Engineering-Jobs in der einen oder anderen Form nicht verschwinden, sagt Tim Cramer, Senior Vice President für Software Engineering bei Red Hat. Die Anpassung der generativen KI an die Bedürfnisse der Industrie ist ein komplexes, mehrstufiges Unterfangen, das auf absehbare Zeit weiterhin die Beteiligung des Menschen erfordern wird.

„Vielleicht nennen wir sie heute schnelle Ingenieure. Ich denke jedoch, dass sich die Art dieser Interaktion weiter ändern wird, da sich auch die KI-Modelle ändern. –Vasudev Lal, Intel Laboratories

„Ich denke, dass es neben Datenwissenschaftlern noch eine Weile schnelle Ingenieure geben wird“, sagt Cramer. „Es geht nicht nur darum, LLM-Fragen zu stellen und sicherzustellen, dass die Antwort gut aussieht. Aber es gibt eine ganze Reihe von Dingen, die Ingenieure wirklich können müssen.

„Es ist sehr einfach, einen Prototyp zu erstellen“, sagt Henley. „Es ist sehr schwierig, es in der Produktion herzustellen.“ „Rapid Engineering“ scheint ein wichtiger Teil des Puzzles zu sein, wenn man einen Prototyp baut, sagt Henley, aber bei der Entwicklung eines Produkts in kommerzieller Qualität spielen noch viele andere Überlegungen eine Rolle.

Zu den Herausforderungen bei der Entwicklung eines kommerziellen Produkts gehört die Gewährleistung der Zuverlässigkeit, z. B. fortschreitender Ausfall, wenn das Modell offline ist; Passen Sie die Modellausgabe an das entsprechende Format an, da viele Anwendungsfälle eine andere Ausgabe als Text erfordern. Tests, um sicherzustellen, dass der KI-Assistent auch in wenigen Fällen nichts Schädliches tut; und sorgen für Sicherheit, Datenschutz und Compliance. Laut Henley sind Tests und Compliance besonders schwierig, da herkömmliche Teststrategien für die Softwareentwicklung für nicht deterministische LLMs ungeeignet sind.

Um diese Vielzahl von Aufgaben zu bewältigen, kündigen viele große Unternehmen eine neue Berufsbezeichnung an: Large Language Model Operations (LLMOps), die Rapid Engineering in ihren Lebenszyklus einbezieht, aber auch alle anderen für die Produktbereitstellung erforderlichen Aufgaben umfasst. Laut Henley sind die Vorgänger von LLMOps, Machine Learning Operations Engineers (MLOps), am besten geeignet, diese Aufgaben zu übernehmen.

Ob die Berufsbezeichnungen „Prompt Engineer“, „LLMOps Engineer“ oder etwas völlig Neues lauten, die Art der Arbeit wird sich weiterhin rasant weiterentwickeln. „Vielleicht nennen wir sie heute schnelle Ingenieure“, sagt Lal, „aber ich denke, dass sich die Art dieser Interaktion weiter ändern wird, wenn sich auch die KI-Modelle ändern.“

„Ich weiß nicht, ob wir es mit einer anderen Berufskategorie oder Position kombinieren werden“, sagt Cramer, „aber ich glaube nicht, dass diese Dinge so schnell verschwinden werden.“ Und die Landschaft ist im Moment einfach zu verrückt. Alles verändert sich so sehr. Wir werden in ein paar Monaten nicht alles verstehen.

Henley sagt, dass in diesem frühen Stadium des Feldes die einzige vorherrschende Regel in gewisser Weise das Fehlen von Regeln zu sein scheint. „Dafür ist es im Moment ein bisschen Wilder Westen.“ er sagt.

Aus den Artikeln auf Ihrer Website

Verwandte Artikel im Internet

KI-Prompt-Engineering ist tot

Byrb8jg

Automatisch abgestimmte Eingabeaufforderungen sind erfolgreich und seltsam

Durch automatisch abgestimmte Eingabeaufforderungen werden die Bilder außerdem hübscher

Rapid Engineering wird unter jedem Namen überleben

By rb8jg

Related Post

Auch wenn es noch nicht der Mond ist, ist es die beste Lösung für europäische Astronauten

Fossilien aus der Adria zeugen von einer jüngsten und besorgniserregenden Wende der Situation

Das neue kalifornische Gesetz verlangt von Schulen, die Telefonnutzung einzuschränken

Leave a Reply Cancel reply

You missed

Auch wenn es noch nicht der Mond ist, ist es die beste Lösung für europäische Astronauten

Fossilien aus der Adria zeugen von einer jüngsten und besorgniserregenden Wende der Situation

Das neue kalifornische Gesetz verlangt von Schulen, die Telefonnutzung einzuschränken

Foren, Wettbewerbe, Herausforderungen: Inspiration für Kreativität in der Robotik