Bis jetzt sogar KI-Unternehmen hatten Mühe, Tools zu entwickeln, die zuverlässig erkennen können, ob Text mithilfe eines großen Sprachmodells generiert wurde. Jetzt hat eine Gruppe von Forschern eine neue Methode zur Schätzung der LLM-Nutzung in einer großen Menge wissenschaftlicher Schriften entwickelt, indem sie misst, welche „überschüssigen Wörter“ im Zeitalter des LLM (d. h. in den Jahren 2023 und 2024) viel häufiger auftauchten. Die Ergebnisse „deuten darauf hin, dass mindestens 10 % der Abstracts im Jahr 2024 mit LLMs verarbeitet wurden“, so die Forscher.

In einem vorläufigen Artikel, der Anfang dieses Monats veröffentlicht wurde, sagten vier Forscher der deutschen Universität Tübingen und der Northwestern University, sie hätten sich von Studien inspirieren lassen, die die Auswirkungen der Covid-19-Pandemie durch die Untersuchung der Übersterblichkeit im Vergleich zur jüngsten Vergangenheit gemessen hätten. Mit Blick auf den „übermäßigen Wortgebrauch“, nachdem LLM-Schreibwerkzeuge Ende 2022 allgemein verfügbar wurden, stellten die Forscher fest, dass „das Aufkommen von LLMs zu einem starken Anstieg der Häufigkeit bestimmter Stilwörter führte“, was „sowohl in der Qualität als auch in der Qualität beispiellos“ war Menge”.

Eintauchen

Um diese Vokabularveränderungen zu messen, analysierten die Forscher 14 Millionen Zusammenfassungen von Artikeln, die zwischen 2010 und 2024 auf PubMed veröffentlicht wurden, und verfolgten die relative Häufigkeit jedes Wortes, wie es jedes Jahr vorkam. Anschließend verglichen sie die erwartete Häufigkeit dieser Wörter (basierend auf dem Trend vor 2023) mit der tatsächlichen Häufigkeit dieser Wörter in den Abstracts von 2023 und 2024, als LLMs weit verbreitet waren.

Die Ergebnisse zeigten eine Reihe von Wörtern, die vor 2023 in diesen wissenschaftlichen Abstracts äußerst selten waren und nach der Einführung von LLMs plötzlich an Popularität gewannen. Das Wort „delves“ kommt beispielsweise im Jahr 2024 in 25-mal mehr Artikeln vor, als der Trend vor LLM erwartet hätte; Wörter wie „Showcase“ und „Unterstriche“ haben sich ebenfalls verneunfacht. Andere zuvor gebräuchliche Wörter wurden in Post-LLM-Abstracts deutlich häufiger: Die Häufigkeit von „potenziell“ stieg beispielsweise um 4,1 Prozentpunkte, die von „Befunde“ um 2,7 Prozentpunkte und die von „entscheidend“ um 2,6 Prozentpunkte.

Diese Veränderungen im Wortgebrauch können natürlich unabhängig vom LLM-Gebrauch auftreten, die natürliche Entwicklung der Sprache führt dazu, dass Wörter manchmal in Mode kommen und wieder aus der Mode kommen. Allerdings stellten die Forscher fest, dass vor dem LLM solche massiven, plötzlichen Anstiege im Jahresvergleich nur bei Wörtern beobachtet wurden, die mit großen globalen Gesundheitsereignissen in Zusammenhang standen: „Ebola“ im Jahr 2015; „Zika“ im Jahr 2017; und Wörter wie „Coronavirus“, „Lockdown“ und „Pandemie“ im Zeitraum 2020-2022.

Nach dem LLM fanden Forscher jedoch Hunderte von Wörtern, deren wissenschaftlicher Gebrauch plötzlich und stark zunahm, die jedoch keinen Bezug zum Weltgeschehen hatten. Tatsächlich handelte es sich bei den während der Covid-Pandemie überwiegend vorkommenden Wörtern überwiegend um Substantive, doch die Forscher stellten fest, dass es sich bei den Wörtern, deren Häufigkeit nach dem LLM zunahm, überwiegend um „Stilwörter“ wie Verben, Adjektive und Adverbien handelte (eine kleine Auswahl: „quer, zusätzlich“) , umfassend, entscheidend, Erweiterung, offengelegt, Einsichten, besonders, besonders, innerhalb“).

Dabei handelt es sich nicht um eine völlig neue Erkenntnis – beispielsweise wurde in jüngster Zeit vielfach auf die zunehmende Verbreitung von „Washing Out“ in wissenschaftlichen Artikeln hingewiesen. Frühere Studien stützten sich jedoch typischerweise auf Vergleiche mit „Basis“-Schriftproben von Menschen oder Listen vordefinierter LLM-Marker, die außerhalb der Studie erhalten wurden. Hier fungiert der Zusammenfassungssatz von vor 2023 als eigene effektive Kontrollgruppe, um zu zeigen, wie sich die Vokabelwahl in der Post-LLM-Ära insgesamt verändert hat.

Ein komplexes Zusammenspiel

Durch die Hervorhebung von Hunderten von „Markierungswörtern“, die nach LLM viel häufiger vorkommen, können die verräterischen Anzeichen für die Verwendung von LLM manchmal leicht erkannt werden. Betrachten Sie dieses Beispiel einer von Forschern zitierten abstrakten Zeile mit hervorgehobenen Markierungswörtern: „A vollständig Verständnis für die komplexe Interaktion zwischen […] Und […] Ost Drehpunkt für wirksame Therapiestrategien.

Nach einigen statistischen Messungen des Auftretens von Schlüsselwörtern in einzelnen Artikeln schätzen die Forscher, dass mindestens 10 % der nach 2022 im PubMed-Korpus veröffentlichten Artikel mit zumindest einer gewissen LLM-Unterstützung verfasst wurden. Diese Zahl könnte sogar noch höher sein, sagen die Forscher, da in ihrem Satz möglicherweise LLM-gestützte Zusammenfassungen fehlen, die keines der von ihnen identifizierten Schlüsselwörter enthalten.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *