Viren sind eine mysteriöse und kaum verstandene Kraft in mikrobiellen Ökosystemen. Forscher wissen, dass sie menschliche und bakterielle Zellen in fast jeder Umgebung, vom Meer bis zum Darm, infizieren, töten und manipulieren können. Wissenschaftler haben jedoch noch kein vollständiges Bild davon, wie Viren ihre Umgebung beeinflussen, was vor allem auf ihre außergewöhnliche Vielfalt und ihre Fähigkeit zur schnellen Entwicklung zurückzuführen ist.

Mikrobengemeinschaften sind im Labor schwer zu untersuchen. Viele Mikroben sind schwer zu kultivieren und ihre natürliche Umgebung weist viel mehr Eigenschaften auf, die ihren Erfolg oder Misserfolg beeinflussen, als Wissenschaftler im Labor reproduzieren können.

Deshalb sequenzieren Systembiologen wie ich oft die gesamte in einer Probe vorhandene DNA – zum Beispiel in der Stuhlprobe eines Patienten –, trennen die viralen DNA-Sequenzen und kommentieren dann die Abschnitte des viralen Genoms, die die Proteine ​​kodieren. Diese Hinweise zur Lage, Struktur und anderen Eigenschaften von Genen helfen Forschern, die Funktionen zu verstehen, die Viren in der Umwelt ausüben können, und verschiedene Arten von Viren zu identifizieren. Forscher annotieren Viren, indem sie virale Sequenzen aus einer Probe mit zuvor annotierten Sequenzen abgleichen, die in öffentlichen viralen genetischen Sequenzdatenbanken verfügbar sind.

Wissenschaftler identifizieren jedoch virale Sequenzen in DNA, die aus der Umwelt gesammelt wurde, und zwar mit einer Geschwindigkeit, die unsere Fähigkeit, diese Gene zu annotieren, bei weitem übersteigt. Das bedeutet, dass Forscher ihre Ergebnisse zu Viren in mikrobiellen Ökosystemen unter Verwendung unannehmbar kleiner Bruchteile der verfügbaren Daten veröffentlichen.

Um die Fähigkeit von Forschern, Viren auf der ganzen Welt zu untersuchen, zu verbessern, haben mein Team und ich einen neuen Ansatz zur Annotation viraler Sequenzen mithilfe künstlicher Intelligenz entwickelt. Mithilfe von Protein-Sprachmodellen, die großen Sprachmodellen wie ChatGPT ähneln, aber spezifisch für Proteine ​​sind, konnten wir bisher unveröffentlichte Virussequenzen klassifizieren. Dies eröffnet Forschern nicht nur die Möglichkeit, mehr über Viren zu erfahren, sondern auch biologische Fragen zu beantworten, die mit aktuellen Techniken nur schwer zu beantworten sind.

Kommentieren Sie Viren mit KI

Große Sprachmodelle nutzen Beziehungen zwischen Wörtern in großen Textdatensätzen, um potenzielle Antworten auf Fragen zu liefern, deren Beantwortung nicht explizit „gelehrt“ wird. Wenn Sie einen Chatbot fragen: „Was ist die Hauptstadt von Frankreich?“ Beispielsweise sucht das Modell nicht in einer Großbuchstabentabelle nach der Antwort. Vielmehr nutzt er sein Training anhand riesiger Dokumenten- und Informationsdatensätze, um die Antwort abzuleiten: „Die Hauptstadt Frankreichs ist Paris.“

In ähnlicher Weise sind Proteinsprachmodelle KI-Algorithmen, die darauf trainiert sind, Beziehungen zwischen Milliarden von Proteinsequenzen aus Umgebungen auf der ganzen Welt zu erkennen. Mit dieser Schulung können sie möglicherweise etwas über das Wesen viraler Proteine ​​und ihre Funktionen herausfinden.

Wir fragten uns, ob Protein-Sprachmodelle diese Frage beantworten könnten: „Welche Funktion hat diese neue Sequenz angesichts aller annotierten viralen Gensequenzen?“

In unserem Proof of Concept haben wir neuronale Netze auf zuvor annotierte virale Proteinsequenzen in vortrainierten Proteinsprachmodellen trainiert und diese dann verwendet, um die Annotation neuer viraler Proteinsequenzen vorherzusagen. Unser Ansatz ermöglicht es uns zu untersuchen, was das Modell in einer bestimmten Virussequenz „sieht“, die zu einer bestimmten Annotation führt. Auf diese Weise können interessierende Proteinkandidaten anhand ihrer spezifischen Funktionen oder der Organisation ihres Genoms identifiziert und so der Suchraum großer Datensätze durchsucht werden.

Mikroskopisches Bild hellgrün gefärbter kugelförmiger Bakterien

Durch die Identifizierung weiter entfernter viraler Genfunktionen können Proteinsprachmodelle aktuelle Methoden ergänzen und neue Einblicke in die Mikrobiologie liefern. Mein Team und ich konnten beispielsweise mithilfe unseres Modells eine bisher wenig bekannte Integrase – eine Art Protein, das in der Lage ist, genetische Informationen in und aus Zellen zu transportieren – in weltweit häufig vorkommenden marinen Picocyanobakterien entdecken. Prochlorkokken Und Synechokokken. Insbesondere könnte diese Integrase in der Lage sein, Gene in diese Bakterienpopulationen in den Ozeanen hinein und aus ihnen heraus zu bewegen und es diesen Mikroben zu ermöglichen, sich besser an veränderte Umgebungen anzupassen.

Unser linguistisches Modell identifizierte auch ein neuartiges virales Kapsidprotein, das in den Weltmeeren weit verbreitet ist. Wir haben das erste Bild der Anordnung seiner Gene erstellt und zeigen, dass es möglicherweise unterschiedliche Sätze von Genen enthält, die unserer Meinung nach darauf hindeuten, dass dieses Virus in seiner Umgebung unterschiedliche Funktionen ausführt.

Diese vorläufigen Ergebnisse stellen nur zwei der Tausenden von Anmerkungen dar, die unser Ansatz liefert.

Analysieren Sie das Unbekannte

Die meisten der Hunderttausende kürzlich entdeckten Viren sind noch nicht klassifiziert. Viele virale Gensequenzen entsprechen Proteinfamilien ohne bekannte Funktion oder die noch nie zuvor beobachtet wurden. Unsere Arbeit zeigt, dass ähnliche Protein-Sprachmodelle dabei helfen könnten, die Bedrohung und das Versprechen der vielen uncharakterisierten Viren unseres Planeten zu untersuchen.

Während sich unsere Studie auf Viren konzentrierte, die in den Weltmeeren vorkommen, ist eine bessere Annotation viraler Proteine ​​unerlässlich, um die Rolle von Viren für Gesundheit und Krankheit im menschlichen Körper besser zu verstehen. Wir und andere Forscher stellten die Hypothese auf, dass die Virusaktivität im menschlichen Darmmikrobiom verändert sein könnte, wenn Sie krank sind. Das bedeutet, dass Viren dabei helfen können, Stress in mikrobiellen Gemeinschaften zu erkennen.

Unser Ansatz ist jedoch auch begrenzt, da er qualitativ hochwertige Anmerkungen erfordert. Forscher entwickeln neue Protein-Sprachmodelle, die andere „Aufgaben“ in ihr Training integrieren, darunter die Vorhersage von Proteinstrukturen, um ähnliche Proteine ​​zu erkennen und sie dadurch leistungsfähiger zu machen.

Die Bereitstellung aller KI-Tools durch FAIR-Data-Prinzipien – auffindbare, zugängliche, interoperable und wiederverwendbare Daten – kann Forschern insgesamt dabei helfen, das Potenzial dieser neuen Methoden zur Annotation von Proteinsequenzen zu erkennen, die zu Entdeckungen führen, die sich positiv auf die menschliche Gesundheit auswirken.

Dieser Artikel wurde von The Conversation erneut veröffentlicht, einer unabhängigen, gemeinnützigen Nachrichtenorganisation, die Ihnen vertrauenswürdige Fakten und Analysen liefert, die Ihnen helfen, unsere komplexe Welt zu verstehen. Es wurde geschrieben von: Libusha Kelly, Albert Einstein College of Medicine

Erfahren Sie mehr:

Libusha Kelly wird von den National Institutes of Health gefördert.

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *