Künstliche neuronale Netze, vom biologischen Gehirn inspirierte Algorithmen, sind das Herzstück der modernen künstlichen Intelligenz und der Ursprung von Chatbots und Bildgeneratoren. Mit ihren zahlreichen Neuronen können sie jedoch als Black Boxes betrachtet werden, deren interne Funktionsweise für Benutzer nicht interpretierbar ist.

Forscher haben eine völlig neue Methode zum Aufbau neuronaler Netze entwickelt, die herkömmliche Systeme in mancher Hinsicht übertrifft. Diese neuen Netzwerke seien interpretierbarer und präziser, sagen ihre Befürworter, auch wenn sie kleiner seien. Ihre Entwickler sagen, dass die Art und Weise, wie sie lernen, physikalische Daten prägnant darzustellen, Wissenschaftlern dabei helfen könnte, neue Naturgesetze zu entdecken.

„Es ist großartig zu sehen, dass neue Architektur auf dem Tisch liegt. » –Brice Ménard, Johns Hopkins University

Seit mehr als einem Jahrzehnt haben Ingenieure die Entwürfe neuronaler Netze hauptsächlich durch Versuch und Irrtum verfeinert, sagt Brice Ménard, ein Physiker an der Johns Hopkins University, der die Funktionsweise neuronaler Netze untersucht, aber nicht an der neuen Arbeit beteiligt war, die im April auf arXiv veröffentlicht wurde. „Es ist großartig zu sehen, dass neue Architektur auf dem Tisch liegt“, sagt er, insbesondere Architektur, die nach ersten Prinzipien entworfen wurde.

Eine Möglichkeit, über neuronale Netze nachzudenken, besteht darin, sie mit Neuronen oder Knoten und Synapsen oder Verbindungen zwischen diesen Knoten zu vergleichen. In traditionellen neuronalen Netzen, sogenannten Multilayer-Perzeptronen (MLP), lernt jede Synapse ein Gewicht, eine Zahl, die bestimmt welche Stärke Die Verbindung wird zwischen diesen beiden Neuronen hergestellt. Neuronen sind in Schichten angeordnet, sodass ein Neuron in einer Schicht Eingangssignale von Neuronen in der vorherigen Schicht empfängt, gewichtet nach der Stärke ihrer synaptischen Verbindung. Jedes Neuron wendet dann eine einfache Funktion auf die Gesamtsumme seiner Eingaben an, die als Aktivierungsfunktion bezeichnet wird.

Schwarzer Text auf weißem Hintergrund mit roten und blauen Verbindungslinien auf der linken Seite und schwarzen Verbindungslinien auf der rechten Seite In traditionellen neuronalen Netzen werden sie manchmal als mehrschichtige Perzeptrone bezeichnet [left]Jede Synapse lernt eine Zahl, die als Gewicht bezeichnet wird, und jedes Neuron wendet eine einfache Funktion auf die Summe seiner Eingaben an. In der neuen Kolmogorov-Arnold-Architektur [right]Jede Synapse lernt eine Funktion und die Neuronen addieren die Ergebnisse dieser Funktionen.Das NSF-Institut für künstliche Intelligenz und grundlegende Interaktionen

In der neuen Architektur spielen Synapsen eine komplexere Rolle. Anstatt nur zu lernen welche Stärke Die Verbindung zwischen zwei Neuronen besteht darin, dass sie das lernen Wildnis Diese Verbindung ist die Funktion, die die Eingabe mit der Ausgabe verknüpft. Anders als die Aktivierungsfunktion, die Neuronen in der traditionellen Architektur verwenden, könnte diese Funktion komplexer sein – tatsächlich ein „Spline“ oder eine Kombination mehrerer Funktionen – und ist in jedem Fall anders. Neuronen hingegen werden einfacher – sie addieren einfach die Ausgaben aller Synapsen vor ihnen. Die neuen Netzwerke heißen Kolmogorov-Arnold-Netzwerke (KAN), benannt nach zwei Mathematikern, die untersuchten, wie Funktionen kombiniert werden können. Die Idee ist, dass KANs eine größere Flexibilität beim Lernen der Datendarstellung bieten und gleichzeitig weniger gelernte Parameter verwenden würden.

„Es ist wie außerirdisches Leben, das die Dinge aus einer anderen Perspektive betrachtet, aber auch für Menschen mehr oder weniger verständlich ist. » – Ziming Liu, Massachusetts Institute of Technology

Die Forscher testeten ihre KANs an relativ einfachen wissenschaftlichen Aufgaben. In einigen Experimenten nutzten sie einfache physikalische Gesetze, etwa die Geschwindigkeit, mit der zwei Objekte mit relativistischer Geschwindigkeit aneinander vorbeiziehen. Mithilfe dieser Gleichungen generierten sie Eingabe-Ausgabe-Datenpunkte. Anschließend trainierten sie für jede physikalische Funktion ein Netzwerk anhand einiger Daten und testeten es anhand der übrigen Daten. Sie fanden heraus, dass eine Vergrößerung der KANs ihre Leistung schneller verbessert als die Vergrößerung der MLPs. Bei der Lösung partieller Differentialgleichungen war ein KAN 100-mal genauer als ein MLP, das 100-mal mehr Parameter hatte.

In einem anderen Experiment trainierten sie Netzwerke, um ein Attribut topologischer Knoten, ihre sogenannte Signatur, basierend auf anderen Attributen der Knoten vorherzusagen. Ein MLP erreichte eine Testgenauigkeit von 78 % bei Verwendung von etwa 300.000 Parametern, während ein KAN eine Testgenauigkeit von 81,6 % bei Verwendung von nur etwa 200 Parametern erreichte.

Darüber hinaus konnten die Forscher die KANs visualisieren und die Formen der Aktivierungsfunktionen sowie die Bedeutung jeder Verbindung beobachten. Manuell oder automatisch konnten sie schwache Verbindungen beseitigen und einige Aktivierungsfunktionen durch einfachere Funktionen wie Sinus- oder Exponentialfunktionen ersetzen. Anschließend konnten sie das gesamte KAN in einer intuitiven einzeiligen Funktion zusammenfassen (einschließlich aller Komponentenaktivierungsfunktionen) und in einigen Fällen die physikalische Funktion, die den Datensatz erstellt hat, perfekt rekonstruieren.

„Wir hoffen, dass dies in Zukunft ein nützliches Werkzeug für die alltägliche wissenschaftliche Forschung sein kann“, sagt Ziming Liu, Informatiker am Massachusetts Institute of Technology und Erstautor der Studie. „Wenn wir einen Datensatz haben, den wir nicht interpretieren können, geben wir ihn einfach an ein KAN weiter, und es kann für Sie Hypothesen generieren. Man muss sich nur das Gehirn ansehen [the KAN diagram] und Sie können es sogar operieren, wenn Sie möchten. » Möglicherweise erhalten Sie eine aufgeräumte Funktion. „Es ist wie außerirdisches Leben, das die Dinge aus einer anderen Perspektive betrachtet, aber auch für Menschen irgendwie verständlich ist. »

Dutzende Artikel haben bereits den Preprint der KAN zitiert. „Ich fand es sofort sehr interessant, als ich es sah“, sagt Alexander Bodner, Informatikstudent an der Universität San Andrés, Argentinien. In einer Woche kombinierten er und drei seiner Klassenkameraden KANs mit Convolutional Neural Networks (CNNs), einer beliebten Architektur für die Bildverarbeitung. Sie testeten ihre Faltungs-KANs auf ihre Fähigkeit, handgeschriebene Zahlen oder Kleidungsstücke zu kategorisieren. Die besten von ihnen erreichten die Leistung eines herkömmlichen CNN (99 % Genauigkeit für beide Netzwerke bei Zahlen, 90 % für beide bei Kleidung), verwendeten jedoch etwa 60 % weniger Parameter. Die Datensätze waren einfach, aber Bodner sagt, dass andere Teams mit mehr Rechenleistung damit begannen, die Netzwerke zu skalieren. Andere kombinieren KANs mit Transformatoren, eine beliebte Architektur in großen Sprachmodellen.

Ein Nachteil von KANs besteht darin, dass sie mehr Zeit zum Trainieren pro Parameter benötigen, teilweise weil sie die Vorteile von GPUs nicht nutzen können. Sie benötigen jedoch weniger Einstellungen. Liu weist darauf hin, dass selbst wenn KANs riesige CNNs und Transformatoren für die Bild- und Sprachverarbeitung nicht ersetzen, die Trainingszeit bei vielen physikalischen Problemen kein kleines Problem darstellen wird. Es sucht nach Möglichkeiten für Experten, ihr Vorwissen in KANs einzufügen (z. B. durch manuelle Auswahl von Aktivierungsfunktionen) und mithilfe einer einfachen Schnittstelle einfach Wissen zu extrahieren. Eines Tages, sagt er, könnten KANs Physikern dabei helfen, Hochtemperatur-Supraleiter oder Möglichkeiten zur Steuerung der Kernfusion zu entdecken.

Artikel auf Ihrer Website

Verwandte Artikel im Internet

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *