Technologische Neuigkeiten, Bewertungen und Tipps!

Lernen Sie CLAMP kennen: ein neues KI-Tool zur Vorhersage molekularer Aktivität, das sich zum Zeitpunkt der Inferenz an neue Experimente anpassen kann

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie CLAMP kennen: ein neues KI-Tool zur Vorhersage molekularer Aktivität, das sich zum Zeitpunkt der Inferenz an neue Experimente anpassen kann

Seit Jahrzehnten ist die Vorhersage der chemischen, makroskopischen oder biologischen Eigenschaften eines Moleküls anhand seiner chemischen Struktur ein zentrales wissenschaftliches Forschungsproblem. Aufgrund bedeutender technologischer Fortschritte in den letzten Jahren wurden viele Algorithmen des maschinellen Lernens verwendet, um Zusammenhänge zwischen der chemischen Struktur und den Eigenschaften solcher Moleküle zu entdecken. Darüber hinaus markierte der Beginn des Deep Learning die Einführung von Aktivitätsvorhersagemodellen, mit denen die verbleibenden Moleküle für biologische Tests eingestuft werden, nachdem Moleküle mit unerwünschten Merkmalen entfernt wurden. Diese Aktivitätsvorhersagemodelle sind die wichtigsten Arbeitspferde der rechnergestützten Wirkstoffforschungsbranche und können mit großen Sprachmodellen in der Verarbeitung natürlicher Sprache und Bildklassifizierungsmodellen in der Computer Vision verglichen werden. Diese Deep-Learning-basierten Aktivitätsvorhersagemodelle nutzen eine Vielzahl chemischer Strukturbeschreibungen auf niedriger Ebene, darunter chemische Fingerabdrücke, Deskriptoren, molekulare Diagramme, die String-Darstellung SMILES oder eine Kombination davon.

Obwohl diese Architekturen eine bewundernswerte Leistung erbracht haben, waren ihre Fortschritte nicht so revolutionär wie die Fortschritte in Vision und Sprache. Typischerweise werden Molekülpaare und Aktivitätsmarkierungen aus biologischen Experimenten oder „Bioassays“ verwendet, um Aktivitätsvorhersagemodelle zu trainieren. Da der Prozess der Annotation von Trainingsdaten (auch Bioaktivitäten genannt) äußerst zeit- und arbeitsintensiv ist, suchen Forscher eifrig nach Methoden, mit denen Aktivitätsvorhersagemodelle anhand einer geringeren Anzahl von Datenpunkten effizient trainiert werden können. Darüber hinaus sind aktuelle Aktivitätsvorhersagealgorithmen noch nicht in der Lage, umfassende Informationen über die Aktivitätsvorhersageaufgaben zu nutzen, die meist in Form von Textbeschreibungen des biologischen Experiments bereitgestellt werden. Dies liegt vor allem daran, dass diese Modelle Messdaten aus der Bioassay- oder Aktivitätsvorhersageaufgabe benötigen, für die sie trainiert oder optimiert werden. Aus diesem Grund können aktuelle Aktivitätsvorhersagemodelle keine Zero-Shot-Aktivitätsvorhersage durchführen und haben eine schlechte Vorhersagegenauigkeit für Wenig-Shot-Szenarien.

Aufgrund der berichteten Zero- und Few-Shot-Fähigkeiten haben Forscher für Aufgaben mit geringem Datenaufwand auf verschiedene wissenschaftliche Sprachmodelle zurückgegriffen. Allerdings mangelt es diesen Modellen deutlich an Vorhersagequalität, wenn es um die Aktivitätsvorhersage geht. Bei der Arbeit an dieser Problemstellung entdeckte eine Gruppe renommierter Forscher der Abteilung für maschinelles Lernen der Johannes Kepler-Universität Linz, Österreich, dass die Verwendung chemischer Datenbanken als Trainings- oder Vortrainingsdaten und die Auswahl eines effizienten Molekül-Encoders zu einer besseren Aktivitätsvorhersage führen kann. Um dieses Problem anzugehen, schlagen sie Contrastive Language-Assay-Molecule Pre-training (oder CLAMP) vor, eine neuartige Architektur zur Aktivitätsvorhersage, die von der Textbeschreibung der Vorhersageaufgabe abhängig gemacht werden kann. Diese modularisierte Architektur besteht aus einem separaten Molekül- und Sprachkodierer, die im Vergleich zu diesen beiden Datenmodalitäten vorab trainiert sind. Die Forscher schlagen außerdem ein kontrastierendes Pre-Training-Ziel für Informationen vor, die in chemischen Datenbanken als Trainingsdaten enthalten sind. Diese Daten enthalten um Größenordnungen mehr chemische Strukturen als in biomedizinischen Texten enthalten sind.

Wie bereits erwähnt, verwendet CLAMP einen trainierbaren Text-Encoder zum Erstellen von Bioassay-Einbettungen und einen trainierbaren Molekül-Encoder zum Erstellen von Molekül-Einbettungen. Es wird davon ausgegangen, dass diese Einbettungen schichtnormalisiert sind. Die von österreichischen Forschern vorgeschlagene Methode beinhaltet auch eine Bewertungsfunktion, die hohe Werte liefert, wenn ein Molekül in einem bestimmten Bioassay aktiv ist, und niedrige Werte, wenn dies nicht der Fall ist. Darüber hinaus verleiht die kontrastive Lernstrategie dem Modell die Fähigkeit zum Zero-Shot-Transfer-Lernen, das, vereinfacht gesagt, aufschlussreiche Vorhersagen für noch nie dagewesene Bioassays liefert. Mehrere von den Forschern durchgeführte experimentelle Auswertungen ergaben, dass ihre Methodik die Vorhersageleistung bei Wenig-Schuss-Lernbenchmarks und Null-Schuss-Problemen bei der Arzneimittelentwicklung deutlich verbessert und übertragbare Darstellungen liefert. Die Forscher glauben, dass die modulare Architektur und das Ziel vor dem Training ihres Modells der Hauptgrund für seine bemerkenswerte Leistung waren.

Es ist wichtig zu bedenken, dass CLAMP zwar eine bewundernswerte Leistung erbringt, es jedoch noch Raum für Verbesserungen gibt. Viele Elemente, die die Ergebnisse des Bioassays beeinflussen, wie beispielsweise die chemische Dosierung, werden nicht berücksichtigt. Darüber hinaus kann es in bestimmten Fällen zu falschen Vorhersagen kommen, die auf grammatikalische Inkonsistenzen und Verneinungen zurückzuführen sind. Nichtsdestotrotz zeigt die kontrastive Lernmethode CLAMP die beste Leistung bei Zero-Shot-Vorhersageaufgaben zur Arzneimittelentdeckung bei mehreren großen Datensätzen.

Besuche die Papier Und Github. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 15k+ ML SubReddit, Discord-KanalUnd E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

➡️ Ultimativer Leitfaden zur Datenkennzeichnung beim maschinellen Lernen

Table of Contents