Transformermodelle
Kurzbeschriebung
Transformermodelle sind eine Klasse tiefer neuronaler Netze, die Sequenzen vollständig über Aufmerksamkeitsmechanismen (Self-Attention) verarbeiten, ohne rekurrente oder konvolutionale Strukturen zu benötigen. Dadurch können Abhängigkeiten zwischen beliebigen Positionen einer Sequenz parallel und effizient modelliert werden.
Zentral ist der Self-Attention-Mechanismus, der für jedes Element einer Sequenz gewichtete Beiträge aller anderen Elemente berechnet. In vereinfachter Form lautet die Berechnung '"`UNIQ--math-00000000-QINU`"', wobei '"`UNIQ--math-00000001-QINU`"' (Queries), '"`UNIQ--math-00000002-QINU`"' (Keys) und '"`UNIQ--math-00000003-QINU`"' (Values) lineare Projektionen der Eingaben sind. Mehrere parallele Köpfe (Multi-Head Attention) erlauben es, unterschiedliche Beziehungsaspekte gleichzeitig zu erfassen.
Zusätzlich zur Attention bestehen Transformer aus Feedforward-Schichten, Residualverbindungen und Normierung. Da das Modell selbst keine Positionsinformation enthält, werden Positionsencodierungen hinzugefügt, um Reihenfolgeinformationen abzubilden.
Transformermodelle sind hochgradig skalierbar und bilden die Grundlage moderner Sprach-, Zeitreihen- und Multimodalmodelle. Sie sind sehr leistungsfähig, erfordern jedoch große Datenmengen und erhebliche Rechenressourcen.
Anwendbarkeit im Gesundheitssektor
Im Gesundheitswesen werden Transformermodelle vor allem zur Verarbeitung sequenzieller und unstrukturierter Daten eingesetzt, etwa klinischer Texte (Arztbriefe, Befunde), Zeitreihen aus Monitoring-Systemen oder medizinischer Bild- und Signalfolgen. Sie ermöglichen leistungsstarke Klassifikation, Extraktion und Prognose auf Basis komplexer Abhängigkeiten.
In Public Health finden Transformer Anwendung bei der Analyse großer Textkorpora (z. B. Meldetexte, wissenschaftliche Literatur), bei Zeitreihenprognosen (z. B. Fallzahlen mit Long-Range-Dependencies) sowie als Baustein multimodaler Systeme, die Text, Zeit und Struktur kombinieren. Die Modelle sind primär prädiktiv, nicht kausal.
Sonstiges
Sehr gut für lange Abhängigkeiten und parallele Verarbeitung
Hoher Rechen- und Datenbedarf
Zahlreiche spezialisierte Varianten (Encoder-only, Decoder-only, Encoder–Decoder)
Semantik
Wikidata-Identifikator ist: Q58422194
Deutsche Wikipediaseite ist: Transformer_(Machine_Learning)
Englische Wikipediaseite ist: Transformer_(machine_learning)
Quelle: Vaswani et al. (2017), Attention Is All You Need
Behandlung von Unsicherheit in den Ergebnissen der Methode ist implizit
Für die Methode benötigte Datenmenge ist groß
Zweck der Methode ist Vorhersage„Vorhersage“ befindet sich nicht in der Liste (Voraussage, Inferenz, Simulation, Kausale Analyse) zulässiger Werte für das Attribut „Zweck der Methode ist“.
Methode ist Mitglied der Methodenfamilie Tiefes Lernen;Maschinelles Lernen„Tiefes Lernen;Maschinelles Lernen“ befindet sich nicht in der Liste (Mechanistisch, Statistisch, Maschinenlernen, Tiefes Lernen, Hybrid, Kausale Inferenz, Simulation, Operationale Vorhersage, Beschreibende und erkundende Analyse, Praktisches Anwendungskonzept, ...) zulässiger Werte für das Attribut „Methode ist Mitglied der Methodenfamilie“.
Interpretierbarkeit der Ergebnisse der Methode ist schlecht
Webseite: https://jalammar.github.io/illustrated-transformer/