K-Nearest Neighbor
Kurzbeschriebung
k-Nearest Neighbor (k-NN) ist ein instanzbasiertes, nichtparametrisches Lernverfahren, das Vorhersagen ausschließlich auf Basis der Ähnlichkeit zu bereits beobachteten Datenpunkten trifft. Es gibt kein explizit trainiertes Modell; stattdessen wird für eine neue Beobachtung eine Menge der k nächstgelegenen Nachbarn im Merkmalsraum bestimmt.
Die Ähnlichkeit wird über eine Distanzmetrik definiert (z. B. euklidisch, Manhattan, Mahalanobis). Bei Klassifikationsaufgaben erfolgt die Vorhersage meist durch Mehrheitsentscheidung unter den Nachbarn, bei Regressionsaufgaben durch Mittelung (oder gewichtete Mittelung) der Zielwerte.
Der Parameter '"`UNIQ--math-00000000-QINU`"' steuert den Bias-Varianz-Tradeoff: kleine Werte von '"`UNIQ--math-00000001-QINU`"' führen zu sehr flexiblen, aber verrauschten Modellen, große Werte zu glatteren, stabileren Schätzungen. Zusätzlich beeinflussen Feature-Skalierung und Distanzgewichtung das Modellverhalten stark.
k-NN ist ein lokales Lernverfahren: Entscheidungen werden punktweise auf Basis der lokalen Datenstruktur getroffen. Dadurch kann es hochgradig nichtlineare Entscheidungsgrenzen abbilden, leidet jedoch unter dem Fluch der Dimensionalität, da Distanzen in hochdimensionalen Räumen an Aussagekraft verlieren.
Rechnerisch verschiebt k-NN den Aufwand vom Training zur Vorhersage, da für jede Anfrage Abstände zu vielen oder allen Trainingspunkten berechnet werden müssen. Effiziente Datenstrukturen (z. B. k-d-Trees) können dies nur in niedrigen Dimensionen teilweise abmildern.
Anwendbarkeit im Gesundheitssektor
Im Gesundheitswesen wird k-NN häufig für Klassifikations- und Ähnlichkeitsaufgaben eingesetzt, etwa zur Patientenstratifizierung, Mustererkennung in klinischen Messdaten oder zur Identifikation ähnlicher Krankheitsverläufe. Die Methode ist besonders attraktiv, wenn keine klare Modellannahme getroffen werden soll.
In Public Health findet k-NN Anwendung bei explorativen Analysen, z. B. zur Gruppierung von Regionen mit ähnlichen Inzidenzmustern oder sozialen Profilen. Aufgrund der eingeschränkten Skalierbarkeit und Interpretierbarkeit wird k-NN meist als Baseline-, Vergleichs- oder Vorverarbeitungsschritt genutzt, weniger als finales Entscheidungsmodell.
Sonstiges
Sehr einfaches, intuitives Verfahren
Stark abhängig von Distanzmaß und Skalierung
Schwächen bei hoher Dimensionalität und großen Datensätzen
Semantik
Wikidata-Identifikator ist: Q1136286
Deutsche Wikipediaseite ist: https://de.wikipedia.org/wiki/N%C3%A4chste-Nachbarn-Klassifikator
Englische Wikipediaseite ist: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
Quelle: Cover & Hart (1967), Nearest Neighbor Pattern Classification
Behandlung von Unsicherheit in den Ergebnissen der Methode ist nicht„Nicht“ befindet sich nicht in der Liste (Explizit, Implizit, Nicht vorhanden) zulässiger Werte für das Attribut „Behandlung von Unsicherheit in den Ergebnissen der Methode ist“.
Für die Methode benötigte Datenmenge ist mittel;groß„Mittel;groß“ befindet sich nicht in der Liste (Groß, Mittel, Klein) zulässiger Werte für das Attribut „Für die Methode benötigte Datenmenge ist“.
Zweck der Methode ist Vorhersage„Vorhersage“ befindet sich nicht in der Liste (Voraussage, Inferenz, Simulation, Kausale Analyse) zulässiger Werte für das Attribut „Zweck der Methode ist“.
Methode ist Mitglied der Methodenfamilie Maschinelles Lernen;Beschreibende und erkundende Analyse„Maschinelles Lernen;Beschreibende und erkundende Analyse“ befindet sich nicht in der Liste (Mechanistisch, Statistisch, Maschinenlernen, Tiefes Lernen, Hybrid, Kausale Inferenz, Simulation, Operationale Vorhersage, Beschreibende und erkundende Analyse, Praktisches Anwendungskonzept, ...) zulässiger Werte für das Attribut „Methode ist Mitglied der Methodenfamilie“.
Interpretierbarkeit der Ergebnisse der Methode ist mittel
Webseite: https://scikit-learn.org/stable/modules/neighbors.html