Zahlreiche Studien belegen das Potenzial Künstlicher Intelligenz (KI), Radiologinnen und Radiologen bei der Detektion, Volumenbestimmung und Charakterisierung von Lungenrundherden zu unterstützen. In der Praxis zeigt sich jedoch ein Problem: Trainingsgrundlage, Funktionsumfang und Performance der verfügbaren Systeme unterscheiden sich erheblich.
Moderne KI-Systeme erkennen kleinste Lungenrundherde, vermessen sie und liefern Zusatzinformationen zu Wachstum und Malignitätsrisiko. Ihre Leistungsfähigkeit variiert jedoch stark – bedingt durch Unterschiede in Trainingsdaten, Algorithmen, Gerätekonfigurationen und Auswerteprotokollen. Zwar müssen Hersteller im Zulassungsverfahren die beabsichtigte Anwendung und Teststatistiken offenlegen, sind jedoch in der Auswahl ihrer Daten frei, was direkte Vergleiche erschwert.
Der EU AI Act fordert hierfür eine konsequente Qualitätssicherung. Um dies zu erreichen, empfiehlt ein Positionspapier¹ den Einsatz eines validierten Referenzdatensatzes als einheitliche Grundlage, um Systeme objektiv zu bewerten und eine sichere, transparente Anwendung im Screening zu gewährleisten.

Für Radiologinnen und Radiologen, Kliniken und Behörden stellt sich vor dem Einsatz von KI-basierter Diagnostik-Software oft die Frage: Wie lässt sich die Qualität von KI-Algorithmen objektiv und reproduzierbar überprüfen? Das neue Positionspapier „Anforderungen an die Qualitätssicherung von KI-Modellen für die Lungenkrebs-Früherkennung“¹ liefert darauf eine klare Antwort: mit standardisierten Referenzdatensätzen, verbindlichen Kennzahlen und kontinuierlicher Leistungsüberwachung.
Ziel ist es, den Einsatz von KI im Screening technisch transparent, klinisch sicher und über Einrichtungen hinweg vergleichbar zu machen. „Einheitliche und transparente Qualitätsstandards für KI-Anwendungen sind die Voraussetzung für den Einsatz in der klinischen Routine – nur so vermeiden wir unnötige Folgeuntersuchungen und das Übersehen relevanter Läsionen“, betont Mitautor Prof. Jörg Barkhausen.
Referenzdatensätze als Grundlage für objektive Messungen
Kernstück des vorgeschlagenen Konzepts ist ein validierter Referenzdatensatz, der reale Screeningfälle ebenso wie Messungen an physischen Phantomen und digital simulierten Lungenrundherden umfasst. Reale Fälle bilden die klinische Vielfalt ab, Phantome liefern die exakte Ground Truth für Volumina und Formen. So lässt sich die Genauigkeit von Detektion und Volumetrie reproduzierbar messen. Der Datensatz soll regelmäßig aktualisiert werden, um technologische Entwicklungen wie Photon-Counting-CT oder neue Rekonstruktionsverfahren zu berücksichtigen und systematische Veränderungen in den Eingangsdaten – etwa durch demografische Verschiebungen – abzubilden.

Das Papier rückt die Qualitätsbeurteilung der KI-Systeme ins Zentrum. Ein wichtiger Aspekt ist dabei die sogenannte Stand-alone-Performance: die Leistung des Algorithmus im vollautomatischen Modus, ohne menschliche Korrekturen. Nur so lassen sich durch Kennzahlen, wie Sensitivität, Spezifität, positiver und negativer prädiktiver Wert, die reinen algorithmischen Fähigkeiten vergleichen, um falsch-positive Befunde ebenso zu erfassen wie übersehene Läsionen. „Wir dürfen uns nicht allein auf regulatorische Siegel verlassen, sondern brauchen belastbare, unabhängige Prüfungen“, mahnt Prof. Dr. Horst Hahn vom Fraunhofer MEVIS.
Einheitliche Befundung und Vergleichbarkeit der Systeme
Die strukturierte Befundung spielt dabei eine Schlüsselrolle. Gemäß der aktuellen S3-Leitlinie Lungenkarzinom, soll sie einheitlich nach dem modifizierten Lung- RAD-System erfolgen, inklusive Berechnung der Volumenverdopplungszeit. Eingesetzte Software sollte mindestens drei Kernfunktionen erfüllen: Detektion der Lungenrundherde, Volumetrie und Wachstumsanalyse. Weitere Funktionen, wie automatische Klassifikation, eine transparente und verlässliche Malignitätsabschätzung oder eine koordinierende Funktion im Zweitbefundungsprozess, sind aus Sicht der Fachgesellschaft wünschenswert. Abweichungen in der Volumetrie oder Kategorisierung zwischen Systemen machen vergleichende Studien unverzichtbar. „Wenn unterschiedliche Softwaresysteme zu erheblich unterschiedlichen Volumenangaben oder Klassifikationen kommen, brauchen wir Vergleichsstudien, um objektive Einsatzkriterien zu entwickeln“, erklärt Prof. Jens Vogel-Claussen von der Medizinischen Hochschule Hannover.

Ein zentrales Problem liegt in der technischen Heterogenität der CT-Geräte und Protokolle. Variierende Dosiswerte, Rekonstruktionsmethoden oder Bildqualitäten können zu sogenannten Domain Shifts führen, die die Leistungsfähigkeit eines Algorithmus beeinflussen. Daher fordert das Positionspapier standardisierte Niedrigdosis- Protokolle, konsistente Scanbedingungen und die regelmäßige Überprüfung der Bildqualität. Auch die Volumetrie kleiner Läsionen ist fehleranfällig – etwa durch den Partialvolumeneffekt – und muss mit methodisch sauber ausgewählten Referenzsegmentierungen bewertet werden.
Da die exakten Volumina klinischer Läsionen unbekannt sind, ist die Ergänzung durch Phantomdaten unverzichtbar. Zudem plädieren die Autorinnen und Autoren für die Einbeziehung retrospektiv gesicherter Fälle mit histopathologischer Bestätigung, um die Detektionsleistung an einem eindeutigen Goldstandard zu messen. Nur so lassen sich Sensitivität und Spezifität sowie positiver und negativer prädiktiver Wert belastbar bestimmen. Nicht alle Prüfverfahren werden zum Start der Lungenkrebsfrüherkennung zur Verfügung stehen und es handelt sich auch nicht um eine einmalige Prüfung der Systeme. Vielmehr ist es entscheidend, die Prüfverfahren kontinuierlich weiterzuentwicklen und die Ergebnisse der Algorithmen und der Kombination von Mensch und Algorithmus regelmäßig an aktuellen Daten zu überprüfen.

Kontinuierliche Prüfung und sichere Umsetzung
Die Umsetzung einer solchen Qualitätsprüfung erfordert strenge Datenschutzmaßnahmen. Testdaten müssen vor unbefugtem Zugriff geschützt und von Trainingsdaten der Hersteller strikt getrennt werden. Eine Möglichkeit ist, die KI containerbasiert in einer kontrollierten Umgebung auszuführen, sodass nur standardisierte Leistungsergebnisse die Testumgebung verlassen. Die US-amerikanische FDA empfiehlt zusätzlich eine zufällige Auswahl der Testfälle, die Begrenzung der Wiederverwendung einzelner Datensätze und die Protokollierung jedes Datenzugriffs.
Aufbau und Pflege eines solchen Prüfverfahrens sind aufwendig, könnten aber durch eine Mischfinanzierung aus öffentlichen Mitteln und Herstellerbeiträgen nachhaltig betrieben werden. Eine moderate Gebühr pro Testlauf würde zudem sicherstellen, dass nur ernsthaft interessierte Anbieter teilnehmen.
Die Deutsche Röntgengesellschaft (DRG) will den Prozess aktiv begleiten und ihre Arbeitsgemeinschaften für Thoraxradiologie, IT sowie Physik & Technik einbinden. Ziel ist, nationale Lösungen zu entwickeln, die sich nahtlos in internationale Netzwerke einfügen. Das Konzept könne auch als Blaupause für andere Anwendungsfelder dienen, etwa Mammadiagnostik, Prostatakrebsfrüherkennung oder neuroradiologische Anwendungen. „Das, was wir hier für die Lungenkrebsfrüherkennung etablieren, kann auch als Modell für andere Bereiche dienen“, so Hahn.

Am Ende verfolgt das Positionspapier ein klares Ziel: Sicherheit, Transparenz und Vertrauen. Klare Prüfprotokolle, ein geschützter Referenzdatensatz, kontinuierliche Leistungskontrollen und definierte Kennzahlen sollen Radiologinnen und Radiologen, Kliniken und Behörden ermöglichen, die Qualität eines Systems verlässlich zu beurteilen. Patientinnen und Patienten profitieren so von einer präzisen und sicheren Diagnostik – unabhängig davon, in welcher Einrichtung sie untersucht werden. „Klare Maßstäbe für den Einsatz von KI stärken das Vertrauen – nicht nur bei Radiologinnen und Radiologen, sondern gerade auch bei den Teilnehmenden an der Lungenkrebsfrüherkennung“, betont Dr. Bianca Lassen-Schmidt vom Fraunhofer-Institut für Digitale Medizin MEVIS. Mit einem solchen Qualitätsrahmen könnte Deutschland nicht nur ein effektives, sondern auch international richtungsweisendes Lungenkrebs-Screening etablieren.
¹ Anforderungen an die Qualitätssicherung von KI-Modellen für die Lungenkrebs-Früherkennung Horst K. Hahn · Matthias S. May · Volker Dicken · Michael Walz · Rainer Eßeling · Bianca Lassen- Schmidt · Robert Rischen · Jens Vogel-Claussen · Konstantin Nikolaou · Jörg Barkhausen Positionspapier, Preprint, arXiv.org, v0.9, 24.02