Präzision statt Zufall

Qualitätssicherung von KI in der Lungenkrebsfrüherkennung

Zahlreiche Studien belegen das Potenzial Künstlicher Intelligenz (KI), Radiologinnen und Radiologen bei der Detektion, Volumenbestimmung und Charakterisierung von Lungenrundherden zu unterstützen. In der Praxis zeigt sich jedoch ein Problem: Trainingsgrundlage, Funktionsumfang und Performance der verfügbaren Systeme unterscheiden sich erheblich. 

Moderne KI-Systeme erkennen kleinste Lungenrundherde, vermessen sie und liefern Zusatzinformationen zu Wachstum und Malignitätsrisiko. Ihre Leistungsfähigkeit variiert jedoch stark – bedingt durch Unterschiede in Trainingsdaten, Algorithmen, Gerätekonfigurationen und Auswerteprotokollen. Zwar müssen Hersteller im Zulassungsverfahren die beabsichtigte Anwendung und Teststatistiken offenlegen, sind jedoch in der Auswahl ihrer Daten frei, was direkte Vergleiche erschwert.

Der EU AI Act fordert hierfür eine konsequente Qualitätssicherung. Um dies zu erreichen, empfiehlt ein Positionspapier¹ den Einsatz eines validierten Referenzdatensatzes als einheitliche Grundlage, um Systeme objektiv zu bewerten und eine sichere, transparente Anwendung im Screening zu gewährleisten.

Jörg Barkhausen
„ Einheitliche und transparente Qualitätsstandards sind die Basis, um unnötige Folgeuntersuchungen zu vermeiden und relevante Befunde sicher zu erkennen.“ Prof. Jörg Barkhausen, Direktor der Klinik für Radiologie und Nuklearmedizin, Campus Lübeck
Quelle: (C) MEVIS

Für Radiologinnen und Radiologen, Kliniken und Behörden stellt sich vor dem Einsatz von KI-basierter Diagnostik-Software oft die Frage: Wie lässt sich die Qualität von KI-Algorithmen objektiv und reproduzierbar überprüfen? Das neue Positionspapier „Anforderungen an die Qualitätssicherung von KI-Modellen für die Lungenkrebs-Früherkennung“¹ liefert darauf eine klare Antwort: mit standardisierten Referenzdatensätzen, verbindlichen Kennzahlen und kontinuierlicher Leistungsüberwachung.

Ziel ist es, den Einsatz von KI im Screening technisch transparent, klinisch sicher und über Einrichtungen hinweg vergleichbar zu machen. „Einheitliche und transparente Qualitätsstandards für KI-Anwendungen sind die Voraussetzung für den Einsatz in der klinischen Routine – nur so vermeiden wir unnötige Folgeuntersuchungen und das Übersehen relevanter Läsionen“, betont Mitautor Prof. Jörg Barkhausen.

Referenzdatensätze als Grundlage für objektive Messungen

Kernstück des vorgeschlagenen Konzepts ist ein validierter Referenzdatensatz, der reale Screeningfälle ebenso wie Messungen an physischen Phantomen und digital simulierten Lungenrundherden umfasst. Reale Fälle bilden die klinische Vielfalt ab, Phantome liefern die exakte Ground Truth für Volumina und Formen. So lässt sich die Genauigkeit von Detektion und Volumetrie reproduzierbar messen. Der Datensatz soll regelmäßig aktualisiert werden, um technologische Entwicklungen wie Photon-Counting-CT oder neue Rekonstruktionsverfahren zu berücksichtigen und systematische Veränderungen in den Eingangsdaten – etwa durch demografische Verschiebungen – abzubilden. 

Chip mit Lungen-KI
Ein strukturierter Referenzdatensatz mit realen Fällen und Phantom- daten bildet das Herzstück der vorgeschlagenen Qualitätssicherung für KI-Systeme.
Quelle: Bild ©: NASSRI · stock.adobe.com

Das Papier rückt die Qualitätsbeurteilung der KI-Systeme ins Zentrum. Ein wichtiger Aspekt ist dabei die sogenannte Stand-alone-Performance: die Leistung des Algorithmus im vollautomatischen Modus, ohne menschliche Korrekturen. Nur so lassen sich durch Kennzahlen, wie Sensitivität, Spezifität, positiver und negativer prädiktiver Wert, die reinen algorithmischen Fähigkeiten vergleichen, um falsch-positive Befunde ebenso zu erfassen wie übersehene Läsionen. „Wir dürfen uns nicht allein auf regulatorische Siegel verlassen, sondern brauchen belastbare, unabhängige Prüfungen“, mahnt Prof. Dr. Horst Hahn vom Fraunhofer MEVIS.

Einheitliche Befundung und Vergleichbarkeit der Systeme 

Die strukturierte Befundung spielt dabei eine Schlüsselrolle. Gemäß der aktuellen S3-Leitlinie Lungenkarzinom, soll sie einheitlich nach dem modifizierten Lung- RAD-System erfolgen, inklusive Berechnung der Volumenverdopplungszeit. Eingesetzte Software sollte mindestens drei Kernfunktionen erfüllen: Detektion der Lungenrundherde, Volumetrie und Wachstumsanalyse. Weitere Funktionen, wie automatische Klassifikation, eine transparente und verlässliche Malignitätsabschätzung oder eine koordinierende Funktion im Zweitbefundungsprozess, sind aus Sicht der Fachgesellschaft wünschenswert. Abweichungen in der Volumetrie oder Kategorisierung zwischen Systemen machen vergleichende Studien unverzichtbar. „Wenn unterschiedliche Softwaresysteme zu erheblich unterschiedlichen Volumenangaben oder Klassifikationen kommen, brauchen wir Vergleichsstudien, um objektive Einsatzkriterien zu entwickeln“, erklärt Prof. Jens Vogel-Claussen von der Medizinischen Hochschule Hannover. 

Horst Hahn
„ Wir dürfen uns nicht allein auf regulatorische Siegel verlassen – unabhängige Prüfungen sind unverzichtbar.“ Prof. Dr. Horst Hahn, Institutsleiter des Fraunhofer-Instituts für Digitale Medizin MEVIS; Professor für Digitale Medizin an der Universität Bremen
Quelle: (C) MEVIS

Ein zentrales Problem liegt in der technischen Heterogenität der CT-Geräte und Protokolle. Variierende Dosiswerte, Rekonstruktionsmethoden oder Bildqualitäten können zu sogenannten Domain Shifts führen, die die Leistungsfähigkeit eines Algorithmus beeinflussen. Daher fordert das Positionspapier standardisierte Niedrigdosis- Protokolle, konsistente Scanbedingungen und die regelmäßige Überprüfung der Bildqualität. Auch die Volumetrie kleiner Läsionen ist fehleranfällig – etwa durch den Partialvolumeneffekt – und muss mit methodisch sauber ausgewählten Referenzsegmentierungen bewertet werden. 

Da die exakten Volumina klinischer Läsionen unbekannt sind, ist die Ergänzung durch Phantomdaten unverzichtbar. Zudem plädieren die Autorinnen und Autoren für die Einbeziehung retrospektiv gesicherter Fälle mit histopathologischer Bestätigung, um die Detektionsleistung an einem eindeutigen Goldstandard zu messen. Nur so lassen sich Sensitivität und Spezifität sowie positiver und negativer prädiktiver Wert belastbar bestimmen. Nicht alle Prüfverfahren werden zum Start der Lungenkrebsfrüherkennung zur Verfügung stehen und es handelt sich auch nicht um eine einmalige Prüfung der Systeme. Vielmehr ist es entscheidend, die Prüfverfahren kontinuierlich weiterzuentwicklen und die Ergebnisse der Algorithmen und der Kombination von Mensch und Algorithmus regelmäßig an aktuellen Daten zu überprüfen. 

Jens Vogel-Claussen
„ Wenn unterschiedliche Softwaresysteme zu verschiedenen Volumenangaben oder Klassifikationen kommen, brauchen wir Vergleichsstudien, um objektive Einsatzkriterien zu entwickeln.“ Prof. Jens Vogel-Claussen, Medizinische Hochschule Hannover
Quelle: (C) MEVIS

Kontinuierliche Prüfung und sichere Umsetzung 

Die Umsetzung einer solchen Qualitätsprüfung erfordert strenge Datenschutzmaßnahmen. Testdaten müssen vor unbefugtem Zugriff geschützt und von Trainingsdaten der Hersteller strikt getrennt werden. Eine Möglichkeit ist, die KI containerbasiert in einer kontrollierten Umgebung auszuführen, sodass nur standardisierte Leistungsergebnisse die Testumgebung verlassen. Die US-amerikanische FDA empfiehlt zusätzlich eine zufällige Auswahl der Testfälle, die Begrenzung der Wiederverwendung einzelner Datensätze und die Protokollierung jedes Datenzugriffs. 

Aufbau und Pflege eines solchen Prüfverfahrens sind aufwendig, könnten aber durch eine Mischfinanzierung aus öffentlichen Mitteln und Herstellerbeiträgen nachhaltig betrieben werden. Eine moderate Gebühr pro Testlauf würde zudem sicherstellen, dass nur ernsthaft interessierte Anbieter teilnehmen. 

Die Deutsche Röntgengesellschaft (DRG) will den Prozess aktiv begleiten und ihre Arbeitsgemeinschaften für Thoraxradiologie, IT sowie Physik & Technik einbinden. Ziel ist, nationale Lösungen zu entwickeln, die sich nahtlos in internationale Netzwerke einfügen. Das Konzept könne auch als Blaupause für andere Anwendungsfelder dienen, etwa Mammadiagnostik, Prostatakrebsfrüherkennung oder neuroradiologische Anwendungen. „Das, was wir hier für die Lungenkrebsfrüherkennung etablieren, kann auch als Modell für andere Bereiche dienen“, so Hahn.

Bianca Lassen-Schmidt
„ Qualitätssicherung schafft Vertrauen – bei Klinikerinnen und Klinikern ebenso wie bei Teilnehmenden an der Lungenkrebsfrüherkennung.“ Dr. Bianca Lassen-Schmidt, Fraunhofer-Institut für Digitale Medizin MEVIS
Quelle: (C) MEVIS

Am Ende verfolgt das Positionspapier ein klares Ziel: Sicherheit, Transparenz und Vertrauen. Klare Prüfprotokolle, ein geschützter Referenzdatensatz, kontinuierliche Leistungskontrollen und definierte Kennzahlen sollen Radiologinnen und Radiologen, Kliniken und Behörden ermöglichen, die Qualität eines Systems verlässlich zu beurteilen. Patientinnen und Patienten profitieren so von einer präzisen und sicheren Diagnostik – unabhängig davon, in welcher Einrichtung sie untersucht werden. „Klare Maßstäbe für den Einsatz von KI stärken das Vertrauen – nicht nur bei Radiologinnen und Radiologen, sondern gerade auch bei den Teilnehmenden an der Lungenkrebsfrüherkennung“, betont Dr. Bianca Lassen-Schmidt vom Fraunhofer-Institut für Digitale Medizin MEVIS. Mit einem solchen Qualitätsrahmen könnte Deutschland nicht nur ein effektives, sondern auch international richtungsweisendes Lungenkrebs-Screening etablieren. 

www.mevis.fraunhofer.de

¹ Anforderungen an die Qualitätssicherung von KI-Modellen für die Lungenkrebs-Früherkennung Horst K. Hahn · Matthias S. May · Volker Dicken · Michael Walz · Rainer Eßeling · Bianca Lassen- Schmidt · Robert Rischen · Jens Vogel-Claussen · Konstantin Nikolaou · Jörg Barkhausen Positionspapier, Preprint, arXiv.org, v0.9, 24.02

Anbieter

Fraunhofer Institute

Max-von-Laue-Straße 2
28359 Bremen
Deutschland

www.mevis.fraunhofer.de

Mehr zum Thema

Weitere Beiträge zum Thema
Beliebte Beiträge