data-mining big dataNicoElNino&kues1/Adobe Stock

Data-Mining – gesellschaftspolitische und rechtliche Herausforderungen

sprungmarken_marker_1825

Gegenstand und Ziel der Untersuchung

Im engeren Sinn bezeichnet Data-Mining die zunehmend automatisierte Analyse von Datenbeständen, um Informationen u.a. über Muster, Trends oder Korrelationen zu gewinnen. Gesellschaftliche Herausforderungen werden vor allem sichtbar, wenn man Data-Mining als Prozess betrachtet, zu dem auch die der Analyse vorgelagerte Aufgabendefinition, die Datenauswahl und -aufbereitung sowie die nachgelagerte Validierung und Nutzung der Ergebnisse gehören. Denn beim Data-Mining werden zum einen zunehmend große Datenbestände, die in unterschiedlichen Kontexten primär entstanden, zur Mustersuche auch in anderen Kontexten weiterverwendet. Damit verbinden sich Fragen zum Zugang zu existierenden Datenbeständen sowie zu Möglichkeiten und Grenzen der Weiterverwendung. Zum anderen besteht das besondere Potenzial strukturerkennender Datenanalysen darin, ausreichend valide Ergebnisse zu generalisieren und weiterzuverwenden. Je nach Aufgabenstellung lassen sich nicht nur Informationen gewinnen, sondern auch Entscheidungsregeln ableiten, mathematisch-statistische Modelle an Daten anpassen oder Algorithmen trainieren, um sie in neuen Situationen des gleichen Sachverhalts einzusetzen und Entscheidungen zumindest zu unterstützen. Solchen datengetriebenen Entscheidungs(unterstützungs)systemen werden Innovationspotenziale in nahezu allen Lebensbereichen zugeschrieben. Gleichzeitig werden Bedenken hinsichtlich intransparenter Vorgehensweisen und ungleicher Verwertungsmöglichkeiten geäußert. Befürchtungen reichen bis zum Ende der Privatheit oder zur Unkontrollierbarkeit algorithmischer Systeme.

Schwerpunkte der vom Ausschuss für Bildung, Forschung und Technikfolgenabschätzung in Auftrag gegebenen Data-Mining-Untersuchung sind

  • Möglichkeiten und Grenzen des Zugangs zu und der Nutzung von Datenbeständen, die vor allem im Rahmen öffentlicher Aufgaben erhoben und gespeichert werden,
  • Analysetechniken, die mit dem Data-Mining assoziiert werden sowie
  • rechtliche Grundlagen, die die Möglichkeiten und Grenzen der Datenanalytik teils allgemein, teils spezifisch für öffentliche Aufgabenbereiche definieren.

Medizinische und gesundheitssystemische Anwendungsbereiche werden vertieft betrachtet, da strukturerkennenden Datenanalysen in diesen Bereichen oft besondere Potenziale zugeschrieben werden.

Ziel der Untersuchung ist es, den Oberbegriff Data-Mining aus verschiedenen Perspektiven zu erschließen, in seiner Vielschichtigkeit darzustellen und anhand unterschiedlicher Anwendungsbeispiele aktuelle Möglichkeiten und Herausforderungen zu veranschaulichen. Damit soll das Verständnis von strukturerkennenden datenanalytischen Prozessen erhöht werden. Der die Studie abschließende TAB-Arbeitsbericht Nr. 203 bietet eine breite und umfassende Informationsbasis und ergänzt zahlreiche Stellungnahmen anderer Institutionen und Gremien aus den letzten Jahren zur Digitalisierung im Allgemeinen und zu Big Data und künstlicher Intelligenz im Besonderen.

Inhalte des Berichts

Data-Mining aus analytisch-technischer Sicht

Das einführende Technikkapitel 2 behandelt die für Data-Mining erforderlichen Datenbestände mit ihren Strukturen, Bezügen und zunehmend standardisierten Darstellungen (Stichworte Interoperabilität und Maschinenlesbarkeit), deren Speicherung und Bereitstellung, sowie die mit dem Begriff assoziierten strukturerkennenden Analyseverfahren und deren Resultate. Je nach Aufgabenstellung können sowohl Informationen über Ähnlichkeiten oder Unterschiede von Datenobjekten gewonnen und diesbezügliches Wissen erweitert werden als auch Regeln abgeleitet, mathematisch-statistische Modelle erstellt oder algorithmische Systeme trainiert werden, die z.B. zur Klassifikation neuer Objekte oder zu prognostischen Zwecken eingesetzt werden können, um Entscheidungen zumindest zu unterstützen. Aus technischer Sicht ist Data-Mining ein Prozess, der mit der Definition der datenanalytisch zu lösenden Aufgabe beginnt und regelmäßig aufwendige Datenaufbereitungen erfordert. Auch wenn vielfältige datenanalytische Verfahren mittels Algorithmen weitgehend automatisiert durchgeführt werden können, sind nach wie vor erhebliche Fachkenntnisse nötig, um Daten für die Analyse aufzubereiten, die Validität der Resultate abzuschätzen sowie die Prozesse insgesamt zu überwachen und zu prüfen.

Rechtliche und normative Aspekte

Kapitel 3 thematisiert Grundrechte von Personen und gesetzlich definierte Rechte an Dateninhalten und -beständen, deren Reichweite und Grenzen sowie Datenverarbeitungsmöglichkeiten und damit einhergehende Pflichten. Auf datenbereitstellende Aktivitäten öffentlicher Einrichtungen und datenanalytische Möglichkeiten für Aufgaben im öffentlichen Interesse sowie zu wissenschaftlichen Forschungszwecken wird spezifischer eingegangen. Anhand des öffentlichen Geoinformationswesens, das als Vorreiter der Datennormierung sowie der zunehmend offenen Bereitstellung für jegliche Weiterverwendung gilt, werden die langjährigen Aktivitäten zum Aufbau der nationalen Geodateninfrastruktur umrissen. Den Verbesserungen beim Zugang zu Geodaten stehen mitunter Unsicherheiten bei der Zulässigkeit und Risikobewertung einzelner Analysevorhaben gegenüber. Die bei der Weiterverwendung personenbezogener Daten bereits etablierten Datentreuhandstrukturen und vorab durchzuführende Folgenabschätzungen könnten bei Data-Mining-Aktivitäten allgemein an Bedeutung gewinnen. Auf die ersten Konzepte mit risikoadaptierten Regelungen wird verwiesen. Sie knüpfen an etablierte Verfahren des Medizinprodukterechts an.

Data-Mining in der Medizin und im Gesundheitssystem

Einen Schwerpunkt des Kapitels 4 bilden medizinische Daten, deren Genese, Vielfalt, Schutz und dezentrale, wenig standardisierte primäre Speicherung sowie deren komplex regulierte, begrenzte und aufwändige Zusammenführung in medizinischen Registern und Datenzentren, die sie als Datentreuhänder zu eng definierten Forschungszwecken nach Antragsprüfung mit Nutzen-Risiko-Abwägungen bereitstellen. Anhand von Beispielen wird gezeigt, dass strukturerkennende datenanalytische Verfahren in der Medizin seit langem eingesetzt werden. Resultierende algorithmische Systeme, die behandlungsrelevante Entscheidungen zumindest unterstützen, werden als Software vom Medizinprodukterecht erfasst. Das damit etablierte risikoadjustierte Qualitätsmanagementsystem sowie die im nationalen Gesundheitssystem zudem erforderlichen Nutzennachweise stellen hohe Anforderungen an die Produktentwicklung.

Das medizinische Leistungsvergütungssystem basiert auf Einzelfallabrechnungen mittels gesetzlich definierter, maschinenlesbarer Datensätze, die das Behandlungsgeschehen im nationalen Gesundheitssystem vollständig und hochgranular abbilden. Im Kapitel 5 werden unterschiedliche Institutionen des Gesundheitssystems mit ihren spezifischen Aufgaben, Datenbeständen und datenanalytischen Möglichkeiten vorgestellt. Seit Jahren wird darum gerungen, wie diese Leistungsabrechnungsdaten in Treuhandstrukturen zusammengeführt und zu wissenschaftlichen Zwecken intensiver genutzt werden können. Anhand von weiteren Anwendungsbeispielen werden Aufwand, Herausforderungen und Grenzen von gesundheitssystemischen Data-Mining-Ansätzen veranschaulicht.

Fazit und Handlungsoptionen

Gesellschaftliche Herausforderungen werden vor allem durch die Betrachtung von erweiterten Data-Mining-Prozessen sichtbar und betreffen die technischen und rechtlichen Datenweiterverwendungsmöglichkeiten und -grenzen sowie den Umgang mit den Ergebnissen aus strukturerkennenden datenanalytischen Verfahren. Aus dieser Perspektive hat der Data-Mining-Begriff erhebliche Schnittmengen zu den Schlagworten Big Data oder künstliche Intelligenz.

Zahlreiche Sachverständigenräte und Kommissionen auch des Deutschen Bundestags und der Bundesregierung beschäftigen sich mit dieser Thematik und empfehlen unisono Digitalisierungsaktivitäten zu forcieren, Infrastrukturen zur Weiterverwendung von Datenbeständen auszubauen, die Datennutzung stärker in den Blick zu nehmen, datenanalytisches Know-how zu stärken, die Entwicklung entsprechender Anwendungen zu fördern, risikoreiche stärker zu regulieren sowie eine größere nationale oder europäische digitale Souveränität anzuvisieren, auch um hohe Schutzstandards und die Grundrechtesicherung zu gewährleisten. Der TAB-Bericht untermauert diese Empfehlungen.

Durch die vertiefte und vergleichende Betrachtung einiger öffentlicher Anwendungsbereiche werden im Bericht spezifische Besonderheiten, Stärken und Schwerpunktsetzungen herausgearbeitet, durch die weitere anwendungsbezogene Handlungsoptionen abgeleitet werden können:

  • Der öffentliche Geodatenbereich ist beispielgebend für die Datenbereitstellung, die Datennutzung sollte stärker in den Blick genommen werden

Der Geodatenbereich gilt als Vorreiter bei der Entwicklung und Verwendung von Datenstandards sowie beim Auf- und Ausbau der nationalen Geodateninfrastruktur. Von diesen Erfahrungen könnten andere Bereiche profitieren. Denn das datenanalytische Potenzial von Geodaten steigt, je mehr Daten aus anderen Bereichen standardisiert und georeferenziert bereitgestellt werden. Bei der Risikobewertung von hochauflösenden räumlichen Datenanalysen gibt es eine gewisse Rechtsunsicherheit. Zukünftig sollte der Fokus verstärkt auf die Nutzung insbesondere hochaufgelöster Geodaten gelegt werden.

  • In medizinischen Bereichen gehören Nutzen-Risiken-Abwägungen zu vielen Data-Mining-Prozessen; Interoperabilität von und Zugang zu medizinischen Daten gilt es jedoch voranzubringen

Medizinische Daten gelten als wenig standardisiert. Sie werden dezentral gespeichert, unterliegen höchsten Schutzstandards und können aufgrund der geringen Interoperabilität primärer Speichersysteme nur sehr begrenzt weiterverwendet werden. Der Zugang zu diesen Datenbeständen für gesundheitsrelevante Fragestellungen sollte dringend vorangebracht werden. Dazu müssen Standards entwickelt und eingesetzt, die Interoperabilität primärer Datenverwaltungssysteme verbessert, entsprechende Dateninfrastrukturen ausgebaut und Zugangsverfahren überarbeitet werden.

In der Medizin und im Gesundheitssystem werden seit Jahren Erfahrungen mit Datentreuhandverfahren, Risikobewertungen und Qualitätssicherungen auch für risikoreiche algorithmische Systeme gesammelt, von denen ggf. auch andere Bereiche profitieren könnten. Die Zertifizierung entsprechender Algorithmen und deren Integration in die medizinische Versorgung ist jedoch aufwendig und langwierig. Zulassungsverfahren sollten effizienter gestaltet werden.

  • Die Reichweite des Forschungsprivilegs für Data-Mining sollte diskutiert werden

Datenanalysen einschließlich Data-Mining zu Forschungszwecken werden auf unterschiedliche Art und Weise rechtlich privilegiert. Die in unterschiedlichen Gesetzen verankerten diesbezüglichen Formulierungen lassen unterschiedliche Auslegungen zu. Eine gesellschaftliche Debatte zur Reichweite des Forschungsbegriffs bei der Weiterverwendung existierender Datenbestände sollte geführt werden.

Publikationen


Im Bundestag

Weitere Publikationen zum Thema


Beyond Big Data
Ehrenberg-Silies, S.
2019. Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB). doi:10.5445/IR/1000133938VolltextVolltext der Publikation als PDF-Dokument
Big Data in der Cloud
Leimbach, T.; Bachlechner, D.
2014. Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag (TAB). doi:10.5445/IR/1000133369VolltextVolltext der Publikation als PDF-Dokument