gms | German Medical Science

GMDS 2012: 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS)

Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie

16. - 20.09.2012, Braunschweig

Webservice zur sicheren Pseudonymisierung durch Datentreuhänder

Meeting Abstract

  • Hauke Hund - Studiengang Medizinische Informatik, Hochschule Heilbronn, Deutschland
  • Hendrik Graupner - Studiengang Medizinische Informatik, Hochschule Heilbronn, Deutschland
  • Sven Gerth - Abteilung Innere Medizin III, Kardiologie, Angiologie und Pneumologie, Universitätsklinikum Heidelberg, Deutschland
  • Dirk Loßnitzer - Abteilung Innere Medizin III, Kardiologie, Angiologie und Pneumologie, Universitätsklinikum Heidelberg, Deutschland
  • Christian Fegeler - Studiengang Medizinische Informatik, Hochschule Heilbronn, Deutschland

GMDS 2012. 57. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS). Braunschweig, 16.-20.09.2012. Düsseldorf: German Medical Science GMS Publishing House; 2012. Doc12gmds121

doi: 10.3205/12gmds121, urn:nbn:de:0183-12gmds1217

Published: September 13, 2012

© 2012 Hund et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en). You are free: to Share – to copy, distribute and transmit the work, provided the original author and source are credited.


Outline

Text

Einleitung: Sollen klinische Routinedaten für medizinische Forschung wiederverwendet werden, geht dies über den ursprünglichen Verwendungszweck hinaus. Daraus ergibt sich ein Datenschutzkonflikt, der durch Anonymisierung gelöst werden kann [1]. Das Bundesdatenschutzgesetz definiert Daten als anonym, wenn diese nur mit „einem unverhältnismäßig großen Aufwand […] zugeordnet werden können.“ [2] Diesen Anforderungen wird ein pseudonymisierender Datentreuhänder gerecht, wenn „[…] die forschende […] Stelle nicht in der Lage [ist], die Pseudonyme selbst zu berechnen.“ [3]

Im Rahmen dieser Arbeit wurde ein Pseudonymisierungsdienst als Webservice konzipiert und implementiert sowie dessen Leistungsfähigkeit getestet. Dieser Dienst sollte zur Massenverarbeitung von IDs im Rahmen eines Datawarehouse-Importprozesses geeignet sein. Auf die Übertragung von medizinischen Daten an den Treuhänder sollte auf Grund von Datenschutz- und Performance-Anforderungen, im Gegensatz zum TMF-Konzept, verzichtet werden [4].

Material und Methoden: Am Prozess der sicheren Pseudonymisierung sind neben dem Datentreuhänder Quell- und Abfragesysteme beteiligt. Während von den Quellsystemen identifizierende Daten zum Treuhänder gesendet werden, rufen die Abfragesysteme pseudonymisierte Daten vom Treuhänder ab. Der Datentreuhänder stellt dabei als externer Dritter sicher, dass der Behandlungskontext der Quellsysteme klar vom Forschungskontext getrennt bleibt. Medizinische Daten werden von den Quellsystemen direkt an die Abfragesysteme gesendet. Die Synchronisation der beteiligen Systeme erfolgt unter Zuhilfenahme von Transaktionsnummern. IDs und Pseudonyme werden als sortierte Listen übertragen, die Sortierung bleibt nach Verarbeitung durch den Treuhänder erhalten. Die Semantik der übertragenen Daten spielt dabei für den Pseudonymisierungsdienst keine Rolle. Kern der sicheren Pseudonymisierung bildet das symmetrische Verschlüsselungsverfahren AES [5]. Ausschlaggebend für die Performance sind die Ausführungszeiten von Anfragen und deren Hauptspeicherverbrauch. Diese Maßzahlen sind hier abhängig von der Leistungsfähigkeit und Anzahl der Prozessorkerne, der Anzahl der IDs sowie deren Aufteilung auf Anfragen.

Ergebnisse: Der Datentreuhänder wurde als RESTful-Webservice [6], [7] im Rahmen des RWH-Projektes [8] implementiert. Dabei werden die HTTP-Methoden POST, zum Senden von Anfragen, und GET, zum Abrufen der Ergebnisse, benutzt. Für den Lasttest wurde ein Datensatz mit 25.000 Blutwerten verwendet. Dieser enthielt pro Patient zwei identifizierende Merkmale. Diese 50.000 IDs wurden in einer Testumgebung mit zwei Prozessoren (2,67 GHz) sicher pseudonymisiert. Die Bearbeitung einer Anfrage von 50.000 IDs dauerte durchschnittlich 900 ms. Die Vorhaltung der Pseudonyme belegte 2 MB Hauptspeicher. Die Anfrage eines einzelnen Datensatzes mit zwei IDs konnte innerhalb von durchschnittlich 340 ms bearbeitet werden.

Diskussion: Die Lasttests haben gezeigt, dass eine performante Implementierung eines Pseudonymisierungsdienstes möglich ist. Dies ist für den Datawarehouse-Importprozess des RWH-Projektes wichtig, da hier mehrere Millionen IDs pseudonymisiert werden müssen. Die sukzessive Bearbeitung von einzelnen Datensätzen erwies sich dabei als wesentlich ineffizienter gegenüber einer listenweisen Bearbeitung. Mehrere Prozessoren lassen sich unter Verwendung des ForkJoinFrameworks [9] für die listenweise Bearbeitung nutzen. Mit steigender Prozessoranzahl verbessert sich somit die Performance. Durch Minimierung des Arbeitsspeicherbedarfes wird eine temporäre, nicht persistente Speicherung der Pseudonyme ermöglicht. Für die Integration des beschriebenen Treuhänders in eine Datawarehouse-Anwendung werden quellsystemübergreifende IDs vorausgesetzt. Auf Grund der aktuellen Gesetzesgrundlage bleibt jedoch unklar, ob das Konzept auch den Datenschutzforderungen anderer Projekte gerecht wird.

Ausblick: Neben der realisierten sicheren Pseudonymisierung, wird in Zukunft die datenschutzkonforme Reidentifizierung von Patienten implementiert [10]. Daraus ergeben sich weitere Anwendungsfelder: Durchführung von prospektiven Studien, Identifizierung von Kollektiven zur Rekrutierung sowie die Erzeugung von patientenzentrierten Hinweisen.


Literatur

1.
Metschke R, Wellbrock R. Datenschutz in Wissenschaft und Forschung. Berliner Beauftragter für Datenschutz und Informationsfreiheit. 2002. p. 19.
2.
Bundesdatenschutzgesetz (BDSG) §3 Abs. 6 (letzte Änderung: 14.08.2009)
3.
Metschke R, Wellbrock R. Datenschutz in Wissenschaft und Forschung. Berliner Beauftragter für Datenschutz und Informationsfreiheit. 2002. p. 24.
4.
Drepper J, Semmler SC. Datenschutz und medizinische Forschung sind vereinbar: Konzepte, Tools und Services der TMF, Produktblatt zum Pseudonymisierungsdienst. 2006. Available from: http://www.tmf-ev.de/DesktopModules/Bring2mind/DMX/Download.aspx?EntryId=2341&PortalId=0 [cited 18.06.2012] External link
5.
Daemen J, Rijmen V. The Design of Rijndael: AES – The Advanced Encryption Standard. Springer; 2002.
6.
Richardson L, Ruby S. Web Services mit REST. O'Reilly; 2007.
7.
Potociar M, Algermissen J, De Hora B, Grabovac N, Harby J, He H, et al. JAX-RS: The Java API for RESTful Web Services, Java Community Process (JCP). 2009. Available from: http://jcp.org/aboutJava/communityprocess/mrel/jsr311 [cited 18.06.2012] External link
8.
Hund H, Gerth S, Loßnitzer D, Fegeler C. Erschließung von klinischen Routinedaten für die medizinische Forschung. In: 56. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie (gmds), 6. Jahrestagung der Deutschen Gesellschaft für Epidemiologie (DGEpi); 2011 Sep 26-29; Mainz, Deutschland. Doc11. DOI: 10.3205/11gmds466 External link
9.
Lea D, Bowbeer J, Goetz B, Holmes D, Peierls T. JSR-166 Concurrency Utilities, Java Community Process (JCP). 2004. Available from: http://jcp.org/aboutJava/communityprocess/final/jsr166 [cited 18.06.2012] External link
10.
Graupner H. Sichere Entpseudonymisierung von klinischen Routinedaten in einem Datawarehousekonzept, Bachelorarbeit. Heilbronn: Hochschule Heilbronn; 2011.