Politik

Wie schnell es mit der Anonymität vorbei ist

Nur wenige zusätzliche Informationen reichen, um Rückschlüsse auf Personen zu ziehen

Wie sehr würden sich meine Kinder freuen, wenn die Anonymisierung von Daten soweit fortgeschritten wäre, dass ich nicht anhand der Kreditkartenrechnung feststellen könnte, wer ohne Erlaubnis bestellt hat. Der Nachweis einer im Skateboardladen gekauften Ware lässt genau wie die Abrechnung von im Internet bestellten Filmen unerwartete Rückschlüsse auf den Käufer zu. Sie werden sagen, dass diese Analyse an der kleinen Menge von anonymisierten Käufen und an dem mir bekannten Kaufverhalten der Kinder liegt.

Wie sieht es mit der Anonymisierung größerer Datenmengen aus? Aus dem Kaufverhalten lässt sich einiges schließen, das ist ja die Geschäftsidee von Suchmaschinen wie Google und anderen, die einem, basierend auf früheren Einkäufen, vorschlagen, was man vielleicht als nächstes kaufen möchte. Ohne Zweifel sind für jeden zugängliche, offene Daten, die menschliches Verhalten widerspiegeln, interessant für Wissenschaftler und Unternehmen. Aber sie bergen auch die Gefahr der Reidentifikation – wie es genannt wird –, wenn nicht genügend stark anonymisiert wird.

Schauen wir uns einmal an, wie an einer Universität typischerweise Klausurergebnisse bekannt gegeben werden. Bei großen Lehrveranstaltungen ist es praktisch, die Noten nach der Korrektur auf einer Webseite darzustellen, sodass die Klausurteilnehmer diese online einsehen können. Um das Ergebnis anonym darzustellen, verwendet man nicht die Namen der Teilnehmer, sondern oft deren Matrikelnummer. Das ist eine Zahl, die eindeutig jedem einzelnen Studierenden zugeordnet ist. Da die Studenten ihre Matrikelnummer gegenseitig nicht kennen, scheint die Anonymität der Ergebnisse gewährleistet.

Dies muss jedoch nicht so sein, wenn man zusätzliche Informationen über seine Kommilitonen hat. Weiß man zum Beispiel von einer Freundin, dass sie eine bestimmte Klausur mit 1.0 abgeschlossen hat, und es gibt nur eine Arbeit, die so gut bewertet wurde, kennt man aus der veröffentlichten Liste offensichtlich ihre Matrikelnummer. Für das verbleibende Studium kann man alle ihre anderen Klausurergebnisse im Internet einsehen.

Doch auch für nicht so exzellente Studierende ist die Situation nicht viel besser. Nehmen wir als Beispiel 300 Studierende, die an mehreren Klausuren teilgenommen haben. Wie leicht ist es, die Matrikelnummer herauszufinden, wenn wir die Noten eines Mitstudierenden aus drei bestimmten Klausuren kennen? Für drei typische Notenverteilungen hat man damit eine etwa 80-prozentige Wahrscheinlichkeit die Matrikelnummern zu identifizieren. Würde man vier Noten kennen, steigt die Wahrscheinlichkeit auf 98 Prozent. Die Reidentifikation beruht darauf, dass bestimmte Notenkombinationen, also eine 2,3 in der ersten Klausur, eine 3,3 in der zweiten, eine 2,7 in der dritten usw. eben nicht so häufig vorkommen. Je mehr Noten man kennt, desto schneller geht die vermeintliche Anonymität einer Person durch fehlende Datenzwillinge verloren.

Läuft die Notengebung über Punkte (0 bis 100) statt Noten, ist die Anonymität noch viel schwächer: Bereits mit zwei bekannten Punkteergebnissen kann man mit 88-prozentiger Wahrscheinlichkeit die Matrikelnummer eines Kommilitonen herausfinden, kennen wir drei Ergebnisse, mit 99,7 Prozent.

Offensichtlich hängt der Schutz vor Reidentifikation von der Breite der einzelnen Note ab. Je breiter der Bereich einer Note, desto mehr Datenzwillinge gibt es und desto schwieriger ist die Reidentifikation. Von daher ist es besser, wenn Universitäten Noten anstelle von Punkten vergeben. In einer analogen dreimonatigen Studie des Einkaufsverhaltens von 1,1 Millionen US-Bürgern, die in dem Fachmagazin „Science“ veröffentlicht wurde, konnten deren Autoren zeigen, dass lediglich vier Zusatzinformationen ausreichten, um Käufer mit 90-prozentiger Wahrscheinlichkeit zu reidentifizieren. Für den sicheren Umgang mit offenen Daten ist eine starke Anonymisierung also ein unbedingtes Muss.