Im Jahr 2013 schockierte ein junger Computerbiologe namens Yaniv Erlich die Forschungswelt, indem er zeigte, dass es möglich ist, die Identitäten von Personen, die in anonymen genetischen Datenbanken aufgeführt sind, zu entlarven, indem er lediglich eine Internetverbindung nutzt. Die politischen Entscheidungsträger reagierten daraufhin mit einer Beschränkung des Zugangs zu anonymisierten biomedizinischen Gendatenpools. Ein NIH-Beamter sagte damals: „Die Wahrscheinlichkeit, dass dies bei den meisten Menschen passiert, ist gering, aber sie ist nicht gleich Null.“
Fünf Jahre später ist die Menge an DNA-Informationen, die in digitalen Datenspeichern gespeichert sind, explodiert und es gibt keine Anzeichen für eine Verlangsamung. Verbraucherunternehmen wie 23andMe und Ancestry haben nach jüngsten Schätzungen der Branche bisher genetische Profile für mehr als 12 Millionen Menschen erstellt. Kunden, die ihre eigenen Informationen herunterladen, können diese dann zu öffentlichen Genealogie-Websites wie GEDmatch hinzufügen, die Anfang dieses Jahres landesweit bekannt wurde, weil sie die Polizei zu einem Verdächtigen im Fall des Golden State Killers führte.
Diese ineinander greifenden Stammbäume, die Menschen durch DNA-Stücke miteinander verbinden, sind inzwischen so groß, dass sie dazu verwendet werden können, mehr als die Hälfte der US-Bevölkerung zu finden. Nach neuen Forschungsergebnissen unter der Leitung von Erlich, die heute in der Fachzeitschrift Science veröffentlicht wurden, können mehr als 60 Prozent der Amerikaner mit europäischer Abstammung anhand ihrer DNA über offene genetische Genealogie-Datenbanken identifiziert werden, unabhängig davon, ob sie jemals ein Spucke-Kit eingesandt haben.
„Das Entscheidende ist, dass es keine Rolle spielt, ob Sie getestet wurden oder nicht“, sagt Erlich, der jetzt Chief Science Officer bei MyHeritage ist, dem drittgrößten Anbieter von Genanalysen für Verbraucher hinter 23andMe und Ancestry. „
Um diese Schätzungen zu erstellen, analysierten Erlich und seine Mitarbeiter an der Columbia University und der Hebrew University of Jerusalem den MyHeritage-Datensatz von 1,28 Millionen anonymen Personen, der wie die meisten genetischen Datenbanken der Welt überwiegend weiß ist. Sie betrachteten jede dieser Personen als menschliches „Ziel“ und zählten die Anzahl der Verwandten mit großen Mengen übereinstimmender DNA und fanden heraus, dass 60 Prozent der Suchvorgänge einen Cousin dritten Grades oder näher ergaben. Dieses Maß an Verwandtschaft war alles, was die Ermittler brauchten, um dem Golden State Killer und den 17 anderen Fällen auf die Spur zu kommen, die bisher mit diesem Ansatz gelöst wurden – bei den Strafverfolgungsbehörden bekannt als familiäre Weitbereichssuche. Um ihre Ergebnisse zu bestätigen, gab Erlichs Team 30 genetische Profile in GEDmatch ein und kam zu ähnlichen Ergebnissen: 76 Prozent der Suchvorgänge ergaben Verwandte im Bereich der Cousine dritten Grades oder näher.
Diese Analyse liefert eine Liste von etwa 850 Personen, je nachdem, wie produktiv die Vorfahren einer Person waren. Anhand grundlegender demografischer Informationen lässt sich die Liste jedoch recht schnell eingrenzen. Öffentliche Aufzeichnungen, die den Wohnort einer Person im Umkreis von 100 Meilen angeben, halbieren den Kandidatenpool. Kennt man das Alter bis auf fünf Jahre genau, scheiden 9 von 10 der verbleibenden Kandidaten aus. Das Geschlecht, das sich aus der Genetik ableiten lässt, reduziert die Liste auf etwa 16 Personen. Wenn man das genaue Geburtsjahr kennt, kann man sich auf ein oder zwei Personen beschränken.
Um zu demonstrieren, wie einfach es ist, wählten die Forscher eine anonyme weibliche Person aus dem 1000 Genomes Project – einem frei zugänglichen Sequenzierungsprojekt – aus, die mit dem Mann verheiratet war, den Erlich zuvor in seiner bahnbrechenden Arbeit von 2013 identifiziert hatte. Sie formatierten ihre DNA-Daten so um, dass sie einem typischen genetischen Verbraucherprofil ähnelten, und luden sie auf GEDmatch hoch. Zwei Verwandte tauchten auf, einer in North Dakota und einer in Wyoming. Die Übereinstimmung deutete darauf hin, dass sie vier bis sechs Generationen zurück verwandt waren. Eine Stunde später hatte das Team den Mann und die Frau gefunden. Von dort aus verfolgten die Forscher die Stammbäume von Hunderten von Nachkommen, um die Identität ihrer Zielperson herauszufinden. Alles in allem dauerte der Aufwand einen einzigen Tag.
Erlich zufolge wird es nicht mehr lange dauern, bis diese Art von Suche bei jedem möglich ist, der ein bisschen DNA herumliegen lässt. Die Studie ergab, dass, sobald eine genetische Datenbank etwa zwei Prozent der Erwachsenen in einer bestimmten ethnischen Population abdeckt, eine Übereinstimmung mit einem Cousin dritten Grades oder näher für fast jede Person von Interesse zu erwarten ist. Bei Amerikanern europäischer Abstammung, die in genetischen und genealogischen Datenbanken besser vertreten sind, könnte diese Schwelle in den nächsten Jahren erreicht werden, wenn DNA-Tests in der Freizeit weiterhin in dem derzeitigen Tempo durchgeführt werden. Zwei Prozent sind nur etwa vier Millionen Menschen, basierend auf den jüngsten US-Volkszählungsdaten.
Eine solche Ressource würde die Anzahl und die Art der Menschen, auf die die Strafverfolgungsbehörden bei der Verfolgung einer Spur zugreifen können, erheblich erweitern. Straftäterdatenbanken, in denen die Polizei die DNA von fast 17 Millionen Menschen – verurteilte Straftäter und in einigen Bundesstaaten auch Festgenommene – speichert, sind stark auf afroamerikanische und hispanische Bevölkerungsgruppen ausgerichtet. Seit den Anfängen der DNA-Tests hat die technologische Inkompatibilität zwischen den Methoden eine praktische Trennwand zwischen Straftäterdatenbanken und genetischen Datenbanken für Freizeit- oder Forschungszwecke geschaffen. Die Strafverfolgungsbehörden sammeln und analysieren nur die hochvariablen, nicht codierenden Teile des Genoms und zählen die Anzahl der Wiederholungen dieser „Junk“-Sequenzen. Dabei handelt es sich im Grunde nur um eine Reihe von Zahlen, die für sich genommen nichts Persönliches erkennen lassen. Aber sie ist für eine Person sehr eindeutig, wie ein Strichcode oder ein Fingerabdruck. Und sie ist billig und schnell. Perfekt für Strafverfolgungszwecke.
Im Gegensatz dazu werden bei den meisten DNA-Tests in der Medizin und im Freizeitbereich entweder vollständige Sequenzierungen oder Genotyp-Arrays durchgeführt – eine Sammlung von Veränderungen, die jeweils an einer einzigen Stelle in einem Gen auftreten. Diese SNPs sind der Grund dafür, dass Sie grüne Augen oder lockiges Haar haben, oder für eine Veranlagung zu Herzkrankheiten. Sie sind auch viel nützlicher für die Suche nach Familienmitgliedern. Da diese beiden Arten von Datenbanken nicht miteinander kommunizieren konnten, mussten die Ermittler im Fall des Golden State Killers DNA aus einer alten Tatortprobe extrahieren, ein SNP-Profil erstellen und es auf GEDmatch hochladen. Aber jetzt müssen sie nicht einmal das tun.
Eine zweite Arbeit, die heute in Cell veröffentlicht wurde, zeigt zum ersten Mal, dass es möglich ist, weitreichende familiäre Suchen mit Daten aus Straftäterdatenbanken durchzuführen. Die Gruppe von Noah Rosenberg von der Stanford University hatte zuvor gezeigt, dass man Datensätze zwischen den beiden Arten von Datenbanken verknüpfen kann, indem man nahe gelegene SNPs den nicht kodierenden Wiederholungen zuordnet. Die im letzten Jahr veröffentlichten Forschungsergebnisse fanden keine große Beachtung. „Grillen“, sagt Rosenberg. Aber diese jüngste Arbeit, die die Kompatibilität der beiden Datenbanken bei der Suche nach Verwandten untersucht, hat eine neue, tiefgreifende Bedeutung im Gefolge des Golden State Killers.
„Dies könnte eine Möglichkeit sein, die Reichweite der forensischen Genetik zu erweitern, um möglicherweise noch mehr ungeklärte Fälle zu lösen“, sagt Rosenberg. „
Nach Ansicht von Rechtsexperten liegt das größere Problem jedoch darin, dass Rosenbergs Arbeit zeigt, dass in einem forensischen DNA-Profil viel mehr Informationen enthalten sind als bisher angenommen. Das liegt daran, dass man damit die kodierenden Bereiche des Genoms genau vorhersagen kann – die Teile mit den grünen Augen, den lockigen Haaren und dem Herzfehler. „Alle Entscheidungen des Obersten Gerichtshofs darüber, warum bestehende Straftäterdatenbanken nicht gegen den Vierten Verfassungszusatz verstoßen, basieren auf der Annahme, dass aus dieser Junk-DNA nichts Persönliches entnommen werden kann“, sagt Andrea Roth, Direktorin des Zentrums für Recht und Technologie der UC Berkeley. „
Rosenberg hat mit seiner Arbeit keine Software veröffentlicht, so dass es noch einiger Arbeit bedarf, um die Berechnungen zum Laufen zu bringen. Aber er sagt, dass jeder, der Zugang zu mehreren Datenbanken hat, alle Informationen hat, die er braucht, um die Technik zu nutzen. Das bedeutet, dass die eingebauten Datenschutzvorkehrungen recht schnell in sich zusammenfallen könnten. Rosenberg hofft, dass es die dringend notwendigen Gespräche darüber anregt, wie genetische Informationen in Zukunft gespeichert und verwendet werden.
Erlich und seine Mitautoren gingen sogar noch weiter und gaben Empfehlungen darüber ab, welche Änderungen notwendig sind, um sicherzustellen, dass Ressourcen wie GEDmatch, die einen wichtigen Dienst für Menschen auf der Suche nach lange verschollenen Verwandten und für Adoptierte auf der Suche nach ihren biologischen Familien leisten, in einer sicheren Kapazität online bleiben. Sie forderten das US-Ministerium für Humanressourcen auf, den Geltungsbereich von persönlich identifizierbaren Gesundheitsinformationen zu überarbeiten, um anonymisierte genomische Daten einzubeziehen. Und sie skizzierten eine Verschlüsselungsstrategie, die eine Überwachungskette schaffen würde, so dass Datenbanken von Drittanbietern Nutzer kennzeichnen könnten, die versuchen, genetische Daten zu analysieren, die nicht ihre eigenen sind. Aber selbst wenn sich alle Anbieter von Genomikdaten für Verbraucher diesem System anschließen würden, wäre das vielleicht noch nicht genug.
„Ich denke, das Fazit ist, dass jetzt jeder auf die eine oder andere Weise genetisch überwacht wird, es sei denn, wir regeln die Möglichkeiten der Regierung zur Durchführung von Genealogie-Suchen“, sagt Roth. Sie schlägt ein System vor, das dem ähnelt, das Kalifornien derzeit für die herkömmlichen familiären Recherchen in seinen Straftäterdatenbanken vorsieht. Sie dürfen nur zur Untersuchung von Gewaltverbrechen – Mord oder sexuelle Übergriffe – eingesetzt werden, und der Umfang der Suche ist begrenzt, um zu verhindern, dass Hunderte von unschuldigen Menschen in die Ermittlungen verwickelt werden. Und es gibt einen Überwachungsausschuss, der eingreifen kann, um die versehentliche Offenlegung sensibler Informationen zu verhindern, z. B. dass der Vater von jemandem nicht wirklich sein Vater ist. „Das ist das Ironische an der Sache“, sagt Roth. „Wenn man mit jemandem in CODIS verwandt ist, hat man viel mehr Rechte auf genetische Privatsphäre als wenn man mit jemandem in GEDMatch verwandt ist.“ Wenn man genug DNA hat, spielt es keine Rolle mehr, ob man gefunden werden will oder nicht. Ein Ausstieg ist nicht mehr möglich.
More Great WIRED Stories
- So viele Gentests, so wenige Leute, die es Ihnen erklären können
- Wenn die Technik Sie besser kennt als Sie sich selbst
- Diese magischen Sonnenbrillen blockieren alle Bildschirme um Sie herum
- Alles, was Sie über Online-Verschwörungstheorien wissen müssen
- Inside the Black Mirror world of polygraph job screenings
- Suchen Sie nach mehr? Melden Sie sich für unseren täglichen Newsletter an und verpassen Sie nie wieder unsere neuesten und besten Geschichten