Die Richter verlassen sich jetzt auf geheime KI-Algorithmen, um die Verurteilung von Angeklagten zu steuern

Jed Rakoff ist Bundesbezirksrichter für den Südbezirk von New York. Rakoff, ein ehemaliger Bundesanwalt, der 1996 auf die Bank berufen wurde, hat einige der bedeutendsten Fälle von Wirtschaftskriminalität in diesem Land geleitet. Er ist allgemein als eine der führenden Behörden für Wertpapier- und Strafrecht anerkannt und schreibt regelmäßig Beiträge zu neuartigen und aufkommenden Fragen der Strafjustiz.

Sein jüngster Aufsatz befasst sich mit der zunehmenden Verbreitung von Computerprogrammen oder -algorithmen auf der Basis künstlicher Intelligenz (KI) durch Strafverfolgungsbehörden, um Verurteilungsempfehlungen für verurteilte Angeklagte zu unterstützen. Diese Programme, die eine Vielzahl kontroverser soziologischer Theorien und Methoden verwenden, werden in erster Linie zur Beurteilung von Rückfällen (der Neigung eines Angeklagten zur Begehung künftiger Verbrechen) verwendet und von Richtern bei der Bestimmung der Länge der zu verhängenden Strafe häufig mit hohem Gewicht bewertet. Sie berücksichtigen auch Entscheidungen zur Festlegung von Grenzwerten für Kaution oder Kaution. Die Berücksichtigung eines möglichen Rückfalls basiert auf der Theorie der „Handlungsunfähigkeit“: Die Idee, dass strafrechtliche Verurteilungen dem doppelten Zweck der Bestrafung dienen und einen Angeklagten daran hindern sollten, künftige Verbrechen zu begehen, um die Gesellschaft zu schützen.

Rakoff findet die Verwendung dieser Vorhersagealgorithmen aus einer Reihe von Gründen problematisch, nicht zuletzt aufgrund ihrer nachgewiesenen Fehlerraten und ihrer Neigung zu inhärenten rassistischen Vorurteilen. Er stellt fest, dass die Theorien, anhand derer sie angeblich die Neigung einer Person analysieren, zukünftige Verbrechen zu begehen, oft ungetestet, unzuverlässig und ansonsten fragwürdig sind. Sein jüngster Aufsatz für das NYRB mit dem Titel „Vom Algorithmus verurteilt“ und der Überprüfung der Frage der ehemaligen Bezirksrichterin Kathleen Forrest, Wann Maschinen Richter, Jury und Henker sein können, wirft jedoch noch beunruhigendere Fragen auf, die durch die Einführung der Technologie der künstlichen Intelligenz in unsere aufgeworfen wurden Strafjustizsystem.

Ist es fair für einen Richter, die Gefängniszeit eines Angeklagten auf der Grundlage eines algorithmischen Scores zu verlängern, der die Wahrscheinlichkeit vorhersagt, dass er künftige Verbrechen begehen wird? Viele Staaten sagen jetzt ja, selbst wenn die Algorithmen, die sie für diesen Zweck verwenden, eine hohe Fehlerrate, ein geheimes Design und eine nachweisbare rassistische Tendenz aufweisen.

Eines der Hauptanliegen bei der Verwendung dieser Programme ist ihre grundsätzliche Fairness gegenüber kriminellen Angeklagten. Wenn ein Staatsanwalt in der Vergangenheit zum Zwecke der Verurteilung betonen wollte, dass ein verurteilter Angeklagter künftige Verbrechen begehen könnte, stützte er sich in erster Linie auf das frühere Strafregister des Angeklagten, seine Reue (oder das Fehlen davon) für das Verbrechen begangen, sein Verhalten, das Zeugnis verschiedener Zeugen über seinen Charakter und möglicherweise vor allem sein Rehabilitationspotential unter einem weniger strengen Strafregime. Offensichtlich würde ein öffentlicher Verteidiger diese Überlegungen auch zur Unterstützung der Gnade für seinen Klienten von größter Bedeutung machen.

Die Einführung einer quasi-wissenschaftlichen Grundlage, auf der die Neigung eines Angeklagten zur Begehung künftiger Verbrechen ermittelt werden kann – Verbrechen, die, wenn überhaupt, noch nicht begangen wurden -, kann das menschliche Element untergraben, das ein Richter normalerweise für solche Feststellungen verwendet. Die Tatsache, dass solche computergesteuerten Bewertungen einen Eindruck von Unfehlbarkeit und Sicherheit mit sich bringen, ist zweifellos Teil ihrer Attraktivität für Richter, die von überfüllten Akten und hohen Zeitbeschränkungen betroffen sind. Die Richter sind auch nicht immun gegen die Tatsache, dass solche Instrumente wirksame oder fragwürdige Entscheidungen in Bezug auf die Verurteilung von Kriminellen wirksam abdecken können. Für Richter, die den politischen Zwängen der Wiederwahl unterliegen, kann dieser Faktor allein ihr Vertrauen in sie übermäßig beeinflussen.

Dies sind ernsthafte Bedenken. Laut Rakoff besteht das größte Problem bei diesen Algorithmen jedoch darin, dass sie nicht wirklich funktionieren.

Studien deuten auf eine Fehlerquote zwischen 30 und 40 Prozent hin, meist in Form falscher Vorhersagen, dass Angeklagte in Zukunft mehr Verbrechen begehen werden. Mit anderen Worten, von zehn Angeklagten, die diese Algorithmen vorhersagen, werden drei bis vier nicht rezidivieren. Natürlich weiß niemand, ob Richter, die solche Programme nicht verwenden, Rückfälle besser vorhersagen können (obwohl eine unten erwähnte Studie feststellt, dass selbst eine zufällige Stichprobe von Laien so gut ist wie der am häufigsten verwendete Algorithmus). Die Verwendung solcher Programme liefert jedoch eine wissenschaftliche Fassade für diese Einschätzungen, die die große Fehlerrate in Abrede stellt.

Wie Rakoff bemerkt, heißt der häufigste dieser KI-Computeralgorithmen, die zur Erkennung potenzieller Rückfälle eingesetzt werden, COMPAS, hergestellt von einer privaten Firma namens Northpointe, die als Equivant tätig ist. Das COMPAS-Produkt wird derzeit in mehreren Bundesstaaten eingesetzt, darunter in New York, Kalifornien und Florida. In Wisconsin wurden die rechtlichen Vorzüge von COMPAS in dem von Rakoff als „vielleicht der führende Fall“ bezeichneten Fall, in dem ihre Verwendung bei Strafverfolgungsmaßnahmen bewertet wurde, Loomis gegen State of Wisconsin, angesprochen.

In diesem Fall lehnte ein einstimmiger Oberster Gerichtshof von Wisconsin eine Berufung von Herrn Loomis ab, einem Angeklagten, der wegen zweier gewaltfreier Straftaten ein Rechtsmittel eingelegt hatte, jedoch behauptete, seine Strafe sei immer noch zu hoch, vor allem aufgrund des von ihm vorgelegten Vorverurteilungsberichts die Strafverfolgung, die sich teilweise auf die Einschätzung von COMPAS zu seinem wahrscheinlichen Rückfall stützte. Loomis argumentierte, dass der Algorithmus des Unternehmens, da er als „Geschäftsgeheimnis“ eingestuft wurde, nicht über ausreichende Mittel verfügte, um seine Zuverlässigkeit zu bewerten, um seine Schlussfolgerungen zu widerlegen.

Etwas pervers lehnte das Gericht die Berufung von Loomis mit der Begründung ab, dass er, selbst wenn er keinen Zugang zu den Vorbereitungsmitteln habe, die Möglichkeit habe, die Ergebnisse von COMPAS mit eigenen Beweisen zu widerlegen. Darüber hinaus war das Gericht offenbar mit der Ermahnung zufrieden, dass die COMPAS-Ergebnisse vom Gericht lediglich als eine von mehreren Richtlinien zur Gefährdung der öffentlichen Sicherheit durch eine Person angesehen werden sollten und nicht als Hauptfaktor für die Bestimmung der Schwere des Urteils. Wie Rakoff trocken bemerkt, ist diese Unterscheidung praktisch absurd:

Wenn einer Urteilsrichterin, die nicht weiß, wie unzuverlässig COMPAS wirklich ist, mitgeteilt wird, dass dieses „evidenzbasierte“ Instrument die Angeklagte als hohes Rückfallrisiko eingestuft hat, ist es unrealistisch anzunehmen, dass sie dieser Bewertung bei der Bestimmung kein wesentliches Gewicht beimisst Wie viel von der Strafe des Angeklagten sollte gegen die Arbeitsunfähigkeit gewichtet werden?

Schlimmer noch, das Gericht räumte tatsächlich ein, dass der Algorithmus in seinen früheren Bewertungen systematische rassistische Vorurteile gezeigt hatte. Rakoff zitiert aus der Stellungnahme des Gerichts:

Eine kürzlich durchgeführte Analyse der Rückfallwerte von COMPAS auf der Grundlage von Daten von 10.000 Angeklagten in Broward County, Florida, kam zu dem Schluss, dass schwarze Angeklagte „weitaus häufiger als weiße Angeklagte fälschlicherweise einem höheren Rückfallrisiko ausgesetzt sind“. Ebenso war es wahrscheinlicher, dass weiße Angeklagte als schwarze Angeklagte fälschlicherweise als risikoarm eingestuft wurden.

Inzwischen hat das Unternehmen laut Rakoff Validierungsstudien veröffentlicht, die “eine Fehlerrate zwischen 29 und 37 Prozent bei der Vorhersage künftigen gewalttätigen Verhaltens und eine Fehlerquote zwischen 27 und 31 Prozent bei der Vorhersage künftiger gewaltfreier Rückfälle zeigen”. Mit anderen Worten, wie Rakoff bemerkt, ist die Software möglicherweise “in etwa einem Drittel der Fälle” falsch.

Ob COMPAS schwarze Angeklagte tatsächlich fälschlicherweise häufiger als weiße Angeklagte als Rückfällige einstuft, ist umstritten. ProPublica veröffentlichte 2016 eine eigene Analyse (die von Rakoff referenzierte), die auf einer Datenbank von über 10.000 Angeklagten in Broward County, Florida, basiert, und stellte fest, dass schwarze Angeklagte systematisch als potenzielle zukünftige Kriminelle „falsch gekennzeichnet“ wurden. Northpointe, das COMPAS produziert, stellte ihre Analyse in Frage und ProPublica reagierte auf die Gegenargumentation von Northpointe. Im Jahr 2018 kam eine Analyse in der Washington Post zu dem Schluss, dass es unmöglich war festzustellen, ob das COMPAS-Produkt eine unfaire Tendenz aufwies, da Northpointe sich weigerte, seinen Algorithmus zu veröffentlichen, und behauptete, er sei proprietär.

Aber diese Tatsache sollte an und für sich disqualifizieren. Die scheinbare Zustimmung des Gerichts zum COMPAS-Programm trotz seiner bekannten Fehlerquote und trotz der Tatsache, dass das Unternehmen es ablehnt, Herrn Loomis oder anderen Personen Einzelheiten seines Algorithmus zur Verfügung zu stellen, ist wahrscheinlich der beunruhigendste Aspekt dieser Entscheidung. Es wird vorgeschlagen, dass das Gericht im Wesentlichen die Rücksichtnahme eines Prozessrichters auf diese angeblichen wissenschaftlichen Beweise sanktioniert, ohne dass es in einem nützlichen Umfang auf die genaue Methodik oder Zuverlässigkeit eingehen muss, die diesen Beweisen zugrunde liegt. Wie Rakoff feststellt, besteht im Rahmen einer Gerichtsverhandlung nach geltendem Recht keine Verpflichtung, einen Algorithmus wie COMPAS einer strengeren Prüfung zu unterziehen, wie sie beispielsweise von Sachverständigen oder Beweismitteln während eines tatsächlichen Prozesses verlangt wird.

In einem Zivilverfahren könnte die Berücksichtigung potenziell unzuverlässiger Beweise den Unterschied zwischen einem fairen oder unfairen Urteil über Geldschäden ausmachen. Aber im kriminellen Kontext kann diese Unterscheidung Jahre des Lebens eines Menschen buchstäblich auslöschen.

Rakoff macht die Verwendung von Analyseprodukten wie COMPAS für die Ermutigung des Nationalen Zentrums für staatliche Gerichte verantwortlich, den Verurteilungsprozess „datengesteuerter“ zu gestalten, und er ist der Ansicht, dass der gesamte Prozess der Begründung der Schwere strafrechtlicher Verurteilungen auf „Handlungsunfähigkeit“ beruht. Das heißt, die Verhütung künftiger Verbrechen sollte neu bewertet werden. Insbesondere ist Rakoff der Ansicht, dass der Schwerpunkt auf der Rehabilitation von Angeklagten liegen sollte, anstatt zu versuchen, Verbrechen zu verhindern, die überhaupt nicht begangen wurden. Im unwahrscheinlichen Fall einer solchen Änderung der Strafgerichtsbarkeit ist Rakoff der Ansicht, dass Richter, wenn Produkte wie COMPAS allgegenwärtiger werden, stärker auf sie angewiesen sind, was letztendlich dazu führt, dass die Verhütung künftiger Verbrechen (durch strengere Verurteilungen) stärker betont wird als Reform von Kriminellen durch Rehabilitationsprogramme, die keine Inhaftierung beinhalten.

Ein Punkt, den Rakoff möglicherweise auch angesprochen hat, ist die Tatsache, dass diese KI-Algorithmen zwar Richter bei der Bestimmung angemessener Verurteilungen unterstützen sollen, jedoch in erster Linie ein Instrument der Staatsanwaltschaft sind. Die überwiegende Mehrheit der kriminellen Angeklagten (und die überwiegende Mehrheit der öffentlichen Verteidiger) verfügt nicht über die Ressourcen oder Mittel, um die Ergebnisse dieser Bewertungen in Frage zu stellen, insbesondere wenn die Verwendung von Datensätzen und Algorithmen geheim bleibt. Selbst wenn solche Daten offengelegt werden, würde die forensische Analyse, die zur Bewertung ihrer Glaubwürdigkeit erforderlich ist, mehr kosten, als die meisten Angeklagten zahlen können.

Der Einsatz dieser Technologie verstärkt somit die Ungleichheit zwischen der Macht des Staates und des Einzelnen, die einfach aus Gründen der Zweckmäßigkeit akzeptiert worden zu sein scheint. Insbesondere zitiert Rakoff auch eine Studie, die von Forschern der Dartmouth University durchgeführt wurde und die feststellte, dass von den (geschätzten) 137 Faktoren, die COMPAS zur Bewertung des Potenzials einer Person zur Begehung künftiger Verbrechen verwenden könnte, dieselbe prädiktive Analyse nur unter Verwendung von zwei Faktoren erzielt werden kann – a Alter und Kriminalität der Person, die Richter vermutlich ohne die Hilfe künstlicher Intelligenz beurteilen können.

Abgesehen von der orwellschen Aussicht, den Verlauf der Zukunft von einem nicht erkennbaren, geheimen Algorithmus abhängig zu machen, unterstreicht die Einführung von COMPAS und ähnlichen Produkten die beunruhigende Schnittstelle zwischen den sehr menschlichen Fragen der Strafjustiz und den inhärent unmenschlichen Aspekten der Technologie. Und obwohl dieser Weg für Richter und Staatsanwälte einfacher oder bequemer erscheint, ist er nicht unbedingt der, dem wir folgen sollten.

Comments are closed.