Direkt zum Inhalt

KI-basierte Datenanonymisierung

ebcont

Wie personenbezogene Daten geschützt und Inhalte nutzbar werden

Jeden Tag entstehen in Behörden, Gerichten und öffentlichen Einrichtungen Dokumente, die vor Wissen nur so strotzen – und doch kaum jemandem zugänglich sind. Der Grund? Sie enthalten sensible Daten, die nicht ohne Weiteres geteilt werden dürfen. Das schützt die Privatsphäre, blockiert aber gleichzeitig den Zugang zu Informationen, die Prozesse verbessern, Fehler vermeiden und Entscheidungen fundierter machen könnten.
Die Frage ist: Wie kann man diesen Datenschatz heben, ohne den Schutz der Betroffenen aufzugeben?
Eine automatisierte Anonymisierung kann hier den entscheidenden Unterschied machen – und genau diesen Weg sind das österreichische Bundesministerium für Justiz (BMJ) und das Bundesrechenzentrum (BRZ) gemeinsam mit EBCONT gegangen.

Automatisierte Anonymisierung als Schlüssel zur Datennutzung

Eine technisch ausgereifte, automatisierte Anonymisierung kann diesen Engpass auflösen. Sie schützt personenbezogene Informationen, während der fachliche Wert der Daten erhalten bleibt. Für Organisationen bedeutet das:

  • Daten können breiter genutzt werden, ohne gegen Datenschutzgesetze zu verstoßen.
  • Prozesse beschleunigen sich, weil manuelle Bearbeitung entfällt.
  • Der Weg wird frei für moderne, KI-gestützte Analysen und neue digitale Services.

Genau diesen Weg sind das österreichische Bundesministerium für Justiz (BMJ) & das Bundesrechenzentrum (BRZ) gemeinsam mit EBCONT gegangen – und haben damit ein Referenzprojekt geschaffen, das auch für andere Behörden relevant ist.

Der Ausgangspunkt: Wertvolle Daten hinter hohen Mauern

Gerichtliche Entscheidungen enthalten unzählige fachlich relevante Informationen – von Begründungen über Gesetzesinterpretationen bis hin zu Verweisen auf ähnliche Fälle. Doch sie sind voll von personenbezogenen Daten: Namen, Adressen, Geburtsdaten, Rollen im Verfahren.
Ohne Anonymisierung dürfen diese Dokumente nur sehr eingeschränkt weitergegeben oder ausgewertet werden. Bisher bedeutete das:

  • Aufwendige manuelle Anonymisierung
  • Unterschiedliche Dokumentenformate und Strukturen
  • Hohes Fehlerrisiko bei komplexen Fällen

Das BMJ wollte hier einen Wandel: schnellerer, sicherer Zugang zu Inhalten, ohne den Datenschutz zu kompromittieren.

Warum Standard-KI hier nicht ausreicht

Bei juristischen Texten stoßen Standard-KI-Modelle schnell an ihre Grenzen. Fachbegriffe werden falsch zugeordnet, regionale Unterschiede bleiben unberücksichtigt, und die Kontextinterpretation ist ungenau.
Für das BMJ war klar: Es braucht maßgeschneiderte Modelle, trainiert auf der österreichischen Rechtssprache und optimiert für die Besonderheiten der Justizdokumente.
Das Ergebnis ist eine Lösung, die automatisch erkennt und anonymisiert:

  • Personen- und Organisationsnamen
  • Adressen und geografische Angaben
  • Aktenzeichen und Gesetzesreferenzen
  • Rollen und Funktionen im Verfahren

Dabei bleibt die Lesbarkeit des Dokuments erhalten – eine entscheidende Anforderung für die praktische Arbeit.

Technischer Einschub: Präzision durch hybriden Ansatz

Das System kombiniert mehrere Technologien, um höchste Genauigkeit zu erreichen:

  • Named Entity Recognition (NER) identifiziert gezielt sensible Begriffe.
  • Transformer-Modelle und Deep Learning analysieren den Kontext.
  • Regelbasierte Verfahren fangen Sonderfälle und Ausnahmeformulierungen ab.
  • OCR-Services ermöglichen die Verarbeitung gescannter PDFs.
  • On-Premise-Hosting garantiert Datensouveränität und DSGVO-Konformität.

Die Kombination aus NER und lokal betriebenen Large Language Models (LLM) hat die Erkennungsgenauigkeit auf über 90 % gesteigert – und das ohne Abhängigkeit von US-Cloud-Diensten.

Vom Dokument zum nutzbaren Inhalt in drei Schritten

Der Arbeitsablauf ist einfach und klar strukturiert:

  1. Erkennen – Die KI markiert automatisch sensible Daten.
  2. Anonymisieren – Die Informationen werden pseudonymisiert oder geschwärzt, ohne den fachlichen Kontext zu zerstören.
  3. Bereitstellen – Die fertigen Dokumente stehen in mehreren Varianten zur Verfügung: Original, annotiert, anonymisiert.

Zusätzlich können Dokumente automatisch klassifiziert, betitelt und sortiert werden – ein Bonus für Arbeitsgeschwindigkeit und Organisation.

Der Mehrwert für die Justiz und darüber hinaus

Mit der neuen Lösung kann das BMJ gerichtliche Entscheidungen effizient aufbereiten und so einem größeren Nutzerkreis zugänglich machen – immer unter Wahrung des Datenschutzes.
Die Vorteile im Überblick:

  • Schnellere Prozesse durch Wegfall manueller Anonymisierung
  • Rechtssichere Nutzung durch DSGVO-konforme Verarbeitung
  • Bessere Analysefähigkeit dank strukturierter, maschinenlesbarer Daten
  • Innovationspotenzial durch Einbindung in weitere digitale Anwendungen

Dieses Vorgehen lässt sich leicht auf andere behördliche Bereiche übertragen – von Ministerien über Polizei bis ins Gesundheitswesen.

Herausforderungen meistern durch kontinuierliche Verbesserung

Jede Fachdomäne bringt Sonderfälle mit sich – so auch die Justiz. Unterschiedliche Terminologien, lückenhafte Daten oder unklare Formulierungen erfordern flexible Systeme.
Die Lösung des BMJ meistert diese Komplexität durch:

  • Hybridansätze aus Regeln und Machine Learning
  • Fortlaufendes Retraining der Modelle
  • Feedbackschleifen aus der Praxis

So bleibt das System aktuell, lernfähig und anpassbar – selbst bei veränderten Anforderungen.

Zukunftsausblick: Mehr als nur Anonymisierung

Die aktuelle Plattform ist erst der Anfang. Geplant sind Erweiterungen wie:

  • Audio-Transkription von Vernehmungsprotokollen
  • Mehrsprachige Übersetzungen für internationale Verfahren
  • Generative KI-Funktionen, um Inhalte interaktiv abzufragen

Mit diesen Entwicklungen wird aus der Anonymisierungslösung eine umfassende Datenplattform für die Justiz – und ein Vorbild für andere Behörden.

Fazit: Sensible Daten können ein Wettbewerbsvorteil sein, wenn man sie sicher nutzbar macht
Das BMJ-Projekt zeigt eindrucksvoll, dass sensible Daten kein Hindernis für Digitalisierung sein müssen. Entscheidend ist, dass Datenschutz, Technologie und Fachwissen von Anfang an gemeinsam gedacht werden.


Für C-Level-Entscheider:innen im Public Sector bedeutet das: Wer Datensouveränität mit maßgeschneiderten, praxisnahen KI-Lösungen verbindet, kann Prozesse beschleunigen, Innovation ermöglichen und Vertrauen stärken – ohne Kompromisse bei Sicherheit oder Compliance.