Tobias Gostomzyk; Vortrag/Präsentation
Soziale Netzwerke leben von Nutzerdaten – sie bilden die zentrale Ressource digitaler Plattformen. Doch obwohl diese Daten individuell von Nutzer:innen bereitgestellt werden, entfalten sie ihren gesellschaftlichen Wert erst in der kollektiven Auswertung. Genau hier setzt dieser Vortrag an: Welche rechtlichen Möglichkeiten gibt es, diese Daten im Interesse des Gemeinwohls zugänglich zu machen und zu nutzen? Ziel des Vortrags ist es daher, die bestehenden rechtlichen Grundlagen systematisch einzuordnen und kritisch zu hinterfragen. Er richtet sich an alle, die sich aus wissenschaftlicher oder journalistischer Perspektive für die Schnittstelle von Recht, Digitalisierung und gesellschaftlicher Verantwortung interessieren.
Was dürfen Teilnehmende erwarten? Zunächst wird die Datenübermittlung durch die Netzwerke selbst in den Blick genommen. Neben Ansprüchen aus dem Social-Media-Vertrag werden insbesondere gesetzliche Ansprüche (insb. Art. 40 Abs. 4 DSA) einschließlich aktueller Gerichtsentscheidungen hierzu beleuchtet. Darüber hinaus wird die eigenständige Erhebung von Netzwerkdaten behandelt. Dabei geht es um die Rechtslage beim automatisierten Text- und Datamining (Scraping), die rechtliche Einordnung manueller Datenerhebung sowie die Bedingungen und Risiken individueller Datenspenden. Ein weiterer Schwerpunkt liegt auf Ansprüchen gegenüber Behörden, etwa dem Zugang zu Daten, die von Netzwerken an die BNetzA übermittelt wurden. Abschließend werden Unterschiede in den rechtlichen Rahmenbedingungen und Handlungsspielräumen von Wissenschaft, Medien und Zivilgesellschaft dargestellt – verbunden mit einer Einladung zur Kooperation zwischen diesen verschiedenen Akteuren.
Dr. Jan Georg Plavec, Dr. Jan Philipp Thomeczek; Podiumsdiskussion
Forscher:innen und Datenjournalist:innen arbeiten bei der Recherche oftmals mit ganz ähnlichen Methoden und sogar mit den gleichen Tools und Daten. Wenn sie diese gemeinsam nutzen wollen, wird es schnell kompliziert. Gemeinsame Recherchen gelingen oftmals nur mit umfangreichen und bürokratischen Vereinbarungen, bei denen mindestens eine:r ein Auge zudrückt – spätestens beim Thema Finanzierung. Noch schwieriger wird es, wenn Datenjournalist:innen Forschungsdaten nutzen wollen.
Wie geht es besser? In diesem Panel wollen wir mit dem Publikum über Beispiele für gelungene und gescheiterte Kooperationen, Finanzierungs- und Lizenzmodelle sprechen. Und einen Blick auf entstehende Datenräume werfen, zu denen auch Journalist:innen Zugang haben.
Jan Eggers; Workshop
Wie kann ich Recherchen und Informationsauswertung automatisieren? Wenn ich mich nicht mit Code herumschlagen oder Abläufe basteln will, kann die Lösung sein: ein autonomer Agent.
Wir setzen gemeinsam einen Hermes-Agenten auf, der die Recherche in Datenbanken auf Zuruf übernimmt - und diskutieren Kosten, Nutzen und Risiken.
Leonie Hugger; Anderes Format
Wir laden etwa zehn Leute ein, die keine Datenjournalist:innen sind, sondern potenzielle User:innen unserer Inhalte. An zehn Stationen bekommen Datenjournalist:innen die Möglichkeit, dass diese User:innen ihre Inhalte nacheinander testen. Dabei werden die User:innen nicht angeleitet, sondern die Datenjournalist:innen beobachten und dokumentieren deren intuitive Nutzung der Angebote: Werden alle Inhalte gefunden? Werden Interaktionsmöglichkeiten verstanden und genutzt? Werden die Erwartungen erfüllt, die die User:innen an eine bestimmte Navigations-/Interaktionsmöglichkeit haben, oder passiert etwas anderes als erwartet? Wie ist das direkte Feedback zur User Experience?
Gregor Aisch, Nico Scordialo; Vortrag/Präsentation
Seit März 2026 hat ein interdisziplinäres Team der ZEIT (Daten & Visualisierung, Data Science, Ressort Wissenschaft/Geschichte) mehr als 12 Millionen NSDAP-Mitgliedskarten aus den online gestellten Mikrofilm-Scans der US National Archives in eine komfortabel durchsuchbare Recherche-Umgebung überführt. Ausgangspunkt war ein massives Usability-Problem: Zwar waren tausende PDFs öffentlich verfügbar, doch Suche und Zugriff waren für viele Menschen praktisch unbenutzbar – gerade in dem Moment, in dem das gesellschaftliche Interesse an familiären Spuren im Nationalsozialismus stark anstieg. Wir zeigen in diesem Talk, wie wir aus rund 1,5 TB PDFs eine strukturierte Datengrundlage gewonnen haben – und welche technischen wie redaktionellen Entscheidungen dafür nötig waren.
Der Kern der Pipeline: Karteikarten erkennen, zuschneiden, klassifizieren und auslesen. Wir nutzten KI, um Karten von Leer- und Fotoseiten zu trennen, relevante Felder zu lokalisieren und Inhalte auch bei Schreibmaschine, Kurrent und Sütterlin zuverlässig zu transkribieren. Wir erläutern, warum Performance und Kosten beinahe zum Showstopper wurden, wie ein Modellwechsel die Laufzeit von „zu langsam“ auf gut einen Tag drückte, und wie die Ergebnisse in einer Datenbank (PostgreSQL) landeten, um Analysen in R, Python und DuckDB sowie eine benutzerfreundliche Suchoberfläche zu ermöglichen (Prototyping u. a. mit Figma/Svelte).
Neben dem Engineering diskutieren wir die ethischen und kommunikativen Spannungsfelder: Was bedeutet „einfacher Zugang“ zu Täter*innendaten? Wie bauen wir Transparenz über OCR-Fehler, Unsicherheiten und Dubletten ein? Und wie lässt sich eine Redaktion über ein Feedbacksystem und Community-Hinweise dauerhaft in die Datenqualitätsschleife integrieren? Der Talk liefert ein praxisnahes Muster für „AI-assisted archival search“ – zwischen Skalierung, Verantwortung und öffentlichem Interesse.