# Crowd Sourcing the Academy ## Begrüßung Zunächst vielen herzlichen Dank für das Interesse, mit in die Geschichte der Deutschen Akademie der Naturforscher Leopoldina einzutauchen. Die Akademie hat eine über 350-jährige, sehr wechselhafte Geschichte, mit manchmal überraschenden Wendungen. Aber, trotz aller Umbrüche, auch mit einigen Kontinuitäten. Wir werden darüber einiges lernen. Wir möchten mit unserer Mitmach-Aktion gerne zwei Dinge voranbringen. Erstens legen wir allgemein großen Wert darauf, die wissenschaftliche Arbeitswelt für interessierte Bürgerinnen und Bürger zu öffnen und Partizipationsmöglichkeiten zu schaffen. Es freut uns, dass wir dafür Personen aus ganz unterschiedlichen Lebensbereichen gewinnen konnten. Zweitens möchten wir, und dies ist ein spezieller Aspekt, dies vorrangig im digitalen Umfeld umsetzen, zum einen weil es eine ortsunabhängige Partizipation erlaubt, zum anderen weil speziell die historischen Wissenschaften im digitalen Bereich eine starke Umwälzung erleben. Und damit sind wir schon mitten im Thema. ## Einführung ### Geschichte und Information Wir sind es gewohnt, über den Verlauf der Geschichte aus Büchern zu erfahren. Vielleicht verfassen wir auch selbst hin und wieder Texte zur Geschichte, sei es in der Ausbildung, im Beruf oder auch in der Freizeit. Die Möglichkeiten, sich mit Geschichte auseinanderzusetzen, sind wirklich vielfältig. Eine wissenschaftliche Betätigung erfordert dabei die Reflektion des eigenen Interesses und der eigenen Vorgehensweise: Mit welchem Ziel möchte man Geschichte erforschen, und wie kommt man zu einer ausgewogenen Darstellung? Um Zusammenhänge zu erkennen, benötigen wir Informationen. (Ich verzichte hier auf den politischen Ausdruck "Fakten", der in der Wissenschaft nur wenig zielführend ist.) Wir brauchen Informationen beispielsweise zur zeitlichen und räumlichen Einordnung von Geschehnissen. Je mehr Informationen wir zur Verfügung haben, um so eher können wir Geschichte in ihrem Kontext begreifbar machen. ### Vernetzung Entscheidend ist aber nicht nur die schiere Datenmasse, sondern auch die Verbindungen der Informationen untereinander. Recherchieren wir beispielsweise den Lebensweg einer Wissenschaftlerin, beispielsweise Marie Curie, bekommen wir in erster Linie Informationen zur Ausbildung, zum Beruf und zum Privatleben. Schauen wir daraufhin in einem Bibliothekskatalog nach, was diese Wissenschaftlerin veröffentlicht hat und mit wem zusammen sie etwas veröffentlicht hat, entstehen neue mögliche Zusammehänge. Wir können auch schauen, mit wem diese Wissenschaftlerin gemeinsam Vorträge gehalten hat. Dies geht heute relativ leicht: Wir können über Internetrecherchen seh vieles herausfinden, was man vor der Jahrtausendwende noch mit viel Aufwand in Bibliotheken händisch zusammenstellen musste. Natürlich hat auch diese händische Arbeit einen großen Wert. Diese wird aber immer stärker durch digitale Hilfsmittel und auch durch computative Verfahren unterstützt. Inzwischen gehen die Möglichkeiten der digitalen Recherche weit über die Volltextsuche hinaus. Durch das Internet werden Informationen untereinander verknüpft, so dass nicht nur Menschen schneller an Informationen gelangen können, sondern auch die Computer selbst können Informationen untereinander verbinden. Kommen wir kurz auf das Beispiel zurück: Wenn ich über Marie Curie recherchiere, würde ich mir wünschen, dass ich nicht nur ihre Biographie auf irgendeiner Website angezeigt bekomme, sondern ich möchte gerne auch direkte Links zu einer Liste ihrer Publikationen bekommen, außerdem Links zu Forschungsprojekten, die sich mit ihrem Wirken auseinandergesetzt haben, ferner einen Link zum Archiv, in dem ihr Nachlass aufbewahrt ist, und so weiter. Allgemein besteht also der Bedarf an Vernetzung aller Informationen zu einer Person. Das ist nur ein Beispiel: Es könnte sich auch um Orte handeln, um Werke der Literatur, um historische Ereignisse - was auch immer der Gegenstand meiner Forschung sein mag. Für die digitale Recherche wäre es jedenfalls ideal, dass alle Informationen zu einer Sache miteinander verbunden sind. Sie ahnen, dass dies in der Umsetzung nicht immer ganz leicht sein dürfte. Möchten wir beispielsweise alle Informationen zu einer Person miteinander verbinden, so müssen wir diese Person ja erst einmal eindeutig identifizieren können. Der Name genügt dafür nicht immer: Man denke an Namens-Doppelgänger, an unterschiedliche Schreibweisen, an Namensänderungen. Das heißt: Es braucht eine Methode, mit der sich Personen - oder ganz allgemein - alle möglichen Sachen - unzweifelhaft identifizieren lassen. Ein Computer wäre dann in der Lage, diese Informationen quasi automatisch zusammenstellen zu können. ### Linked Open Data Die Vision dahinter ist das sogenannte *Linked Open Data Network*. Das ist ein riesiges Wissens-Netzwerk, in dem Informationen untereinander verlinkt sind. Die Informationen können von allen möglichen Anbietern kommen: Wissenschaftliche Einrichtungen, aber auch private, kommerzielle und ehrenamtliche Initiativen sind ganz vorne mit dabei. https://www.lod-cloud.net/ In den historischen Wissenschaften wird angestrebt, die Verlinkung der Wissensbestände untereinander stark zu verdichten. Das Potenzial ist riesig, und natürlich auch der Aufwand. Linked Open Data wird durch mehrere Faktoren erreicht: - freie Verfügbarkeit der Informationen im Netz, - am besten in maschinenlesbarer Form - und in einem offenen Format, - Anschlussfähigkeit der Daten durch Identifikatoren und - Vernetzung der eigenen Daten mit anderen Daten. https://5stardata.info/en/ ## LOD für die historischen Mitglieder der Leopoldina Wir möchten in unserem Crowd-Sourcing-Projekt die Grundlage dafür verbessern, dass Informationen zu Leopoldina-Mitgliedern mit anderen Datenbeständen vernetzbar werden. Derzeit sind die Informationsangebote breit verteilt und noch gar nicht untereinander verbunden, geschweige denn an andere Angebote angeschlossen. Beispiele: - https://www.leopoldina.org/mitglieder/mitglieder-seit-1652/ - http://jason.leopoldina.org/actaproweb/ - https://lhhal.gbv.de/DB=4/LNG=DU/ - außerdem: diverse Forschungsprojekte zu historischen Mitgliedern (noch ohne Website) Zur Identifizierung von Personen gibt es tatsächlich eine bereits standardisierte Methode, die aus dem Bereich des Bibliothekswesens kommt. Die Deutsche Nationalbibliothek (DNB) hat dazu die GNDs eingeführt, genannt Gemeinsame Normdatei: Das sind digitale Datensätze mit grundlegenden Informationen zu allen Dingen, die in dem Katalog der Deutschen Nationalbibliothek gelistet sind. Unter anderem sind das Personen, die mit Buchtiteln in Verbindung stehen, beispielsweise AutorInnen und HerausgeberInnen, aber auch historische Personen, wenn sie als Thema eines Buches auftauchen. Fast jede Nationalbibliothek auf der Welt bietet ähnliche Normdateien an, die wiederum durch eine internationale Normdatei untereinander verbunden sind (VIAF, Virtual International Authority File). Beispiel: Recherche nach Personen-Normdaten zu "Marie Skłodowska Curie" - https://dnb.de - http://d-nb.info/gnd/118523023 Man sieht dort: Die Info in der DNB ist z.B. direkt mit der Wikipedia verbunden. Der Wikipedia-Eintrag führt wiederum weiter zu anderen Informationen. Leider gibt es nirgends eine Verbindung mit der entsprechenden Mitglieder-Seite der Leopoldina: - https://www.leopoldina.org/mitgliederverzeichnis/mitglieder/member/Member/show/marie-curie-sklodowska/ Wenn wir jetzt erreichen könnten, dass die GND von Marie Curie in den Datensätzen der Leopoldina hinterlegt ist: Dann wären nicht nur die Informationen zwischen Leopoldina und DNB miteinander verbunden, sondern auch alle anderen Informationsangebote zu Marie Curie in der Linked Open Data Cloud. Forschende können von der Vernetzung des Wissens profitieren und Maschinen können die Informationen verlässlich miteinander in Verbindung bringen. # Umsetzung https://docs.google.com/spreadsheets/d/1JxAgz6tRugCE9BjF-VMas2ZTDvEM6kLQVyLsvuY94No/edit#gid=0 Dies ist ein Auszug aus dem Katalog des Archivs. Es liegen verschiedene Informationen vor, beispielsweise die Matrikelnummer. Die GNDs dazu wurden bislang nicht recherchiert. Sobald eine GND zugeordnet ist, lassen sich Informationen miteinander verbinden. Die GND kann man in verschiedenen Datenquellen recherchieren: - Katalog der DNB https://www.dnb.de/ - Biographie-Portal https://biographie-portal.eu/ - VIAF https://viaf.org/ - Wikipedia (DE) https://de.wikipedia.org/ - und auch: Deutsche Biographie https://www.deutsche-biographie.de/ Diese Datenquellen stehen zum guten Teil bereits miteinander in Verbindung. Damit wir voneinander unabhängige Ergebnisse erhalten, soll die Recherche in den drei Quellen separat erfolgen. Wenn wir dann auf dasselbe Ergebnis kommen, um so besser. Sie bekommen nun Recherchebereiche zugewiesen oder können sich selbst welche aussuchen. Jedes Datenblatt dient der Recherche in genau einer Quelle. Dort können Sie die recherchierten GNDs zu den jeweiligen Personen eintragen und Anmerkungen vornehmen. In der ersten Tabelle ist zu sehen, welche GNDs in welchen Quellen bereits recherchiert wurden. Sobald Ergebnisse vorliegen, werden diese miteinander verglichen. Eine Punktzahl zeigt an, wie hoch die Übereinstimmung ist. ## Tipps zur Vorgehensweise Wann soll ich etwas eintragen? Wie 'eindeutig' sollen die Übereinstimmungen sein? - ggf. auch mal Variationen des Namens eingeben - v.a. Schreibvarianten, z.B. Karl/Carl - auch Sprachvarianten können auftreten, vor allem in Latein - ggf. auch mithilfe der Geburtsdaten versuchen - Sterbedaten sind oft präziser als Geburtsdaten - allgemein: wenn nichts gefunden wird, Kriterien rausnehmen oder verändern - eigene Abschätzung ist wichtig Was soll erreicht werden? - man bekommt dann in der Zusammenschau eine Verifizierung - Ziel ist aber, dass wir möglichst unabhängige Resultate bekommen - die sich dann gegenseitig verifizieren können - es ist ebenso wichtig zu erkennen, dass mutmaßlich dieselbe Person mit zwei verschiedenen GNDs erfasst ist - in diesem Fall muss man dann eben nochmal nachrecherchieren Hinweise zum Vergleich der Spalten - Anmerkungen bei nicht eindeutigen Fällen sind in jedem Fall hilfreich, wenn wir später die Ergebnisse nochmal vergleichen möchten - falls bei der GND nichts gefunden wird, in anderen Spalten aber Ergebnisse vorliegen, ist dass ein Hinweis daraus, dass es doch irgendwo einen GND-Eintrag gibt