Thüringer Forschungsdatenmanagement-Tage 2021

Das Thüringer Kompetenznetzwerk Forschungsdatenmanagement veranstaltet von heute an bis zum 25. Juni zum dritten Mal die Thüringer FDM-Tage 2021. Unter dem Motto “Datendokumentation: A love note to the future!” werden an den vier Thüringer Universitätsstandorten Online-Workshops veranstaltet.

Die Veranstaltungsreihe startet mit einer AuftaktveranstaltungInfrastruktur schafft Datenstruktur“ an der Universität Erfurt heute um 14 Uhr.

Programm am 21. Juni 2021, ab 14 Uhr:

  • Grußwort vom Vizepräsident für Forschung Prof. Dr. Kranemann
  • Verleihung des diesjährigen FAIRest Dataset Awards
  • Vorträge:
    • Och nee, nich noch ‘ne ID! (Paul Vierkant, ORCID DE)
    • Generische Forschungsprozesse in den Verhaltenswissenschaften (Dr. Thomas Lauer, ErfurtLAB)

Die Veranstaltung findet online statt. Nach der Anmeldung erhalten Sie den Link zum Veranstaltungsraum per E-Mail.

Reihe “Digitale Werkzeuge”: OpenRefine

In dieser Reihe stellen wir digitale Hilfsmittel vor, die für die Arbeit an der Universität Erfurt nützlich sein können – für die Forschung, kollaboratives Arbeiten oder die (Selbst)Organisation. Bei Fragen rund um diese Themen steht Ihnen die Koordinatorin für Digital Humanities der Universität Erfurt zur Verfügung, deren Büro in der Universitätsbibliothek angesiedelt ist (https://www.uni-erfurt.de/bibliothek/forschungsunterstuetzende-dienste/digital-humanities/).

Heute geht es um

OpenRefine

– ein interaktives Tool zur Bereinigung und Aufbereitung größerer Mengen von Daten. Die Open-Source-Software bietet zahlreiche Möglichkeiten, die größtenteils ohne weitere Programmierkenntnisse in einer tabellenartigen Benutzeroberfläche ausgeführt werden können. Diese hat mit Zeilen und Spalten große Ähnlichkeiten mit Excel-Tabellen (ein „OpenRefine-Projekt“ = eine Tabelle) und stellt verschiedene Arten von Filtern und Facetten zur Verfügung. Das Tool läuft im Browser (auch ohne Internetverbindung) lokal auf dem Rechner.

In OpenRefine können u.a. die Datenformate TSV, CSV, Excel, JSON, XML und RDF verarbeitet werden, außerdem können SQL-Exporte erstellt werden, um die Daten in einer Datenbank weiterzubearbeiten bzw. auszuwerten. Darüber hinaus bietet das Tool die Möglichkeit, die eigenen Daten mit anderen Datenquellen abzugleichen, anzureichern und zu verlinken, z.B. mit Wikidata oder mit der Gemeinsamen Normdatei (GND).

Durch die Arbeit mit OpenRefine bekommt man ein neues Gespür für seine Daten („Exploration“), kann mit ihnen spielen, Inkonsistenzen oder Fehler entdecken.

Hier ein Beispiel für eine Anwendung: Aus einem großen Datenset

  • werden alle leeren Suchanfragen gelöscht
  • werden Leerzeichen am Anfang und Ende der Sucheingabe gelöscht
  • wird der gesamte Text in Kleinbuchstaben umgewandelt.

Alle Operationen geschehen in der Regel nur mit den selektierten Daten. Veränderungen basieren auf einer Kopie des Datensets, so dass sie leicht rückgängig gemacht werden können, Operationsabfolgen können gespeichert und auf andere Datensätze angewendet werden.

OpenRefine ist ein Tool, das bei der Konsolidierung und Transformation von Daten Arbeitsschritte vereinfacht oder bei größeren Datenmengen überhaupt erst ermöglicht.

http://openrefine.org/

https://librarycarpentry.org/lc-open-refine/

https://histhub.ch/histhub-lab-tutorials-zu-openrefine/

Screenshot aus der bisher unpublizierten Abschlussarbeit von Dr. Verena Feistauer im Rahmen der Laufbahnprüfung für Bibliotheksreferendarinnen und Bibliotheksreferendare am Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin: „Wie suchen Nutzer*innen wirklich? Eine Analyse der Suchanfragen im Verbund der Öffentlichen Bibliotheken Berlins (VÖBB)“, S. 10, Abb. 1.

 

 

Nachlese zu den ersten Thüringer FDM-Tagen

Forschungsdatenmanagement – eine Kernkompetenz der Geisteswissenschaften?!
Konzentrierte Workshop-Atmosphäre bei den ersten Thüringer FDM-Tagen

Diese Frage wurde am 20. Juni im Rahmen der ersten Thüringer FDM-Tage in Erfurt angeregt diskutiert. Dabei traf die Position, dass das Managen von Daten in die Hände entsprechender Fachleute gehöre und Wissenschaftler Daten lediglich zur Verfügung stellen auf das Argument, dass wissenschaftliche Fragestellungen und die Methodenkompetenz ein Verständnis von Datenstrukturen einschließen. Konsens bestand darüber, dass es individuelle und universitätsweite Verbesserungspotentiale im Umgang mit Daten gibt. Dieses Problem wird u.a. durch die Schaffung der Servicestelle Forschungsdatenmanagement an der Universität und ihre Einbindung in das Thüringer Kompetenznetzwerk Forschungsdatenmanagement angegangen. Eine Initiative des Landes und der Hochschulen, die allgemein begrüßt wurde.

Für Wissenschaftlerinnen und Wissenschaftler hat die Beschäftigung mit Forschungsdatenmanagement in Zusammenarbeit mit dedizierten Fachleuten eine Reihe von Vorteilen. In Projekten schärft die frühzeitige Berücksichtigung der Perspektive der Datenstruktur, wie sie beispielsweise über die Nutzung von Forschungsumgebungen wie FuD geradezu erzwungen wird, Forschungsfragen und Herangehensweisen. Die durch ein intensives Datenmanagement entstehenden Kosten wurden in der Diskussion keinesfalls verniedlicht.  Es wurde auch betont: bei rechtzeitiger Berücksichtigung der entstehenden Kosten in Förderanträgen bei DFG und anderen Fördereinrichtungen sind diese (teil)finanzierbar. Eine detaillierte Planung in diesem Bereich schützt vor bösen Überraschungen, und kann durch Nachnutzung bestehender Daten oder Strukturen die Kosten von Projekten sogar senken.

Unter https://forschungsdaten-thueringen.de/material-veranstaltungen.html sind auch die Präsentationen aller Veranstaltungen der Reihe Thüringer FDM-Tage abrufbar.

Reihe “Digitale Werkzeuge”: FDM mit Segrada

In einer neuen Reihe stellen wir an dieser Stelle digitale Hilfsmittel vor, die für die Arbeit an der Universität Erfurt nützlich sein können – für die Forschung, kollaboratives Arbeiten oder die (Selbst)Organisation.
Anregungen für neue Beiträge nimmt gerne entgegen: Dr. Katrin Ott

Nach dem DARIAH-DE Geo-Browser geht es heute weiter mit

Segrada

Die semantische Graphdatenbank Segrada ermöglicht es, Daten und Informationen aller Art aufzunehmen, in sehr flexibler Weise zu verknüpfen und schließlich in eine graphische Darstellung zu überführen. Mit Tags, Farben und Piktogrammen kann der Nutzer/die Nutzerin selbst einzelne Knoten und Kanten hervorheben und beschriften. Auch ist es möglich, die Daten zur weiteren Verarbeitung oder Visualisierung in andere Programme (z.B. gephi) zu exportieren. Für das wissenschaftliche Arbeiten ist die mögliche Verknüpfung von Akteuren, Zeitpunkten und Orten mit den entsprechenden Quellen von besonderer Bedeutung. Das Tool zeichnet sich gegenüber anderen Datenbank-Programmen durch einfache Handhabung und – mit der im Hintergrund arbeitenden Graphdatenbank OrientDB – durch eine flexible Verknüpfbarkeit der Daten aus. Die Struktur der gespeicherten Daten wird über Verknüpfungen und Tagging durch den Nutzer/die Nutzerin selbst festgelegt. Sie wächst damit während der Datensammlung und muss nicht am Anfang eines Projekts – wie bei relationalen Datenbanken – bereits endgültig festgelegt werden. Segrada ist ausschließlich in Java programmiert, muss daher nicht installiert werden, sondern läuft plattformunabhängig (also sowohl unter dem Betriebssystem Windows als auch unter Linux oder MacOS) als Browser-Anwendung.

Am 20. und 21. Juni 2019 finden an der Universität Erfurt zwei Hands-on-Workshops statt, in denen die Tools Segrada und Nodegoat vorgestellt werden:
https://www.uni-erfurt.de/geschichte/mittelalterliche-geschichte/aktuelles/

In einer Veranstaltung im Rahmen der „Thüringer Forschungsdatentage“ wird zudem FuD vorgestellt, eine virtuelle Forschungsumgebung, die das Forschungsdatenmanagement in den Geistes- und Sozialwissenschaften unterstützt.
Der Besuch der Veranstaltung, zu der die Servicestelle Forschungsdatenmanagement und die Koordinierungsstelle Digital Humanities der Universität Erfurt einladen, ist auch unabhängig von der Teilnahme an den Workshops möglich:
https://www.uni-erfurt.de/fileadmin/public-docs/Bibliothek/OpenScience/Plakat_FDM-Tage_Erfurt.pdf

Die Servicestelle Forschungsdatenmanagement der Universität Erfurt ist in das Thüringer Kompetenznetzwerk Forschungsdatenmanagement eingebunden:
https://forschungsdaten-thueringen.de/home.html

Und zum Abschluss noch ein Screenshot aus der Arbeit mit Segrada, der einen kleinen Einblick in die übersichtliche Oberfläche gewährt: