Eine sichere Bank

Bild: FGC/shutterstock
Bild: FGC/shutterstock

Wie die FAU an Datenbanken forscht

Datenbanken regeln die Speicherung von und den Zugriff auf Informationen. Und sie helfen, Erkenntnisse der Wissenschaft verfügbar zu machen. Auch an der FAU wird an Datenbanken geforscht, werden Datenschätze gehoben und Informationen gelagert.

Finanz- und Versicherungsdienstleister, Industrieunternehmen, Online-Händler, öffentliche Verwaltungen – sie alle arbeiten mit Daten, wenn auch mit unterschiedlichen, wie denen von Bankkonten, Policen, Produkten, Zulieferern, Kunden, Steuerzahlern. Was sie eint, ist die Notwendigkeit, diese Informationen strukturiert speichern und schnell abrufen zu können. Zugleich muss gesichert sein, dass die Daten auch bei geteiltem Zugriff in einem zentralen System gepflegt werden. Genau dafür gibt es Datenbanken. „Manche glauben, eine Excel-Datei sei bereits eine Datenbank“, sagt Prof. Dr. Klaus Meyer-Wegener vom Lehrstuhl für Informatik 6 an der FAU. „Das kann sie durchaus sein, aber nur, wenn der Zugang für andere geregelt ist und die Daten kein Eigenleben in vagabundierenden Kopien führen.“

Es kommt auf den Typ an

Im Gegensatz zu einfachen Tabellenkalkulationen ermöglichen Datenbankverwaltungssysteme – in der Regel über ein Interface – den koordinierten Zugriff von zum Teil sehr vielen Nutzern/innen: Wenn im Finanzamt die neueste Steuererklärung geprüft wird, dann werden die personenbezogenen Informationen und Dokumente auf einem zentralen Server gespeichert und können auch von anderen Sachbearbeitern in der aktuellsten Version abgerufen werden. Gleiches gilt für Daten im produzierenden Gewerbe oder im Handel, etwa für Warenwirtschaftssysteme. Meyer-Wegener: „Datenbanksysteme kommunizieren auch mit anderen Softwareprogrammen und regeln administrative Prozesse wie Überwachung und Datensicherung.“

Der mit Abstand am häufigsten verwendete Datenbanktyp sind relationale Systeme. Sie basieren auf Tabellen und beherbergen ausschließlich strukturierte Daten – also keinen freien Text, sondern kategorisierte Inhalte und Beschreibungen. Zumeist verwenden sie Structured Query Language (SQL), eine Programmiersprache, die in den 1970er Jahren von IBM entwickelt wurde. Auch SAP, die heute erfolgreichste Enterprise-Software der Welt, basiert auf relationalen Datenbanken. In den letzten Jahren haben sich auch nichtrelationale NoSQL-Datenbanken verbreitet. Mit ihnen lassen sich zwar keine komplexen Prozesse steuern, dafür bieten sie einen deutlich schnelleren Zugriff auf Informationen, weshalb NoSQL-Systeme häufig für Suchanfragen im Web eingesetzt werden. In seiner aktuellen Forschungsarbeit beschäftigt sich Klaus Meyer-Wegener damit, wie Abfrageprozesse in großen Datenbanken beschleunigt werden können. Im Fokus steht dabei das sogenannte Near Data Processing: „Der überwiegende Teil der Daten, etwa von großen Online-Händlern, liegt auf einem Hintergrundspeicher. Der ist jedoch etwa tausendmal langsamer als der Arbeitsspeicher, der die Abfrage managt“, sagt der Forscher. Gemeinsam mit Kollegen/innen an der FAU und der Universität Magdeburg untersucht er, wie diese Daten schon beim Abruf vom Hintergrundspeicher gefiltert und umstrukturiert werden können. „Wenn im Hintergrund bereits Zwischensummen gebildet oder nicht lieferbare Waren gar nicht erst übertragen werden, dann würde der Arbeitsspeicher erheblich entlastet“, erklärt Meyer-Wegener. „Bei vielen Millionen Abfragen täglich bedeutet das auch eine erhebliche Einsparung von Energie.“

Datenschätze der Wissenschaft

Um Optimierungen dieser Art geht es bei Forschungsdaten eher nicht. Ziel ist hier vielmehr, die riesigen Datenschätze an Hochschulen und anderen wissenschaftlichen Einrichtungen überhaupt zu heben. Deshalb werden Fördergelder zunehmend an die Bedingung geknüpft, Forschungsdaten strukturiert zu erfassen und für die interdisziplinäre und interinstitutionelle Forschung zugänglich zu machen. Vor fünf Jahren hat die Europäische Kommission die GO-FAIR-Initiative gestartet, der sich auch die FAU angeschlossen hat. FAIR steht für Findable, Accessible, Interoperable und Reusable – die Daten müssen also auffindbar, zugänglich, verknüpfbar und wiederverwendbar sein. „Die praktische Umsetzung ist für viele Forschende sehr aufwändig“, sagt Dr. Marcus Walther. „Sie müssen sich das Wissen für die Entwicklung komplexer Datenbanken und Workflows entweder selbst aneignen oder aber externe Fachleute einbeziehen, die sich im Wissenschaftsbetrieb häufig nicht auskennen.“

Grafik zeigt Server- und Datenbankfunktionen.
Datenbanken erleichtern den Zugriff auf Informationen. Bild: FGC/shutterstock

Walther ist Geschäftsführer der Competence Unit for Research Data and Information, kurz CDI, die Anfang April 2021 an der FAU gegründet wurde. Die CDI fungiert als universitätsinternes Kompetenzzentrum zum Thema Forschungsdatenmanagement. Mit herkömmlichen Publikationspraktiken lasse sich ein freier Austausch von Forschungsdaten nur schwer realisieren, erklärt der Naturwissenschaftler: „Nehmen Sie Sammlungen historischer Artefakte als Beispiel, egal ob Medizingeräte oder Tierpräparate. Zu deren Beschreibung bieten sich semantische Datenmodelle an, allerdings braucht es eine Standardisierung der Metadaten für die strukturierte Suche.“ Aber auch bei vermeintlich eindeutigen Werten, etwa physikalischen Messdaten, zeigen sich Hürden für eine interoperable Nutzung: So müssen Maßeinheiten – bei der Temperaturangabe zum Beispiel Celsius, Kelvin oder Fahrenheit – ebenso klar definiert sein wie Messvorschriften und Parameter der verwendeten Geräte.

Als zentrale wissenschaftliche Einrichtung führt die CDI mit derzeit vier Mitarbeiterinnen und Mitarbeitern die Arbeit der 2019 an der FAU gegründeten Arbeitsgruppe Forschungsdaten und Forschungsinformationen (AGFD) fort. Unterstützt von den aktuell rund 40 Mitgliedern der CDI beraten sie zum Umgang mit digitalen Forschungsdaten, helfen bei der Einrichtung von IT-Systemen zum Forschungsdatenmanagement und beantworten Fragen zum Lizenzrecht und Datenschutz. Dabei kooperieren sie eng mit der Universitätsbibliothek und dem Datenschutzbeauftragten der FAU. Perspektivisch soll die CDI auch als Schnittstelle zwischen dem Regionalen Rechenzentrum Erlangen (RRZE), dem Medizinischen Zentrum für Informations- und Kommunikationstechnik am Universitätsklinikum Erlangen (MIK) und den einzelnen Forschungsteams an der FAU fungieren.

Biobanken – Verbindung von Patientendaten und -proben

In Biobanken werden besondere Daten archiviert: Neben Patienten/ innen-Informationen auch Gewebe- und Flüssigkeitsproben.
In Biobanken werden besondere Daten archiviert: Neben Patienten/innen-Informationen auch Gewebe- und Flüssigkeitsproben. Foto: angellodeco/shutterstock

Eine besondere Form von Forschungsdatenbanken sind die Biobanken der Medizinischen Fakultät der FAU und des Universitätsklinikums Erlangen. An vielen Kliniken und Abteilungen des UKER werden neben den Patienteninformationen auch Humanproben archiviert – Gewebeproben wie Haut und Tumorzellen ebenso wie Flüssigproben, vor allem Blut, Urin und Speichel. Sie stammen zum überwiegenden Teil aus der Routineversorgung, in selteneren Fällen auch aus medizinischen Projekten. Die Lagerung ist aufwändig: Gewebeproben werden zum größten Teil in Paraffin, aber auch in flüssigem Stickstoff konserviert, Flüssigproben permanent auf minus 80 Grad Celsius gekühlt. Die Proben sollen – das ist der Zweck der Biobanken – der medizinischen Forschung zugänglich gemacht werden. Bislang gestaltete sich das jedoch oft schwierig: Wer zum Beispiel untersuchen wollte, wie die Enzymaktivität bei einer Autoimmunerkrankung mit bestimmten Laborparametern korreliert, musste in der Regel selbst in Erfahrung bringen, wo Informationen und Proben archiviert sind, woher die Daten ursprünglich stammen oder wie Freigabeprozesse organisiert werden müssen.

Erleichterung für Forschende

Um dieses Procedere zu vereinfachen, wurde Ende 2020 die Central Biobank Erlangen (CeBE) gegründet, der sich derzeit bereits 16 Biobanken angeschlossen haben. Die CeBE ist Mitglied der German Biobank Alliance (GBA), an der fast alle Standorte der deutschen Universitätsmedizin beteiligt sind. „Wir unterstützen die dezentralen Biobanken bei der Charakterisierung, Registrierung und Archivierung humaner Proben“, erklärt Dr. Christina Schüttler, Koordinatorin der CeBE. „Zugleich sind wir der zentrale Ansprechpartner für die Transferstelle des Datenintegrationszentrums und versorgen die dortige Forschungsdatenbank mit den Metadaten aller Bioproben des UKER, für die eine breite Einwilligung zur Sekundärnutzung vorliegt.“

Eine wesentliche Erleichterung für Forschende: Sie richten ihre Projektanfrage künftig direkt an die Transferstelle und erhalten – eine positive Begutachtung durch die Ethikkommission und das Use & Access Committee (UAC) vorausgesetzt – die Bioproben von der CeBE für ihre Studien.

Webseite der Competence Unit for Research Data and Information

Webseite der Central Biobank Erlangen

von Matthias Münch


Cover alexander Nr. 117
alexander 117 herunterladen

Die Themen der neuen Ausgabe sind: Datenbanksysteme und -forschung an der FAU, Irisimplantate aus künstlichen Muskeln, ein Medikament gegen Long-COVID, die European University EELISA, in der sich Universitäten aus Europa zusammengeschlossen haben, um Engineering weiter zu denken, der zweite Teil unserer Reihe zur FAU-Strategie,  das neue Green Office und vieles mehr.

alex online lesen