Eine neue Architektur für die DDB: 6 Fragen & ihre Antworten

Seit Ende Mai 2018 sind die Ergebnisse des Sonderprojekts „DDB 2017“ online, in dessen Rahmen die Basis-Architektur der DDB von Grund auf modernisiert wurde. Das Entwicklungsprojekt wurde durch das Bundesministerium des Innern mit insgesamt einer Million Euro gefördert, durch die DDB-Projektkoordination verantwortet und geleitet und gemeinsam mit unterschiedlichen Umsetzungspartnern – allen voran FIZ Karlsruhe – durchgeführt.

Hier sind die wichtigsten Fragen und Antworten zu den Hintergründen und Neuerungen des Projekts, gemeinsam beantwortet von Uwe Müller, Geschäftsführer Technik, Entwicklung, Service der Deutschen Digitalen Bibliothek und Stephan Bartholmei, verantwortlich für Produktentwicklung und Innovation.

Die Fragen

1. Warum gab es das Sonderprojekt „DDB 2017“?

2. Welche Änderungen bzw. welche Vorteile für bestehende und zukünftige Datenpartner – also Kultur- und Wissenseinrichten – ergeben sich aus dieser neuen Infrastruktur konkret?

3. Gibt es neben den Änderungen im Backend auch funktionale Änderungen im Frontend des DDB-Portals, die mit der Freischaltung des neuen Systems für die Nutzer der DDB sichtbar werden?

4. Ist die neue Architektur davor gefeit, das Schicksal der Vorgängerarchitektur zu teilen? Wie wird verhindert, dass die DDB in wenigen Jahren wieder an Performanzgrenzen stößt?

5. Neue Nutzungsszenarien bringen üblicherweise neue, anders gelagerte Anforderungen mit sich. Welche wären das und wie ist die neue Architektur dafür gerüstet?

6. Ist die Umstellung auf das neue System vollkommen reibungslos verlaufen?

7. Materialien und Downloads

Die Antworten

1. Warum gab es das Sonderprojekt „DDB 2017“?

Die Deutsche Digitale Bibliothek führt Daten zusammen – das ist das Kerngeschäft – und zwar ziemlich viele Daten. Dazu nutzen wir ein Basissystem mit Komponenten zur Datenhaltung, für das Laden und Verarbeiten der Daten und für die Ausspielung über maschinelle Schnittstellen und das Portal. Das bisher verwendete System, dem eine Dateisystem-basierte Speicherarchitektur zugrunde lag, war – die Konzeptionsphasen eingerechnet – nun fast zehn Jahre alt und ist an unterschiedlichen Stellen an seine Grenzen gestoßen. Das betraf beispielsweise die Dauer von Verarbeitungsprozessen, aber auch die sehr eingeschränkten Möglichkeiten, die in der DDB gespeicherten Daten jenseits des Portals für andere Szenarien zu nutzen oder anzureichern. Um zukunftsfähig zu bleiben, müssen wir uns weiterentwickeln und haben uns daher dazu entschieden, für das Basissystem eine neue Architektur mit aktuellen Technologien einzuführen, mit der wir zwei konkrete Ziele erreichen wollen.

Zum einen geht es um die Erhöhung der Performanz. Das bedeutet, dass wir mehr Daten in kürzerer Zeit laden und auch in kürzeren Zyklen aktualisieren können. Dieses Ziel konnten wir vor allem durch die Umstellung auf moderne Backend-Technologien erreichen: Die noSQL-Datenbank Apache Cassandra und das Compute-Framework Apache Spark, die dank ihres verteilten Konzepts ihren Dienst auf einem Cluster verrichten und damit auch für zukünftige Anforderungen skalierbar sind. Um insgesamt schneller zu werden, hilft uns daneben auch eine verbesserte technische Unterstützung von Arbeitsprozessen.

Zum anderen ermöglicht uns die Umstellung auf die neue Systemarchitektur die Realisierung vollkommen neuer Funktionalitäten und darauf basierender Nutzungsszenarien. Dazu gehören die Analyse des Datenbestandes, Visualisierungen und Datenanreicherungen im weitesten Sinne.

2. Welche Änderungen bzw. welche Vorteile für bestehende und zukünftige Datenpartner – also Kultur- und Wissenseinrichtungen – ergeben sich aus dieser neuen Infrastruktur konkret? 

Wir werden zukünftig vor allem zu einer schnelleren Bearbeitung beim Einspielen und Aktualisieren von Datenbeständen kommen. Mit der neuen Architektur werden wir für unsere Datenpartner aber auch transparenter. Denn mit „DDBdash“ haben wir eine webbasierte Administrationskonsole entwickelt, mit der bestimmte Prozesse beim Datenclearing schrittweise auch von außen angestoßen bzw. überwacht werden können – zunächst durch die Fachstellen der DDB, später auch durch unsere Datenpartner. 
Das wird, was die technischen Prozesse betrifft, zu einer spürbaren Beschleunigung führen – auch wenn es bei neuen Datenpartnern weiterhin einiges an intellektueller und manueller Arbeit zu tun gibt. Damit einige der Verbesserungen, die durch das Sonderprojekt „DDB 2017“ möglich werden, greifen können, müssen außerdem nach Inbetriebnahme der neuen Software-Architektur, alle Bestandsdaten neu eingespielt werden. 

DDBdash-Ansichten

Mit DDBdash steht nun eine webbasierte Komponente zur Prozesssteuerung zur Verfügung. Hierüber erfolgt unter anderem die Datenlieferung.
Mit DDBdash steht nun eine webbasierte Komponente zur Prozesssteuerung zur Verfügung. Hierüber erfolgt unter anderem die Datenlieferung.
Mit DDBdash können die gelieferten Eingangsdaten aus den unterschiedlichen Formaten dann auch transformiert und in die unterschiedlichen Zielsysteme (Testsystem und Produktionssystem) geladen werden (Ingest).
Mit DDBdash können die gelieferten Eingangsdaten aus den unterschiedlichen Formaten dann auch transformiert und in die unterschiedlichen Zielsysteme (Testsystem und Produktionssystem) geladen werden (Ingest).

3. Gibt es neben den Änderungen im Backend auch funktionale Änderungen im Frontend des DDB-Portals, die mit der Freischaltung des neuen Systems für die Nutzer der DDB sichtbar werden?

Ja, die gibt es – und zwar vor allem in vier Bereichen: Die Realisierung eines völlig neuen Objektviewers, eine deutliche Verbesserung der Suchfunktion, die Einführung sogenannter Organisationsseiten und die Bündelung der redaktionellen Inhalte im neu entwickelten „DDBjournal“. 

a) Der Objektviewer

Durch den neuen Viewer können jetzt Bücher und andere gedruckte bzw. mehrseitige Materialien direkt und vollständig im DDB-Portal betrachtet und genutzt werden – einschließlich Funktionen zur Binnennavigation, zum Blättern, Zoomen, Drehen usw. 

Der Viewer bietet unter anderem Miniatur- (unten) und Strukturansichten (links) sowie Funktionen zum Blättern, und zur Vergrößerung und Verkleinerung und zur Rotation der Seiten.
Der Viewer bietet unter anderem Miniatur- (unten) und Strukturansichten (links) sowie Funktionen zum Blättern und zur Vergrößerung und Verkleinerung und zur Rotation der Seiten.

b) Verbesserungen bei der Suche

Die interne Suche ist um eine Vorschlagsfunktion erweitert worden, die dann aktiv wird, wenn eine Suchanfrage zu wenigen oder keinen Treffern führt – etwa wegen fehlerhafter Eingaben. Außerdem ermöglicht die Suche durch den Einsatz einer Lemmatisierung nun auch das Auffinden von Datensätzen mit abweichenden Wortformen – vor allem im Fall von Flexionen und Zusammensetzungen. 

Das Beispiel „Friedrich der Große“  bzw. „Friedich der Große“

Die Autokorrekturfunktion liefert Vorschläge für (mutmaßlich) falsch geschriebene Suchbegriffe - und zwar jetzt auch für Mehrwortsuchen.
Die Autokorrekturfunktion liefert Vorschläge für (mutmaßlich) falsch geschriebene Suchbegriffe - und zwar jetzt auch für Mehrwortsuchen.

c) Die Organisationsseiten

Mit der Einführung der Organisationsseiten im DDB-Portal sind wir in Sachen Datenvernetzung gleich ein paar Schritte vorwärtsgegangen. Sie stellen analog zu den bereits seit längerem vorhandenen Personenseiten einen Vernetzungspunkt zwischen Objekten und Einrichtungen oder Institutionen dar. Dazu zählen neben Kultur- und Wissenseinrichtungen, die Daten an die DDB liefern, auch Körperschaften in anderen Rollen – beispielsweise Institutionen oder Firmen, die an der Herstellung, Entdeckung oder Erforschung von Objekten beteiligt waren (Verlage, Industrieunternehmen, Forschungseinrichtungen) oder Einrichtungen und Organisationen, die Gegenstand eines Buches sind. 

Beispiel 1: Die Organisationsseite des Europäischen Parlaments

Für Institutionen, Organisationen und Einrichtungen, die mit DDB-Objekten in Beziehung stehen, werden jetzt Organisationsseiten angezeigt - und zwar auf der Basis der Gemeinsamen Normdaten (GND) und deren Verknüpfung mit den Objekten.
Für Institutionen, Organisationen und Einrichtungen, die mit DDB-Objekten in Beziehung stehen, werden jetzt Organisationsseiten angezeigt - und zwar auf der Basis der Gemeinsamen Normdaten (GND) und deren Verknüpfung mit den Objekten.

d) Das DDBjournal

Mit dem DDBjournal schließlich führen wir die vielfältigen redaktionellen Angebote im DDB-Portal mit einem einheitlichen und ganz neu strukturierten Zugang zusammen. Die redaktionellen Artikel können über eine Übersichtsseite angesteuert werden ebenso wie über unterschiedliche Kategorien, die in einer Binnennavigation angezeigt werden. Ebenfalls in der Binnennavigation verankert sind die „Kalenderblätter“, die Personenseiten und virtuellen Ausstellungen. Zusätzliche Navigationsmöglichkeiten bieten die Verschlagwortung, die Features „Empfohlene Artikel“ und „Am meisten gelesen“ ebenso wie das Archiv. Redaktionelle Formate wie „Wir sind die DDB“, „Thema des Monats“, „Der digitale Tellerrand“, Neuigkeiten und Hintergrundartikel können so attraktiver präsentiert und schneller gefunden werden. 

Die Übersichtsseite des Journals

Die redaktionellen Angebote des alten Systems sind nun im DDBjournal zusammengeführt, mit Übersichtsseite, eigener Binnennavigation, Verschlagwortung und Archiv.
Die redaktionellen Angebote des alten Systems sind nun im DDBjournal zusammengeführt, mit Übersichtsseite, eigener Binnennavigation, Verschlagwortung und Archiv.

4. Ist die neue Architektur davor gefeit, das Schicksal der Vorgängerarchitektur zu teilen? Wie wird verhindert, dass die DDB in wenigen Jahren wieder an Performanzgrenzen stößt?

Performanzprobleme können durch unterschiedliche Faktoren ausgelöst werden. Neben der schieren Menge der in der DDB gespeicherten Daten haben auch Funktionen, die in den Jahren seit dem Beta-Launch der DDB 2012 neu eingeführt worden sind, Einfluss auf die Geschwindigkeit bestimmter datenverarbeitender Prozesse. 

Beispielsweise haben wir 2013 den Suchraum der DDB um Personen erweitert. Personen, die in den Metadaten eines Kulturobjekts mit einem eindeutigen Identifikator verknüpft werden, haben eine eigene Personenseite im Portal der DDB erhalten. Für den Aufbau dieser Personenseiten müssen in regelmäßigen Abständen automatisch alle Kulturobjekte auf Personenidentifikatoren geprüft werden. 

In der Vorgängerarchitektur hatten wir nur einen Suchindex, um eine solche Liste aller Kulturobjekte zu bilden – für derartige Aufgaben ist ein Suchindex aber nicht wirklich gut geeignet. In der neuen Architektur werden solche Operationen auf einer Datenbanktabelle durchgeführt, wodurch sich die dafür benötigte Zeit von zwei Wochen auf zwei Stunden verkürzt hat. 

Andererseits ist die Größe der für diesen Zweck verwendeten Datenbanktabelle um einen Faktor 1000 kleiner als vergleichbare Tabellen, die bei Netflix oder Facebook eingesetzt werden. Nach oben bleibt also auf absehbare Zeit ausreichend Luft und die neue Architektur kann entsprechend mitwachsen.

Dafür müssen dem Herzstück der neuen Architektur, dem so genannten Prozessierungscluster, lediglich neue Computer einer mittleren oder unteren Leistungsklasse hinzugefügt werden. Durch dieses „horizontale“ Skalieren lässt sich im Gegensatz zum „vertikalen“ Skalieren, bei dem die Leistungsfähigkeit der einzelnen Computer so lange gesteigert wird, bis die technischen Grenzen dafür erreicht sind, das Performanzproblem in ein Finanzierungsproblem verwandeln: So lange man sich neue Computer zur Erweiterung des Prozessierungsclusters leisten kann, sind dem Wachstum praktisch keine Grenzen gesetzt.

5. Neue Nutzungsszenarien bringen üblicherweise neue, anders gelagerte Anforderungen mit sich. Welche wären das und wie ist die neue Architektur dafür gerüstet?

Sowohl auf der Einspielungsseite als auch auf der Ausspielungsseite der DDB – also den Portalangeboten und dem API – wird sich in den kommenden Jahren viel verändern.

Ein Schwerpunkt wird die Analyse von Daten zu den unterschiedlichsten Zwecken sein. Ein wichtiger Analysezweck ist beispielsweise das Untersuchen und Verbessern der Metadatenqualität in der DDB. Hiervon können im Übrigen auch unsere Datenpartner profitieren, die vielleicht selber keine eigenen Kapazitäten dafür haben. Die Untersuchungsergebnisse werden u. a. in die Verbesserung der Reihenfolge der Suchtreffer eingehen; dafür ist bereits eine sogenannte Ranking-App prototypisch entwickelt worden. 

Die DDB wird künftig immer mehr Daten aus immer mehr verschiedenen externen wie internen Quellen verarbeiten und speichern. Damit rückt das Datenmanagement als eine wichtige Aufgabe stärker in den Fokus der DDB. Die Flexibilität der jetzt modularisierten Apps, verbunden mit den Möglichkeiten der der neuen Architektur zugrundeliegenden Speichertechnologien, ist hierfür eine wichtige Voraussetzung.

Auf der Ausspielungsseite werden neben dem DDB-Portal und dem Archivportal-D weitere Schwester- oder Subportale für bestimmte Inhalte oder Zielgruppen entstehen, beginnend mit dem nationalen Zeitungsportal. 

Die DDB wird sich darüber hinaus stärker mit Datenplattformen aus anderen Domänen koppeln, z.B. im Rahmen bestehender Kooperationen mit Anbietern für Schul-Clouds und universitäre Lehr- und Lernplattformen. Ein wichtiger Aspekt dieser Koppelungen ist der Rückfluss von Nutzungs- und nutzergenerierten Daten, z.B. die automatische Verschlagwortung oder Klassifikation durch Verwendung von Kulturobjekten in Unterrichtsmaterialien zu einem bestimmten Thema, in die DDB. Für das Speichern und Analysieren derartiger Daten schafft die neue Architektur die notwendigen Voraussetzungen.

6. Ist die Umstellung auf das neue System vollkommen reibungslos verlaufen?

Das neue System läuft seit Ende Mai stabil. Es erfüllt funktional und betrieblich unsere Erwartungen. Wir haben das neue System zunächst in einem parallelen Preview-Betrieb laufen lassen – auch um noch die Möglichkeit zu haben, Fehler und Probleme zu erkennen und zu beheben.

Inzwischen ist die Umschaltung erfolgt – das heißt unter der bekannten URL erreicht man jetzt das frisch renovierte DDB-System.

Wer darüber hinaus Fehler entdeckt, kann uns diese gerne mitteilen: service [at] deutsche-digitale-bibliothek.de

7. Materialien und Downloads 

Weitere Materialien und Screenshots stellen wir außerdem auf unserer Materialseite für Sie bereit. 

Pressemitteilung 17.07.2018: Performanz, Geschwindigkeit, neue Nutzungsszenarien – Modernisierung der Gesamtarchitektur sichert Zukunftsfähigkeit der DDB
[PDF] [Textversion

Eine neue Architektur für die DDB: 6 Fragen und ihre Antworten [PDF]
 

Presseanfragen bitte an Astrid B. Müller (Kommunikation, Presse, Marketing Deutsche Digitale Bibliothek): a.mueller [at] hv.spk-berlin.de