Data Lineage mit Ab Initio
Daten in großen Unternehmen sind zugleich Segen und Fluch. Einerseits sind sie Grundlage für jegliche unternehmerische Entscheidung, andererseits sind sie schwer im Zaum zu halten. Je größer die Organisation, desto größer oftmals die Herausforderung diese Daten auch strukturiert abzulegen, zu verwalten, zu schützen oder aber „verfügbar“ zu machen, um sie auswerten zu können. Nicht umsonst haben Themen wie Datenintegration und Data Governance seit Jahren einen enormen Stellenwert für den Unternehmenserfolg.
Eine weitere Dimension haben diese Herausforderungen aber in der öffentlichen Verwaltung, wo jeder von uns auch als Bürger ein Betroffener ist, denn anhand dieser Daten werden gegebenenfalls auch politische Entscheidungen getroffen, die unser aller Leben beeinflussen. Umso wichtiger ist es, den Datenbestand entsprechend aktuell und verlässlich zu halten. Das diese Aufgabenstellung angesichts steigender Datenmengen, zunehmender Datengeschwindigkeit und vor allem über viele Jahre gewachsene IT-Systeme hinweg eine Herausforderung ist, ist leicht nachvollziehbar. Anhand eines aktuellen DWH Modernisierungsprojektes des AMS möchten wir aber zeigen, wie sich auch große Organisationen einer solchen Aufgabe stellen können.
Nach mehr als 20 Jahren DWH-Entwicklung im AMS und einigen Versuchen (Konzepte, POC) eines Neuaufbaus der BI-Landschaft hat das AMS ab Ende 2020 gemeinsam mit msg-Plaut unter der Leitung von Dr. Gerhard Friedrich systematisch alle Vorgangsmöglichkeiten für eine Modernisierung geprüft (z.B. Neuaufbau auf der "grünen Wiese", Betreiberwechsel, usw.) - mit dem Ergebnis, dass fachlich und budgetär eine "Modernisierung von innen heraus" am sinnvollsten ist.
In Zusammenarbeit mit den Anwender_innen zeigte sich der größte Verbesserungsbedarf in der Dokumentation (inkl. Data Lineage) und bei den technologischen Einschränkungen bei OLAP-Würfeln, sprich notwendige "Würfelteilungen" auf Grund der 32-Bit - Technologie der im AMS eingesetzten Cognos-Software.
DWH Ist-Stand im AMS (und BMAW) bedeutet Schwerpunktsetzung auf Auswertungen mittels Cognos - OLAP-Würfeln (800 werden regelmäßig aktualisiert, 300 sind SLA-relevant), wobei "Power-User_innen" auch auf die dahinterliegenden Oracle-DB zugreifen können (via Cognos-Tools oder direkt mittels SQL; sowie auch mit SPSS, R/R-Studio, und auch mit SAS). Dabei ist das AMS (gemeinsam mit dem BMAW) für die fachliche Weiterentwicklung zuständig, für die technische Umsetzung und den Betrieb des Data Warehouses seit 2012 jedoch IBM (gemeinsam mit Kyndryl, sowie weiteren Sub-Unternehmen wie Scheer-IT und ATOS); für die DWH-Modernisierung werden zur Unterstützung die Dienstleistungen von Ab Initio und Data Insights hinzugezogen.
Die Dokumentation über das AMS-DWH erfolgte bisher in Form vieler einzelner, manuell gewarteter Dokumente. Diese ist damit eher uneinheitlich - auch in Bezug auf den Detailgrad der Informationen - und unterschiedlich gut gewartet (mit unterschiedlichen Verantwortlichkeiten, teil AG, teils AN). Daher gibt es mitunter auch teilweise widersprüchliche Informationen in unterschiedlichen Dokumenten, manchmal auch „Parallelentwicklungen.“
Geplant und teilweise umgesetzt ist nun eine Überführung der DWH-Benutzerdokumentation in zwei neue Tools – Confluence und Ab Initio MetadataHub.
Confluence-Seiten sollen einen Überblick geben und die Zusammenhänge verdeutlichen. Im Ab Initio - MetadataHub soll es einerseits fachliche Beschreibungen der einzelnen „Objekte“ (Cognos-Würfel bzw. -Reports und ihre Dimensionen bzw. Kennzahlen) geben und andererseits soll die gesamte Datenaufbereitung in Form einer technischen Lineage von der Quelle (z.B. in den AMS-Fachapplikationen) zum Ziel (v.a. Cognos-Würfel bzw. -Reports) dargestellt werden. Da der typische Anwendungsfall allerdings der ist, dass AMS-User_innen von der Auswertung heraus (Würfel) der Information bis zur Quelle folgen sprechen wir im AMS von „target2source-Lineage“.
Im Zuge der Datenaufbereitungen und –berichterstellungen sind eine Reihe verschiedener Technologien im Einsatz (v.a. Oracle, SAS, Shell-Scripts, Cognos Framework-Manager, Cognos Transformer, Cognos Report-Studio). Der Aufbau der technischen Lineage ist daher durchaus komplex. Insgesamt kommen 10 verschiedene Extraktoren zur Anwendung – einige davon (Metadaten der GEN-Kernapplikationen via XML, Shell-Scripts, CTL-Files) wurden speziell für den AMS-Bedarf von Ab Initio gebaut.
In unserem seit mehr als 20 Jahren gewachsenen System war/ist eine der größten Herausforderungen aus der Vielzahl der Objekte jene zu identifizieren, die aktuell produktiv im Einsatz und für die Lineage relevant sind.
Daraus ergibt sich folgendes Mengengerüst der zu importierenden Objekte:
· >8.500 Oracle-Tabellen/Views im DWH + >3.500 Oracle-Tabellen/Views der Kernapplikation
· >4.300 Oracle-Synonyme
· >1.400 Oracle-Prozeduren/Funktionen
· >2.000 SAS-Programme
· >1.500 Shell-Scripts
· >1.100 CTL-Files
· >300 Framework-Manager-Modelle
· >300 Transformer-Modelle
· >500 Cognos-Reports + Tausende von den AMS User_innen selbst erstellte Cognos-Reports
Was erwarten sich AMS und BMAW von der Data Lineage? – Für die Anwender_innen aus den Fachbereichen geht es ganz klar um Transparenz; also um die Beantwortung von Fragen wie „woher kommen die Daten?“ und „wie wurden diese transformiert?“ Dieses „woher“ etwa ist bei rund einem dutzend AMS-Fachapplikationen („operativen Systemen“ zur Administration) oft die zentrale Frage, die Art der Transformation aber nicht minder, wenn man bedenkt, dass AMS-Daten mit „externen Informationen“ aus rund einem halben Dutzend Quellen verknüpft werden (beispielsweise Daten des HV, der WKÖ, des BMI, usw. – Selbstverständlich immer unter Beachtung der DSGVO).
Für die IT-Leitung des AMS steht der einheitliche Zugang zur Dokumentation im Vordergrund, um Parallelentwicklungen verhindern und Obsoletes „ausmustern“ zu können, die Zeitersparnis beim Auffinden relevanter Informationen – z.B. auch für Analysen technischer oder fachlicher Natur, inkludierend involvierte Forschungsfragen oder die Erarbeitung neuer Konzepte (welche oft extern an Forschungsinstitute vergeben werden). Und natürlich bei Neuentwicklungen oder Änderungen die sog. „impact analysis“ – wo bewirken angedachte Änderungen was in der Datenlandschaft?
Wie sind wir im AMS zum Einsatz von Ab Initio gekommen? – Zu Beginn der DWH-Modernisierunsplanung skeptisch auf Grund vorangegangener Erfahrungen mit „Data Lineage-Tools“ wurden ca. 15 Key-Playern der Fachabteilungen von AMS und BMAW die Möglichkeiten von Ab Initio einen halben Tag lang vorgestellt. Hauptsächlich (!) wegen der sehr positiven (bis „euphorischen“) Rückmeldungen wurde ein POC durchgeführt (sehr gründlich, auf einem abgegrenzten, aber größeren und nicht zu simplen Datenkomplex des AMS-DWH), und erst als auch die (positiven) Erfahrungen der Entwickler_innen und das konkrete, brauchbare Ergebnis vorlagen, entschied das AMS sich für den vollen Einsatz von Ab Initio.
Die bisherigen Ergebnisse bestätigen voll unsere (AMS) Erwartungen.
Weiteren Input zu diesem spannenden Thema gibt es auf unserer Branchenkonferenz Behörden am 08.09.2022 in Wien!
Kostenlose Anmeldung und Infos zu weiteren Themen finden Sie auf unserer Eventpage.
Wir freuen uns auf Sie!