Research: Cloud Data Warehouse

Seit kurzem scheint das Thema „Cloud Data Warehouse“ (CDW) im Trend zu sein. Zumindest Forrester hat für Q4/2018 eine eigene Forrester Wave herausgegeben genau zu dem Thema. Darin wurden 14 Anbieter untersucht.

Forrester definiert das Cloud Data Warehouse wie folgt (frei übersetzt):

Ein sicheres, skalierbares On-Demand Self-Service Data Warehouse, welches die Datenbeschaffung, Administration, Tuning, Backup und Recovery automatisiert um Analytics und wertvolle Erkenntnisse bei gleichzeitiger Minimierung der administrativen Anforderungen zu liefern.

– The Forrester Wave™: Cloud Data Warehouse, Q4 2018

Nachdem GA für SAP Data Warehouse Cloud erst für Q4/2019 angekündigt ist, sind andere Anbieter hier schon deutlich länger auf dem Markt, z. B.:

  • Google Big Query (11/2011)
  • Amazon Redshift (10/2012)
  • Snowflake Computing (06/2015)
  • Microsoft Azure SQL Data Warehouse (07/2016)
  • Oracle – Autonomous Data Warehouse Cloud (03/2018)

In sofern ist SAP in The Forrester Wave auch nicht vertreten bzw. hat offensichtlich den Kriterien der Untersuchung nicht genügt.

Im Magic Quadrant von Gartner (01/2019 – Gartner Magic Quadrant for Data Management Solutions for Analytics) findet SAP noch seinen Platz und auch der Cloud-Trend bleibt nicht unbemerkt. Eine Abgrenzung wird von Gartner hier jedoch noch nicht vorgenommen. Somit wird BW/4HANA, HANA selbst (welche jedoch als in der Cloud verfügbar wahrgenommen wurden) sowie der SAP Cloud Platform-basierte Big Data Service analysiert. Trotz Kritikpunkten bei Themen wie der Elastizität wird beispielsweise die Multi-Cloud Strategie positiv hervorgehoben und SAP ist bei Gartner im Leader-Quadranten vor Anbietern wie Snowflake, IBM und Google zu finden.

Bei Forrester sind die Leader ganz klar Amazon Web Services (AWS), Snowflake, Google und auch noch Oracle.

2017 hat BARC im ihrer Reseach Study „BI and Data Management in the Cloud: Issues and Trends“ folgende Feststellung gemacht (frei übersetzt):

Unternehmen betreiben eher BI (Frontend)-Anwendungen in der Cloud als Data Warehouses, Data Marts oder Datenintegration.

Data Management-Lösungen benötigen IaaS und PaaS sowie die Prüfung von Datenschutz, Datensicherheit und unternehmenspolitischer Aspekte.

In der BARC Research Study „Datenmanagement im Wandel“ von 2014 zeigt sich ein noch viel nüchterneres Bild:

  • Bei der Frage, was sich aktuell konkret verändert, antworteten nur 6% mit „Rückgriff auf cloud-basierte Data Warehouse“
  • Die Frage nach dem Umgang mit Self-Service BI beantworteten gerade mal 2% mit „Auslagerung in die Cloud“
  • Im Vergleich zu anderen Ansätzen war die Lösung „Cloud-basierte Data Warehouse-Lösungen“ zur einfacheren Umsetzung von DWH-Anforderungen weit abgeschlagen. Wichtiger waren „In-Memory Datenbanksysteme“, „Automatisiertes DWH“, uvam.

Im Whitepaper „Cloud Data Warehouse Trends for 2019“ wird nun jedoch die Frage aufgeworfen, ob das CDW gar der Schlüssel zur Digitalen Transformation ist. Die Antwort folgt schnell. Das CDW wird als wichtiger erster Schritt zum datengetriebenen Unternehmen gesehen.

Lt. Whitepaper sind die Top-Gründe für das CDW:

  • Flexibles Kostenmodell
  • Vorteil der Nutzung von Cloud-Features
  • Bessere Performance

Typische Anwendungsfälle sind:

  • Kundenanalysen für das Marketing
  • Finanzanalysen
  • Vertriebsunterstützung
  • Anbindung an einen Data Lake für Analytics
  • Kundenserviceanalysen
  • IT-Analytics

Die größten Herausforderungen dabei sind:

  • Data Governance
  • Integration von Daten aus unterschiedlichen Quellen
  • Daten in das Data Warehouse zu bekommen
  • Einfacher Datenzugriff für den Anwender
  • Kosten

Nun gut, es zeigt sich, dass Thema Cloud Data Warehouse ist nicht neu. Der Self-Service Trend hat jedoch das Angebot sicherlich verändert. So positioniert SAP sein angekündigtes SAP Data Warehouse Cloud mit der Zielgruppe Business Analyst, wie auch schon SAP Analytics Cloud.

Persönlich denke ich, als BI-Berater wird man deshalb nicht arbeitslos. Aber Aufgaben werden sich verändern. Die Fachbereiche werden mündiger und können einen immer größeren Bereich selbst abdecken. Das ist gut, weil es die faktenbasierte Entscheidungsfähigkeit bei richtiger Strategie stärkt. Denn eines ist klar. Excel ist und bleibt das beliebteste Tool für BI und ist dank Office 365 auch in der Cloud verfügbar mit Power Pivot und Power BI als Verstärkung. Ob das gut ist, ist eine ganz andere Frage.

Die Herausforderungen sind immer neue Datenquellen, gerade wegen der Cloud. Die Harmonisierung und semantisch saubere Integration der Daten überfordert Fachbereiche oder führt dort zur Spezialistenbildung. Die zunehmende Dynamik im Internet wie auch die zunehmende Agilität in Unternehmen erfordert eine schnelle BI-Adaption und Konzept-Know-How im Umgang mit historischen Daten. Daten sind nicht mehr nur strukturiert, sondern das, was bisher Big Data und NoSQL geleistet hat, wird zunehmend integriert und erhöht die Anforderungen. Basistechnologien wie SAP HANA liefern heute Funktionalitäten wie Text, Spatial, Predictive Analytics oder Graph-Verarbeitung, um höheren Nutzen aus den Daten zu ziehen. Die Komplexität der nutzbaren Methoden nimmt damit immer weiter zu. Die Vielfalt verfügbarer Komponenten und neuer oder unterschiedlicher Schnittstellen ebenso. Die Anforderung an die Datenqualität werden deutlich steigen und eine ganzheitliche Sicht auf das Unternehmen rückt eher in die Ferne als Realität zu werden.

Für Unternehmen mit einfachen operativen Systemen und überschaubaren Anforderungen an Reporting und Datenanalysen werden es also leicht haben, jedoch auch nur geringen Nutzen aus einer zunehmen Digitalisierung ziehen. Für alle anderen ist Self Service und zunehmende Data Literacy eine Notwendigkeit um irgendwie noch mithalten zu können, da die IT-Fachkräfte nicht schnell genug vom Baum wachsen werden.

SAP Data Warehouse Cloud

Wie in meinem Blog „SAP und das Data Warehouse“ gezeigt, ist ein neuer Spieler am Markt. SAP Data Warehouse Cloud (DWC) ist aktuell (06/2019) noch nicht öffentlich verfügbar, geht aber bald in die Beta-Phase.

Ich möchte die Seite dazu nutzen, den aktuellen Stand, was hier kommen wird, zu sammeln und aufzubereiten.

Lesenswert für einen ersten Überblick ist sicherlich auch der Webcast Recap-Blogs (1/2) von Tammy Powlas.

SAP DWC ist Teil des HANA Cloud Services. Diese bestehen aktuell aus folgende Services:

DWC_1

SAP DWC wird also als Service auf Basis der SAP HANA Cloud Services zur Verfügung gestellt. Damit sind voraussichtlich auch HANA-Fähigkeiten wie die Analytics-Komponenten dort verfügbar.

Eine Frage, die sich bei sowas immer gerne stellt ist, ob das das neue SAP BW bzw. BW/4HANA in der Cloud ist. Die zugehörige FAQ macht dazu folgende Aussage:

„SAP Data Warehouse Cloud is our new approach for agile and enterprise data warehousing in the cloud. It will not replace the SAP BW (on premise), but it will provide a new modern approach for data warehouse in the cloud. Of course, we will support scenarios where customers can use the SAP Data Warehouse Cloud to extend and sometimes migrate existing SAP Business Warehouse scenarios. SAP HANA Cloud Services is not a Data Warehouse, but the underlying cloud-service.“

Ähnlich wie bei SAP Analytics Cloud scheint die Positionierung aktuell für den Business User zu sein und nur bedingt für die IT-Abteilung.

Was ich mich gefragt habe, ist dies das in 2018 propagierte „Project Blueberry“? In 2018 wurde noch klar eine gemeinsame Code-line auf Basis BW/4HANA 2.0 kommuniziert:

DWC_8
Quelle: SAP, 2018 (What’s New with BW/4HANA 1.0, SP08)

Mit der Freigabe Ende Februar 2019 war dann aber plötzlich nicht mehr viel von Project Blueberry zu hören. Eine indirekte Aussage von der SAP gab es dazu, in dem DWC als Cloud-native Entwicklung bezeichnet wurde, was aus meiner Sicht oben dargestellte „single code-line“ ausschließt. Eine ganz klare Aussage habe ich leider noch nicht gehört, allerdings sprechen bspw. die Kommentare hier doch dafür, dass Projekt Blueberry in diesem ursprünglichen Sinne tot ist.

Den besten bisherigen Einblick in DWC gab es aus meiner Sicht bei der Live-Demo zur letzten SAPPHIRE Now.

Ebenfalls wurde von Axel Meier ein LOB use case gezeigt, der bereits einiges an Informationen liefert und auch die Bulding Blocks des DWC zeigt:

DWC_3
Quelle: Axel Meier, SAP 2019

Ende Juli/Anfang August wird es eine Beta Experience geben, bei dem ein erster Zugriff auf ein System möglich sein wird. Aktuell laufen hier bereits die Vorbereitungen über Sessions mit der SAP.

Das Data Warehouse Cloud bietet auf Basis des HANA Cloud Service folgende aufbauenden Services:

  • Repository
    • Semantic Layer
      • Consumption Model
      • KPI
      • Fact
      • Dimension
      • Hierarchy
    • Data Layer
      • Virtual/Local Tables
      • Views
      • Data Store Object
      • Dataflows
      • Connections
  • Modeling
    • Graphical Data Modeling
    • SQL Editor
    • Reusable Semantics
  • Data Warehousing
  • Governance
    • Spaces – Konzept
      • Object isolation
      • Data model definition
      • Data access control
      • Assign connections
      • Resources isolation
      • Elasticity & Self-scaling
      • Pay-per-use
      • Monitoring
    • Business Catalog
      • Trusted Source
      • Intuitive Searche Function
      • Documentation
      • Data Lineage
      • Versioning and artifacts comparison

 

Meine Eindrücke bisher:

DWC_2
Tweet Link

Warum?

  • BW Workspaces: Das Konzept der „Spaces“ ist grundsätzlich in der SAP Cloud Platform verfügbar. Wie ich gesehen habe, soll eine verbindung zu zentralen Daten möglich sein, wie dies im SAP BW on HANA/BWA bzw. BW/4HANA mit BW Workspaces bereits möglich war. BW Workspaces will die SAP zwar wohl zu Gunsten von SAP Analytics Cloud aufgeben, allerdings scheint das Konzept im DWC doch nochmal einen Heimat gefunden zu haben.

    DWC_7.PNG
    Quelle: Youtube, SAP 2019
  • BW Analysis Process Designer: Das war eher eine Fehlannahme, da die Modellierung so flow-like ausgesehen hat. Eigentlich ist das aber eher eine Business-like Modellierung virtueller Datenmodelle:
    DWC_4.PNG
    Quelle: Youtube, SAP 2019
  • Smart Data Access: Wie die Übersicht der Building Blocks oben zeigt, sind „Virtual Table for federated data access“ einer dieser Bausteine.
  • SCP Open Connectors: Selten habe ich bei der SAP bisher in der Cloud eine solche Vielzahl an Konnektoren gesehen:
    DWC_5
    Link: SAP Open Connectors

    Und ebenso eine Auswahl findet sich nun auch hier:

    DWC_6
    Quelle: Youtube, SAP 2019
  • BO Universes: Der Ansatz eines semantischen Layers ist ja nicht neu und SAP hat diesen seit der Übernahme von BusinessObjects im Portfolio. Das Konzept scheint auch hier Eingang gefunden zu haben. Wie es sich heute so gehört, wohl mit Machine Learning-Unterstützung.

 

Zu SAP Analytics Cloud ist noch zu sagen, dass es den Anschein einer integrierten Funktion macht, wobei nach dem was ich gelesen habe auch andere BI-Werkzeuge auf die Daten zugreifen können werden.

Auch erwähnenswert ist, dass an Templates und einer Art Business Content gebaut wird, um den Start zu erleichtern.

Nun, noch ist DWC wie geschrieben noch nicht einmal verfügbar. Bis zur GA im Herbst 2019 wird es sicherlich noch einige Informationen geben.

 

SAP und das Data Warehouse

Vergleiche auch folgende Einträge zur Entwicklung des Themas Data Warehouse bei SAP:

SAP’s Wege zum Data Warehouse

SAP Logical Data Warehouse

SAP & Data Warehouse vs. Data Lake

Das SAP HANA Data Warehouse

SAP hat mittlerweile eine lange Historie im Bereich Data Warehouse. Über die Zeit sieht man auch den technologischen Wandel abgebildet.

Mit dem SAP Data Warehouse Cloud, welches vor kurzem auf der SAPPHIRE NOW als Teil des SAP HANA Cloud Services-Angebots vorgestellt wurde, wird Ende des Jahres ein weiteres, rein Cloud-basiertes Angebot auf den Markt kommen.

SAP DWH

SAP ist schon seit über 20 Jahren mit einer eigenständigen Data Warehouse-Lösung auf dem Markt. SAP BW wurde 1997 gelaunched um die bisherigen Ansätze wie Logistikinformationssysteme (LIS) oder Vertriebsinformationssysteme (VIS) im ERP zu entlasten. Im SAP ERP sind diese beispielsweise heute immer noch im Customizing unter dem Menüpunkt „Logistik Data Warehouse“ zu finden. Auch in der SAP ERP Ergebnisrechnung findet man beispielsweise mit CO-PA (Profitability Accounting) immernoch verdichtete Strukturen um größere Datenmengen auswertbar zu machen.

2011 hat man das Release 7.3 des SAP BW auf HANA (on HANA) gehoben. Bis zum letzten Release 7.5, welches voraussichtlich 2024 auslaufen wird, hat SAP die „powered by HANA“ und die „on Any DB“-Variante parallel an.

Im September 2016 wurde das BW/4HANA gelaunched. Ebenso wie bei S/4HANA hat man hier versucht, alte Zöpfe abzuschneiden. Das bisherige SAP BW wurde abgesagt und BW/4HANA als logischer Nachfolger präsentiert, welcher voll auf die Möglichkeiten einer In-Memory Datenbank setzt und bisherige Ansätze nicht mehr unterstützt.

Im Vergleich zu den bisherigen Ansätzen ist SAP BW ein Data Warehouse, welches als Anwendung auf einer Auswahl verschiedener Datenbanken lief und damit die Handhabung der Datenbank abstrahierte.

Einen Nebenstrang, der von der SAP wenig direkt propagiert wird, ist Sybase IQ, heute SAP IQ. Die von Sybase 2010 übernommene Datenbank ist spaltenbasiert (column-based) und ermöglicht die Handhabung sehr großer Datenmengen im Petabyte-Bereich.

Im Kontext SAP BW kann SAP IQ als Nearline-Storage verwendet werden.

Mit SAP HANA Data Warehouse Foundation (DWF) hat SAP ca. 2015 eine HANA-basierte Lösung auf den Markt gebracht dort über die klassischen Datenbankmittel der HANA hinaus die Handhabung großer Datenmengen für Analysezwecke zu verbessern.

Wie es aussieht ist dieser Ansatz mit der Zeit um neue Funktionen wie das Native DSO erweitert worden und stellt heute einen zentralen Bestandteil des SAP SQL Data Warehousing-Ansatzes dar.

Der auf HANA basierende SQL Data Warehousing-Ansatz wurde 2017 zur SAP TechED vorgestellt.

Bereits 2018 wurde unter dem Namen Projekt „Blueberry“ ein rein Cloud-basierter Ansatz auf Basis der BW/4HANA Codeline vorgestellt, der in 2019 kommen sollte. Das nun unter „Data Warehouse Cloud“ vorgestellte Angebot wird eine enge Integration mit SAP Analytics Cloud geben. Ebenfalls neuere Technologien wie Data Hub sollen hier eine enge Integration finden.

Man kann denke ich sagen, Data Warehouse mit SAP hat starke Wurzeln. Die Zukunft heißt Cloud/Hybrid und In-Memory und hat erst begonnen. Warten wir ab, wie es weiter geht.

Neue SAP Analytics Technologien und der Einfluss in das Beraterleben

Gestern habe ich folgenden Blog von Felipe de Mello Rodrigues gelesen:

Blog1

Diesen kann ich sehr gut nachfühlen. Jedoch hat mich nun der Impuls gepackt, diesen für SAP Analytics nochmal spezifischer nachzuvollziehen.

Beispielhaft kann man sich, wenn man als Partner Zugiff hat unter SAP PartnerEdge mal anschauen, was die SAP alles unter SAP Analytics Solutions einordnet:

Partner1
Quelle: SAP PartnerEdge

Das ist natürlich schon ein ganz schönes Spektrum. Als Berater muss man letztendlich sagen, man muss hier ja nicht alles können.

Ich will aber auch mal beispielhaft an Hand von typischen Re-Tweets auf meinem Twitter-Account zeigen, was sich bei den Themen so tut.

Gestern gab es ein Webinar zum Thema SAP Leonardo Machine Learning:

Tweet1
Quelle: SAP, 2019 (PDF)

Eigentlich gleich schon ein Themenfeld für sich, welches verschiedenen SAP-Technologien zusammenfasst oder zumindest berührt:

SAPLeoML
Quelle: SAP, 2018 (PDF)

Daneben hat man als ambitionierter Data Scientist natürlich auch Python und R drauf und nutzt diese im SAP-Kontext:

Tweet10
Tweet-Link

Ein Thema, welches ebenfalls im Zusammenhang mit Machine Learning seit einiger Zeit gesehen wird ist Robotic Process Automation:

Tweet2
Tweet-Link

Ebenfalls dazu kann man das Thema Conversational AI zählen, welches durch die Übernahme von Recast.AI Anfang 2018 seither an Schwung gewonnen hat:

Tweet7
Tweet-Link

Ein eher klassisches Thema ist, ob das BW eigentlich schon tot ist, weil S/4HANA Embedded Analytics hier die Themen übernehmen wird:

Tweet3
Tweet-Link

Ich denke, wie im Artikel auch vermerkt, wurde diese Frage schon ausführlich diskutiert. Die SAP sieht mit BW/4HANA dies als ausreichend beantwortet und auch die DSAG hat sich bereits 2015 klar positioniert.

Trotzdem darf man sich hier gerne mit der neuen Datengrundlage für Analytics auseinandersetzen – ABAP Core Data Services:

Tweet18
Tweet-Link

Im klassischen BW-Umfeld war das Release 2.0 von BW/4HANA ende Februar ein wichtiger weiterer Meilenstein:

Tweet16
Tweet-Link

Für Berater und Mitarbeiter im BW-Umfeld bedeutet das aber auch sich nicht mehr nur mit einer Datenbankmigration nach HANA auseinanderzusetzen oder sich Veränderungen bei einem Upgrade anzuschauen. Auf der Agenda steht nun in den nächsten Monaten und Jahren das Thema Conversion:

Tweet23
Tweet-Link

Bei vielen klassischen SAP BI-Beratern müsste das Thema SAP Analytics Cloud mittlerweile angekommen sein. Optisch haben sich die Update-Zyklen verlangsamt:

Tweet4
Tweet-Link

Allerdings zeigen die Releasestände, dass sich trotzdem ständig was tut und kontinuierlich Neuerungen geliefert werden. Aktuell Stand 08.2019 welcher nicht nur kleine Verbesserungen sondern z. B. die neue Anwendung Application Design, welche nach längerer Testphase nun für alle freigeschaltet wurde:

SAC1

Nicht das einem mit 2-wöchentlichen Updates noch langweilig wird 😉

Das Thema geht noch weiter. So ist über PAi – Predictive Analytics integrator das Veröffentlichen von in SAP Analytics Cloud Smart Predict erstellten Modellen in S/4HANA möglich:

Tweet6
Tweet-Link

Neben den verschiedenen Tools in SAP Analytics Cloud ist die Verwendung neuer Visualisierungen relativ einfach. Jedoch darf man sich gleichzeitig u. U. auch mit neuen, nicht immer nur strukturierten Datenquellen wie z. B. JSON auseinandersetzen:

Tweet13
Tweet-Link

SAP Analytics Cloud wird auch sofort bei den neusten Übernahmen wie Qualtrics als Enabler und Brücke gefeiert:

Tweet22
Tweet-Link

Auch ist das Thema SAP Analytics Cloud für die Planer im SAP BI-Umfeld zunehmend relevant und wird stärker mit S/4HANA verknüft:

Tweet17.PNG
Tweet-Link

Wer sich noch erinnert, SAP Analytics Cloud hat ja eine längere Namenshistorie. Aber alles hat soweit ich das sehe mal mit C4P – Cloud for Planning begonnen. Daher spielt das Thema in SAC nach wie vor eine wichtige Rolle:

Tweet19
Tweet-Link

Als klassischer BW-Berater muss man sich mit BW on HANA und BW/4HANA zunehmend mit HANA selbst auseinandersetzen:

Tweet5
Tweet-Link

SQL und vom gleichen Autor auch ein Update zu SQLScript ist nur ein Themenkomplex innerhalb von HANA, der hier relevant und interessant ist.

Ein Einsatzgebiet für SQL ist im Rahmen der HANA Modellierung mit Table Functions:

Tweet15
Tweet-Link

Beim Arbeiten rund um HANA und der Integration von Daten spielt dort SDI – Smart Data Integration eine zentrale Rolle:

Tweet11
Tweet-Link

SAP Data Hub ist ein riesen Thema im Big Data-Umfeld, welches wir uns aktuell z. B. auch für IoT-Themen anschauen:

Tweet8
Tweet-Link

Der SAP Data Hub ermöglicht die Erstellung und Verwaltung von Data Pipelines und bietet auch die Integration von SAP BW. Der zuletzt gelaufende OpenSAP-Kurs dazu bietet hier einen ganz guten ersten Überblick und Einstieg:

Tweet9
Tweet-Link

Auch Thomas Zurek als VP of SAP BW/4HANA + HANA Data Warehouse sieht das Zusammenspiel von BW/4HANA und Data Hub als logischen Schritt zum Intelligent Data Warehouse:

Tweet20
Tweet-Link

Auch die klassischen On-Premise BI Frontendtools wie SAP Lumira, discovery edition spielen natürlich nach wie vor eine Rolle:

Tweet14
Tweet-Link

Und auch hier muss man auf kontinuierliche Neuerungen nicht verzichten:

Tweet21
Tweet-Link

Wenn man sich jetzt anschaut, dass die dargestellten Tweets hauptsächlich von April sind, dann zeigt sich schon eine Flut an Neuigkeiten in vielen Bereichen. Daher muss natürlich jeder für sich filtern, was relevant ist. Ob man schon auf BW on HANA ist oder noch nicht oder gar BW/4HANA in irgendeiner Art und Weise angeht. Ob man im Bereich Planung ist oder sich evtl. schon intensiver mit den Möglichkeiten im Bereich Machine Learning und Data Science beschäftigt. Ob Cloud überhaupt ein Thema ist oder man seine On-Premise-Strategie bewahrt. Ob man sich eher im Backend oder im Frontend bewegt.

Zum Abschluss meines Blogs möchte ich das von Felipe de Mello Rodrigues einleitend dargestellte Bild in seinem Blog wiedergeben:

Tweet24

SAP BW/4HANA Architekturtypen

Mit SAP BW/4HANA propagiert SAP auch verschiedene Architekturtypen, welche neue Möglichkeiten mit BW/4HANA im Vergleich zum klassischen SAP BW aufzeigen sollen. Weitgehend sind die Architekturtypen bereits für SAP BW on HANA realisierbar.

Vielleicht ist dies ein schlechter Zeitpunkt, über BW/4HANA 1.0-Architektur zu schreiben, wo sich doch BW/4HANA 2.0 aktuell ankündigt. Zum 25.02.2019 ist das neue Release angekündigt!

Nun gut, ein neues Produkt oder Major-Release von SAP ist natürlich immer das beste, tollste, schönste, schnellste, einfachste, …. wie von jedem anderen halt auch. Bisher etablierte Prinzipien verlieren selten ihre Gültigkeit.

Hier ein Überblick mit Kurzbeschreibung:

sEDW – Simplified EDW (Vereinfachtes Enterprise Data Warehouse)

Das vereinfachte EDW orientiert sich als Architekturtyp an der LSA++. Die Prinzipien und die technische Umsetzung werden bereits in der SAP Hilfe recht ausführlich beschrieben.

Dieser Architekturyp zeichnet sich durch folgende Eigenschaften aus:

  • Referenziert auf die LSA++
  • Geringe Agilität
  • Hoher konzeptioneller Aufwand (Big Design Upfront)
  • Projektmodus: Wasserfallmodell
  • Umsetzung vollständig durch die IT
  • Typischer Konvertierungspfad von BW on Any DB ist In-Place oder Remote-Konvertierung
  • Modellierungsart ist Top-Down

Im BW/4HANA zeichnet sich das sEDW durch optionales Staging aus. Durch Operational Data Provisioning (ODP) wird die PSA quasi ins Quellsystem verschoben. InfoCubes sind nicht mehr existent. Star Schemas werden virtuell durch CompositeProvider realisiert (Dynamic Star Schema).

InfoObjects werden nach wie vor und typischerweise auch noch aus der Historie heraus eingesetzt.

 

fEDW – Flexible EDW (Flexibles Enterprise Data Warehouse)

Das fEDW ergänzt das sEDW um neue Möglichkeiten:

  • OpenODS-Layer/Raw DWH (feldbasiert)
  • Replication Layer (SLT/SDI)
  • Remote Integration (SDA)
  • Transformations (HANA Calculation Views)

Dieser Architekturyp zeichnet sich durch folgende Eigenschaften aus:

  • Referenziert auf die LSA++
  • Mittlere Agilität
  • Hoher konzeptioneller Aufwand (Big Design Upfront)
  • Projektmodus: Wasserfallmodell
  • Umsetzung vollständig durch die IT
  • Typischer Konvertierungspfad von BW on Any DB ist Remote- oder Shell-Konvertierung
  • Modellierungsart ist Top-Down und Bottom-Up möglich

Somit ist durch die Hinzunahme neuer Technischer Möglichkeiten eine höhere Agilität im bisherigen Data Warehouse möglich. Von einem klassischen SAP BW kommend, kann dies als nächster Evolutionsschritt gesehen werden, um Mehrwerte aus der Konvertierung zu generieren.

 

EDP – Enterprise Data Platform

Der Ansatz EDP wird auch als Data Warehouse on demand beschrieben und stellt den versuch dar, mit SAP-Mitteln eine Datenplattform für maximale Agilität aufzubauen. Dabei liegt der Schwerpunkt in der HANA Plattform.

Virtuelle Integration (Logical Data Warehouse) oder Real-time Replikation ist die bevorzugte Art, Daten bereitzustellen. Die Daten kommen im optimalen Fall aus einem Data Lake der in Kundenszenarien auch schon mal als Corporate Memory 2.0 benannt wird.

Dieser Architekturyp zeichnet sich durch folgende Eigenschaften aus:

  • Datenhaltung nach Bedarf
  • Sehr hohe Agilität
  • Nur der nötigste konzeptionelle Aufwand (Sufficient Design Upfront)
  • Projektmodus: evolutionär, inkrementell
  • Umsetzung business-getrieben
  • Typischerweise wird hier Greenfield gestartet, um sich frei zu machen, von evtl. vorhandenen Strukturen und Einschränkungen
  • Modellierungsart ist Bottom-Up (Self-Service, feldbasiert, schnelle Ergebnisse)

Dieser Ansatz steht genau im Gegensatz zu klassischen Enterprise Data Warehouse-Implementierungen. Der schnelle, kurzfristige Nutzen steht im Vordergrund, in der Hoffnung, mit einem agilen, leicht anpassbaren System mit der Zeit und wachsendem Reifegrad auch die notwendige Integration und Harmonisierung leisten zu können.

 

aDWH – Agile Data Warehouse (Agiles Data Warehouse)

Dem aDWH kann man sich von zwei Seiten nähern. Aus Sicht einer EDP kann es ein Stabilisierungsschritt sein, indem zur Historisierung, Versionierung und Qualitätssicherung eine persistente Schicht (OpenODS-Layer/Raw DWH) im BW/4HANA eingeführt wird.

Auch der Weg vom klassischen SAP BW schließt die Evolution in diese Richtung nicht aus.

Dieser Architekturyp zeichnet sich durch folgende Eigenschaften aus:

  • Referenziert noch auf die LSA++
  • Hohe Agilität
  • Nur der nötigste konzeptionelle Aufwand (Sufficient Design Upfront)
  • Projektmodus: evolutionär, inkrementell
  • Umsetzung business-getrieben
  • Vom klassischen SAP BW kommend empfiehlt sich die Shell-Konvertierung, um die notwendigen Vereinfachungen vor dem Datenaufbau vornehmen zu können. Greenfield kann hier jedoch ebenso die Option sein.
  • Modellierungsart ist Bottom-Up (Self-Service, feldbasiert, schnelle Ergebnisse)

 

Im Prinzip sind damit, je nach Ausgangsbasis verschiedene evolutionäre Entwicklungen beschrieben. Eine klare Abgrenzung der Architekturtypen ist eher schwierig und wird sich auch in Zukunft am Bedarf und sich verändernder Anforderungen orientieren.

Da SAP Data Hub, zunehmende cloudbasierte Datenquellen, sowie die eigene Bereitstellung als Cloud-Anwendung (Blueberry) sicherlich noch weiter starken Einfluss auf die aktuelle Entwicklung des BW/4HANA haben werden, dürfen wir uns auf weitere Möglichkeiten in der Zukunft freuen.

 

 

Is Business Intelligence a Data Science Role?

Vor etwa einem Jahr hat ein Teilnehmer in meines Coursera-Kurses „Big Data Specialication“ in einem der Foren die Titelfrage gestellt. Als ich vor etwa vier Monaten darauf gestoßen bin, habe ich neben anderen Teilnehmern versucht, die Frage zu beantworten.

Solche Abgrenzungen sind natürlich grundsätzlich schwierig. Im Beitrag zur Frage war sogar Business Intelligence und Business Analyst zusammen geschmissen. Grundsätzlich finde ich es auch immer interessant, wenn in einem Big Data oder Data Science-Buch Abgrenzungen sehe. I. d. R. finde ich diese immer etwas seltsam…

Ich hatte etwas Zeit damit verbracht, die Diskussionen zu lesen und darüber nachzudenken. Die Antwort von meiner Seite war dann auch recht umfangreich, weshalb ich gedacht habe, es könnte sich lohnen, diese hier wieder zu geben.

Meine Antwort:

Hi all!

Very interesting discussion. As a BI and DW specialist who is learning more about Data Science and Big Data, let me give my part to this discussion.

Where I‘m working and living (Germany), you can clearly differentiate between a Data Scientist and someone doing BI and DW. This is not primarily about tools. And from my point of view it is changing over time.

Data Scientists I know work with NoSQL, maybe Hadoop ecosystem and Spark and more and more in the cloud. Data comes from everywhere and can be structured or unstructured. Social Media, IoT, Business Data, … And they work with machine learning, statistics, also visualizations. E. g. deep learning with TensorFlow and Keras is very popular and Tableau for visualization and story telling. Some of them are very specialized on certain domains like IoT/time series or banking area (fraud detection, …).

So typical BI/DW-tools (DMBS, Viz-Tools) are also used by Data Scientists. What I would like to see as a Data Scientist is experience in working with math methods and machine learning and knowing specialiced tools like KNIME or know programming with R or Python.

CRISP-DM is a typical process and can be found in different variants. As a result Data Scientists found and explain interesting patterns in data and/or implement data driven solutions to optimize business or extend existing business models (or create new ones like Uber, Spotify, Google, Amazon, …)

But at the end I’m not a Data Scientists. So these are things I,ve learned, what maybe is missing to become on, if ever…

As a BI/DWH guy I follow the process ETL->DWH->BI. Typically with internal business data. My job is to extract, integrate and harmonize data from different sources like ERP systems or databases. We try to create an efficient, current (as needed) and integrated high quality base of data in a core data warehouse (a database) which delivers, based on business specification, transactional and master data.

In times before In-Memory databases, we modeled dimensional schemas delivering data very fast and flexible for queries, reports, dashboards, OLAP analysis or further applications like planning and data mining. For reports and dashboards definition of key performance indicators (KPIs) and a good understanding of the transactional process and master data is very often necessary and part of the project. At the end we deploy the report with BI clients, embedded, in a BI portal, mobile and so on.

While machine learning in DS is rather data driven, OLAP Analysis is hypothesis driven and manual work. At the end both can be done on a DW.

I think on a high level a lot of tasks are very similar. Gathering data. Load data on time or regularly to a kind of database. Integrate data (before doing analysis (BI/schema on write) or while doing analysis (DS/schema on read). Test the solution and deploy it. Maybe working on strategy, governance, operations, authorizations, optimization and so on.

For both there are a lot of tools, methods and approaches doing all this. In the last years I see on the one hand, that more and more classical BI vendors getting open for Data Science and Big Data approaches bringing both worlds together. On the other hand I see in both areas that these are not jobs just for one unicorn but for maybe two (like Data Engineer and Data Scientists) or a whole team. As it is in BI. Very often we have specialists for ETL/DW, for BI Clients or for Planning.

Hope this helps a little bit for future learners.

Maybe on last point. Data Science is much more of interest in these days 🙂 while BI/DW is still there since long time and in a broad range of businesses today. I’m looking forward to learn more and see what happens in the next years with these topics.

 

Im weiteren Verlauf gab es auch nochmal eine Antwort von einem Mentor mit folgender Meinung:

„In my view, the largest distinction between business intelligence and data science is that the former focuses on reporting what happened in the past, and the later focuses on predicting the future.“

Eine Aussage, welche ich immer wieder höre und etwas seltsam und im besten Fall etwas unzureichend dargestellt finde. Meine Antwort darauf:

I think no one in BI is building a report just to see what happened. This is an interesting discussion which came up very often. Machine Learning too is analyzing past data. Because you don’t have future data…

In BI you work with planning and forecasting (what could be based on predictive analytics or often not). You analyze past patterns and current trends in data to understand influences and changes to make future predictions and support decisions. You simulate and enhance this with expert knowledge like changed processes, planned promotions, new logistic technologies which can not predicted just maybe calculated or simulated.

In BI you also close the loop and bring analytical information back to ERP/OLTP or other operational Systems to support or automate decisions.

Difference between BI and DS is here maybe that in BI decisions and analysis is mostly done manually and hypothesis driven while DS implement solutions which learn by machine and data driven.

Master the Basics of Analytics

Wenn man sich mit einem Gebiet im Bereich Analytics beschäftigt oder vielleicht auch von einem bestimmten Anbieter oder Tool kommt, dann steht man evtl. irgendwann vor der Frage, woher das eigentlich alles kommt?

Manchmal ist es evtl. eine gute Idee mal ein Buch in die Hand zu nehmen, um von jemandem zu lesen, der sich als einer der Ersten mit dem Thema beschäftigt hat. Oder eben es als erster schaffte, dass auch auf Papier zu bringen.

 

Data Warehouse

Barry Devlin – Erste Definition des Begriffs (Business) Data Warehouse

Homepage | Twitter | Artikel „Business Data Warehouse“

William (Bill) Inmon – Vater des Data Warehouse

Twitter

Ralph Kimball – Vater der Dimensionalen Modellierung

Homepage

Dan Linstedt – Begründer von Data Vault

Homepage | Twitter

 

Business Intelligence

Hans-Peter Luhn – Vater der Business Intelligence

Artikel „A Business Intelligence System

Howard Dresner – Prägte „Business Intelligence“

Homepage | Twitter

Edward F. Codd – Prägte „On-Line Analytical Processing – OLAP“

Collected Work | Artikel „OLAP“

 

Information Design

Ben Shneiderman – Visual Information Seeking Mantra; Erfinder Tree Maps

Homepage | Twitter

Edward Tufte – Erfinder Sparklines; Prägte „Chart Junk“ und „Data-Ink-Ratio“

Homepage | Twitter | GitHub

Stephen Few – Leader in Datenvisualisierung; Erfinder des Bullet Graph

Homepage I | Homepage II

Rolf Hichert – Mitbegründer der SUCCESS-Rules und des IBCS

Homepage | Twitter | YouTube

 

Data Science

John W. Tukey – Begründer der explorative Datenanalyse

Biography | Report (1993, pdf)

Gregory Piatetsky-Shapiro – Prägte „Knowledge Discovery in Databases – KDD“

Homepage | Twitter

Andrew Ng – Mitgründer Google Brain-Projekt, Mitgründer Coursera

Homepage | Twitter

 

Big Data

Doug Cutting – Vater von Hadoop; Chefarchitekt Cloudera

| Blog | Twitter | Github

Matei Zaharia – Erfinder von Apache Spark; Miterfinder von Apache Mesos

Homepage | TwitterDissertation | GitHub

James Dixon – CTO Pentaho; prägte den Begriff „Data Lake“

Blog „Data Lake“ | Twitter

Nathan Marz – Erfinder von Apache Storm; Erfinder der Lambda-Architektur

Homepage | Twitter | GitHub