Research: Cloud Data Warehouse

Seit kurzem scheint das Thema „Cloud Data Warehouse“ (CDW) im Trend zu sein. Zumindest Forrester hat für Q4/2018 eine eigene Forrester Wave herausgegeben genau zu dem Thema. Darin wurden 14 Anbieter untersucht.

Forrester definiert das Cloud Data Warehouse wie folgt (frei übersetzt):

Ein sicheres, skalierbares On-Demand Self-Service Data Warehouse, welches die Datenbeschaffung, Administration, Tuning, Backup und Recovery automatisiert um Analytics und wertvolle Erkenntnisse bei gleichzeitiger Minimierung der administrativen Anforderungen zu liefern.

– The Forrester Wave™: Cloud Data Warehouse, Q4 2018

Nachdem GA für SAP Data Warehouse Cloud erst für Q4/2019 angekündigt ist, sind andere Anbieter hier schon deutlich länger auf dem Markt, z. B.:

  • Google Big Query (11/2011)
  • Amazon Redshift (10/2012)
  • Snowflake Computing (06/2015)
  • Microsoft Azure SQL Data Warehouse (07/2016)
  • Oracle – Autonomous Data Warehouse Cloud (03/2018)

In sofern ist SAP in The Forrester Wave auch nicht vertreten bzw. hat offensichtlich den Kriterien der Untersuchung nicht genügt.

Im Magic Quadrant von Gartner (01/2019 – Gartner Magic Quadrant for Data Management Solutions for Analytics) findet SAP noch seinen Platz und auch der Cloud-Trend bleibt nicht unbemerkt. Eine Abgrenzung wird von Gartner hier jedoch noch nicht vorgenommen. Somit wird BW/4HANA, HANA selbst (welche jedoch als in der Cloud verfügbar wahrgenommen wurden) sowie der SAP Cloud Platform-basierte Big Data Service analysiert. Trotz Kritikpunkten bei Themen wie der Elastizität wird beispielsweise die Multi-Cloud Strategie positiv hervorgehoben und SAP ist bei Gartner im Leader-Quadranten vor Anbietern wie Snowflake, IBM und Google zu finden.

Bei Forrester sind die Leader ganz klar Amazon Web Services (AWS), Snowflake, Google und auch noch Oracle.

2017 hat BARC im ihrer Reseach Study „BI and Data Management in the Cloud: Issues and Trends“ folgende Feststellung gemacht (frei übersetzt):

Unternehmen betreiben eher BI (Frontend)-Anwendungen in der Cloud als Data Warehouses, Data Marts oder Datenintegration.

Data Management-Lösungen benötigen IaaS und PaaS sowie die Prüfung von Datenschutz, Datensicherheit und unternehmenspolitischer Aspekte.

In der BARC Research Study „Datenmanagement im Wandel“ von 2014 zeigt sich ein noch viel nüchterneres Bild:

  • Bei der Frage, was sich aktuell konkret verändert, antworteten nur 6% mit „Rückgriff auf cloud-basierte Data Warehouse“
  • Die Frage nach dem Umgang mit Self-Service BI beantworteten gerade mal 2% mit „Auslagerung in die Cloud“
  • Im Vergleich zu anderen Ansätzen war die Lösung „Cloud-basierte Data Warehouse-Lösungen“ zur einfacheren Umsetzung von DWH-Anforderungen weit abgeschlagen. Wichtiger waren „In-Memory Datenbanksysteme“, „Automatisiertes DWH“, uvam.

Im Whitepaper „Cloud Data Warehouse Trends for 2019“ wird nun jedoch die Frage aufgeworfen, ob das CDW gar der Schlüssel zur Digitalen Transformation ist. Die Antwort folgt schnell. Das CDW wird als wichtiger erster Schritt zum datengetriebenen Unternehmen gesehen.

Lt. Whitepaper sind die Top-Gründe für das CDW:

  • Flexibles Kostenmodell
  • Vorteil der Nutzung von Cloud-Features
  • Bessere Performance

Typische Anwendungsfälle sind:

  • Kundenanalysen für das Marketing
  • Finanzanalysen
  • Vertriebsunterstützung
  • Anbindung an einen Data Lake für Analytics
  • Kundenserviceanalysen
  • IT-Analytics

Die größten Herausforderungen dabei sind:

  • Data Governance
  • Integration von Daten aus unterschiedlichen Quellen
  • Daten in das Data Warehouse zu bekommen
  • Einfacher Datenzugriff für den Anwender
  • Kosten

Nun gut, es zeigt sich, dass Thema Cloud Data Warehouse ist nicht neu. Der Self-Service Trend hat jedoch das Angebot sicherlich verändert. So positioniert SAP sein angekündigtes SAP Data Warehouse Cloud mit der Zielgruppe Business Analyst, wie auch schon SAP Analytics Cloud.

Persönlich denke ich, als BI-Berater wird man deshalb nicht arbeitslos. Aber Aufgaben werden sich verändern. Die Fachbereiche werden mündiger und können einen immer größeren Bereich selbst abdecken. Das ist gut, weil es die faktenbasierte Entscheidungsfähigkeit bei richtiger Strategie stärkt. Denn eines ist klar. Excel ist und bleibt das beliebteste Tool für BI und ist dank Office 365 auch in der Cloud verfügbar mit Power Pivot und Power BI als Verstärkung. Ob das gut ist, ist eine ganz andere Frage.

Die Herausforderungen sind immer neue Datenquellen, gerade wegen der Cloud. Die Harmonisierung und semantisch saubere Integration der Daten überfordert Fachbereiche oder führt dort zur Spezialistenbildung. Die zunehmende Dynamik im Internet wie auch die zunehmende Agilität in Unternehmen erfordert eine schnelle BI-Adaption und Konzept-Know-How im Umgang mit historischen Daten. Daten sind nicht mehr nur strukturiert, sondern das, was bisher Big Data und NoSQL geleistet hat, wird zunehmend integriert und erhöht die Anforderungen. Basistechnologien wie SAP HANA liefern heute Funktionalitäten wie Text, Spatial, Predictive Analytics oder Graph-Verarbeitung, um höheren Nutzen aus den Daten zu ziehen. Die Komplexität der nutzbaren Methoden nimmt damit immer weiter zu. Die Vielfalt verfügbarer Komponenten und neuer oder unterschiedlicher Schnittstellen ebenso. Die Anforderung an die Datenqualität werden deutlich steigen und eine ganzheitliche Sicht auf das Unternehmen rückt eher in die Ferne als Realität zu werden.

Für Unternehmen mit einfachen operativen Systemen und überschaubaren Anforderungen an Reporting und Datenanalysen werden es also leicht haben, jedoch auch nur geringen Nutzen aus einer zunehmen Digitalisierung ziehen. Für alle anderen ist Self Service und zunehmende Data Literacy eine Notwendigkeit um irgendwie noch mithalten zu können, da die IT-Fachkräfte nicht schnell genug vom Baum wachsen werden.

SAP Data Warehouse Cloud

Wie in meinem Blog „SAP und das Data Warehouse“ gezeigt, ist ein neuer Spieler am Markt. SAP Data Warehouse Cloud (DWC) ist aktuell (06/2019) noch nicht öffentlich verfügbar, geht aber bald in die Beta-Phase.

Ich möchte die Seite dazu nutzen, den aktuellen Stand, was hier kommen wird, zu sammeln und aufzubereiten.

Lesenswert für einen ersten Überblick ist sicherlich auch der Webcast Recap-Blogs (1/2) von Tammy Powlas.

SAP DWC ist Teil des HANA Cloud Services. Diese bestehen aktuell aus folgende Services:

DWC_1

SAP DWC wird also als Service auf Basis der SAP HANA Cloud Services zur Verfügung gestellt. Damit sind voraussichtlich auch HANA-Fähigkeiten wie die Analytics-Komponenten dort verfügbar.

Eine Frage, die sich bei sowas immer gerne stellt ist, ob das das neue SAP BW bzw. BW/4HANA in der Cloud ist. Die zugehörige FAQ macht dazu folgende Aussage:

„SAP Data Warehouse Cloud is our new approach for agile and enterprise data warehousing in the cloud. It will not replace the SAP BW (on premise), but it will provide a new modern approach for data warehouse in the cloud. Of course, we will support scenarios where customers can use the SAP Data Warehouse Cloud to extend and sometimes migrate existing SAP Business Warehouse scenarios. SAP HANA Cloud Services is not a Data Warehouse, but the underlying cloud-service.“

Ähnlich wie bei SAP Analytics Cloud scheint die Positionierung aktuell für den Business User zu sein und nur bedingt für die IT-Abteilung.

Was ich mich gefragt habe, ist dies das in 2018 propagierte „Project Blueberry“? In 2018 wurde noch klar eine gemeinsame Code-line auf Basis BW/4HANA 2.0 kommuniziert:

DWC_8
Quelle: SAP, 2018 (What’s New with BW/4HANA 1.0, SP08)

Mit der Freigabe Ende Februar 2019 war dann aber plötzlich nicht mehr viel von Project Blueberry zu hören. Eine indirekte Aussage von der SAP gab es dazu, in dem DWC als Cloud-native Entwicklung bezeichnet wurde, was aus meiner Sicht oben dargestellte „single code-line“ ausschließt. Eine ganz klare Aussage habe ich leider noch nicht gehört, allerdings sprechen bspw. die Kommentare hier doch dafür, dass Projekt Blueberry in diesem ursprünglichen Sinne tot ist.

Den besten bisherigen Einblick in DWC gab es aus meiner Sicht bei der Live-Demo zur letzten SAPPHIRE Now.

Ebenfalls wurde von Axel Meier ein LOB use case gezeigt, der bereits einiges an Informationen liefert und auch die Bulding Blocks des DWC zeigt:

DWC_3
Quelle: Axel Meier, SAP 2019

Ende Juli/Anfang August wird es eine Beta Experience geben, bei dem ein erster Zugriff auf ein System möglich sein wird. Aktuell laufen hier bereits die Vorbereitungen über Sessions mit der SAP.

Das Data Warehouse Cloud bietet auf Basis des HANA Cloud Service folgende aufbauenden Services:

  • Repository
    • Semantic Layer
      • Consumption Model
      • KPI
      • Fact
      • Dimension
      • Hierarchy
    • Data Layer
      • Virtual/Local Tables
      • Views
      • Data Store Object
      • Dataflows
      • Connections
  • Modeling
    • Graphical Data Modeling
    • SQL Editor
    • Reusable Semantics
  • Data Warehousing
  • Governance
    • Spaces – Konzept
      • Object isolation
      • Data model definition
      • Data access control
      • Assign connections
      • Resources isolation
      • Elasticity & Self-scaling
      • Pay-per-use
      • Monitoring
    • Business Catalog
      • Trusted Source
      • Intuitive Searche Function
      • Documentation
      • Data Lineage
      • Versioning and artifacts comparison

 

Meine Eindrücke bisher:

DWC_2
Tweet Link

Warum?

  • BW Workspaces: Das Konzept der „Spaces“ ist grundsätzlich in der SAP Cloud Platform verfügbar. Wie ich gesehen habe, soll eine verbindung zu zentralen Daten möglich sein, wie dies im SAP BW on HANA/BWA bzw. BW/4HANA mit BW Workspaces bereits möglich war. BW Workspaces will die SAP zwar wohl zu Gunsten von SAP Analytics Cloud aufgeben, allerdings scheint das Konzept im DWC doch nochmal einen Heimat gefunden zu haben.

    DWC_7.PNG
    Quelle: Youtube, SAP 2019
  • BW Analysis Process Designer: Das war eher eine Fehlannahme, da die Modellierung so flow-like ausgesehen hat. Eigentlich ist das aber eher eine Business-like Modellierung virtueller Datenmodelle:
    DWC_4.PNG
    Quelle: Youtube, SAP 2019
  • Smart Data Access: Wie die Übersicht der Building Blocks oben zeigt, sind „Virtual Table for federated data access“ einer dieser Bausteine.
  • SCP Open Connectors: Selten habe ich bei der SAP bisher in der Cloud eine solche Vielzahl an Konnektoren gesehen:
    DWC_5
    Link: SAP Open Connectors

    Und ebenso eine Auswahl findet sich nun auch hier:

    DWC_6
    Quelle: Youtube, SAP 2019
  • BO Universes: Der Ansatz eines semantischen Layers ist ja nicht neu und SAP hat diesen seit der Übernahme von BusinessObjects im Portfolio. Das Konzept scheint auch hier Eingang gefunden zu haben. Wie es sich heute so gehört, wohl mit Machine Learning-Unterstützung.

 

Zu SAP Analytics Cloud ist noch zu sagen, dass es den Anschein einer integrierten Funktion macht, wobei nach dem was ich gelesen habe auch andere BI-Werkzeuge auf die Daten zugreifen können werden.

Auch erwähnenswert ist, dass an Templates und einer Art Business Content gebaut wird, um den Start zu erleichtern.

Nun, noch ist DWC wie geschrieben noch nicht einmal verfügbar. Bis zur GA im Herbst 2019 wird es sicherlich noch einige Informationen geben.

 

SAP und das Data Warehouse

Vergleiche auch folgende Einträge zur Entwicklung des Themas Data Warehouse bei SAP:

SAP’s Wege zum Data Warehouse

SAP Logical Data Warehouse

SAP & Data Warehouse vs. Data Lake

Das SAP HANA Data Warehouse

SAP hat mittlerweile eine lange Historie im Bereich Data Warehouse. Über die Zeit sieht man auch den technologischen Wandel abgebildet.

Mit dem SAP Data Warehouse Cloud, welches vor kurzem auf der SAPPHIRE NOW als Teil des SAP HANA Cloud Services-Angebots vorgestellt wurde, wird Ende des Jahres ein weiteres, rein Cloud-basiertes Angebot auf den Markt kommen.

SAP DWH

SAP ist schon seit über 20 Jahren mit einer eigenständigen Data Warehouse-Lösung auf dem Markt. SAP BW wurde 1997 gelaunched um die bisherigen Ansätze wie Logistikinformationssysteme (LIS) oder Vertriebsinformationssysteme (VIS) im ERP zu entlasten. Im SAP ERP sind diese beispielsweise heute immer noch im Customizing unter dem Menüpunkt „Logistik Data Warehouse“ zu finden. Auch in der SAP ERP Ergebnisrechnung findet man beispielsweise mit CO-PA (Profitability Accounting) immernoch verdichtete Strukturen um größere Datenmengen auswertbar zu machen.

2011 hat man das Release 7.3 des SAP BW auf HANA (on HANA) gehoben. Bis zum letzten Release 7.5, welches voraussichtlich 2024 auslaufen wird, hat SAP die „powered by HANA“ und die „on Any DB“-Variante parallel an.

Im September 2016 wurde das BW/4HANA gelaunched. Ebenso wie bei S/4HANA hat man hier versucht, alte Zöpfe abzuschneiden. Das bisherige SAP BW wurde abgesagt und BW/4HANA als logischer Nachfolger präsentiert, welcher voll auf die Möglichkeiten einer In-Memory Datenbank setzt und bisherige Ansätze nicht mehr unterstützt.

Im Vergleich zu den bisherigen Ansätzen ist SAP BW ein Data Warehouse, welches als Anwendung auf einer Auswahl verschiedener Datenbanken lief und damit die Handhabung der Datenbank abstrahierte.

Einen Nebenstrang, der von der SAP wenig direkt propagiert wird, ist Sybase IQ, heute SAP IQ. Die von Sybase 2010 übernommene Datenbank ist spaltenbasiert (column-based) und ermöglicht die Handhabung sehr großer Datenmengen im Petabyte-Bereich.

Im Kontext SAP BW kann SAP IQ als Nearline-Storage verwendet werden.

Mit SAP HANA Data Warehouse Foundation (DWF) hat SAP ca. 2015 eine HANA-basierte Lösung auf den Markt gebracht dort über die klassischen Datenbankmittel der HANA hinaus die Handhabung großer Datenmengen für Analysezwecke zu verbessern.

Wie es aussieht ist dieser Ansatz mit der Zeit um neue Funktionen wie das Native DSO erweitert worden und stellt heute einen zentralen Bestandteil des SAP SQL Data Warehousing-Ansatzes dar.

Der auf HANA basierende SQL Data Warehousing-Ansatz wurde 2017 zur SAP TechED vorgestellt.

Bereits 2018 wurde unter dem Namen Projekt „Blueberry“ ein rein Cloud-basierter Ansatz auf Basis der BW/4HANA Codeline vorgestellt, der in 2019 kommen sollte. Das nun unter „Data Warehouse Cloud“ vorgestellte Angebot wird eine enge Integration mit SAP Analytics Cloud geben. Ebenfalls neuere Technologien wie Data Hub sollen hier eine enge Integration finden.

Man kann denke ich sagen, Data Warehouse mit SAP hat starke Wurzeln. Die Zukunft heißt Cloud/Hybrid und In-Memory und hat erst begonnen. Warten wir ab, wie es weiter geht.