Was ist der SAP Data Hub?

Vor kurzem war ich auf der TDWI Konferenz 2017 auf dem SAP Special Day, der unter dem Motto „Ihr Fahrplan zum Digital Enterprise“ stand.

Eigentlich hatte ich hier verschiedene Perspektiven zu den aktuellen Themen wie auch etwas Praxiserfahrungen erwartet. Doch dann hat Jan Bungert (Head of Database & Data Management Germany) folgende Folie in seinem Vortrag aufgebaut:

TDWI2017_1
SAP-Vorstellung einer datengetriebenen Architektur

Nun, klar, HANA kenne ich, SAP Vora, alles von Hadoop über S3 bis hin zu Tensorflow. Selbst mit Tensorflow konnte ich was anfangen. Aber was ist „SAP Data Hub“?

 

Beim erste Googlen bin ich bei SAP Hybris Data Hub gelandet. Nun, das hörte sich ja jetzt auch gar nicht so falsch an. Nur hat halt hier niemand was von Hybris gesagt. Auch sollte das noch gar nicht alles sein. In einer weiteren Präsentation wurde es mit einem Kundenbeispiel konkreter:

TDWI2017_2.PNG

Wie es aussieht, übernimmt hier der SAP Data Hub das ganze Datenmanagement, bis zur Anflanschung an BW/4HANA über SAP Vora.

Ein paar konkretere Screenshots gab es auch dazu:

TDWI2017_3
SAP Data Hub – Übersicht und Monitoring
TDWI2017_4
SAP Data Hub – Prüfung von Daten in Flatfile
TDWI2017_5
SAP Data Hub – Datenfluss-Modellierung

Wenn so ein Produkt bisher kaum auffindbar ist, dann gibt es zwei Möglichkeiten:

-> Das Produkt ist neu.

-> Das Produkt hat einen neuen Namen.

Wie geschrieben, kommt man bei „SAP Data Hub“ eher bei einem SAP Hybris-Produkt raus, das so heißt. Dieses gibt es jedoch, soweit für mich nachvollziehbar, seit Jahren. Der SAP Data Hub wird aber laut PAM zum Q3/2017 allgemein verfügbar. Die Hilfe ist momentan verfügbar für Release 1.0 SPS0.

Aus der SAP-Hilfe kann man entnehmen, dass das System auf HANA XS läuft und SAP Vora, Spark und HANA Smart Data Integration unterstützt. Dies zeigt so auch der Architekturüberblick:

SAP_DATA_HUB_Architecture
SAP Data Hub – Architektur

 

Denke ich daran, dass SAP beim letzten DSAG AK-Treffen für BI & Analytics im Kontext von SAP Leonardo auch noch eine neue Big Data Strategie aufgezeigt hat, dann zeigt sich doch, das SAP sich hier stark mit neuen eigenen Produkten engagiert, während man sich gleichzeitig mit Open Source-Komponenten ergänzt. Dort war zwar noch nicht von SAP Data Hub die rede, aber es bleibt zu hoffen, dass dies nachher aus einer Hand gesteuert wird.

Auf jeden Fall wird es nicht langweilig. Vielleicht auch nicht einfacher. Wir werden sehen, was kommuniziert wird, sobald die Marketingmaschine dazu anläuft.

BI & Machine Learning

Howard Dresner stellt in seinem aktuellen Blog die Frage „Is Artificial Intelligence the Future of Business Intelligence?

Bei SAP selbst tauchen Begriffe wie Machine Learning (ML) oder Artificial Intelligence (AI) immer wieder auf. So ist Bernd Leukert als SAP Vorstand für Produkte & Innovationen auch Aufsichtsrat des Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Bill McDermott hat in einem vor Kurzem erschienen Interview klar gesagt, dass SAP zukünftig eine führende Rolle in diesem Bereich einnehmen will. Er wird dabei wie folgt zitiert:

“We want to become the world-wide machine learning leader for corporate businesses, hands down,” …

“Our goal is to have the most intelligent business applications and we’re doing everything we can to achieve that.”

Nicht zuletzt hat SAP aktuell auf der MOOC-Plattform OpenSAP einen Kurs mit dem Titel „Enterprise Machine Learning in a Nutshell“ laufen.

Nun, schaue ich mir den OpenSAP-Kurs so an, dann sehe ich kaum Unterschiede zu dem, was ich schon 2006 zu Diplomarbeitszeiten gesehen und gelesen habe und was heute oft unter dem Label Predictive Analytics verkauft wird.

Schaut man sich die aktuellen Tools von SAP an, so findet man immer wieder die Verwendung der Automated Predictive Library (APL) und der Predictive Analysis Library (PAL) sowie der OpenSource Statistik-Bibliothek R, welche sich bei vielen Anbieter großer Beliebtheit erfreut. APL und PAL sind natürlich Teil von HANA selbst. Und im BW ist die Integration mit dem HANA Analysis Process möglich. Dann gibt es auch noch das Werkzeug SAP Predictive Analytics, welche grafische Oberflächen zur Modellierung bietet. Und auch in das noch sehr neue SAP Produkt SAP BusinessObjects Cloud hat Predictive mittlerweile Einzug gehalten.

Begriffe, welche man in dem Zusammenhang neben Künstliche Intelligenz und Maschinellem Lernen immer wieder hört, sind Data Mining, Statistik, Deep Learning und manchmal vielleicht auch noch Data Science.

Gartner beschreibt Maschinelles Lernen/Machine Learning wie folgt:

Advanced machine learning algorithms are composed of many technologies (such as deep learning, neural networks and natural-language processing), used in unsupervised and supervised learning, that operate guided by lessons from existing information. 

Lt. Gartner stellt sich Künstliche Intelligenz/Artificial Intelligence deutlich komplexer dar:

Artificial intelligence is technology that appears to emulate human performance typically by learning, coming to its own conclusions, appearing to understand complex content, engaging in natural dialogs with people, enhancing human cognitive performance (also known as cognitive computing) or replacing people on execution of nonroutine tasks. Applications include autonomous vehicles, automatic speech recognition and generation and detecting novel concepts and abstractions (useful for detecting potential new risks and aiding humans quickly understand very large bodies of ever changing information).

Gerade der hier auftauchende Begriff „Cognitive Computing“ zeigt, dass in dem Bereich aktuell viel Bewegung ist, bei dem IBM mit Watson ein Vorreiter ist. Jedoch beispielsweise auch die deutsche BITKOM das Thema für sich entdeckt hat.

Als ich 2006 meine Diplomarbeit zum Thema Data Mining (DM) schrieb, war die Welt noch etwas einfacher. Daten waren noch nicht so „Big“ oder „Smart“ und die Begriffswelt noch nicht so ausdifferenziert.

Data Mining beschrieb ich neben OLAP und Planung als Analysetechnik welches typischerweise auf einem Data Warehouse basiert:

„Data mining is the process of discovering meaningful new correlations,
patterns and trends by „mining“ large amounts of stored data using pattern
recognition technologies, as well as statistical and mathematical techniques.“
(Ashby, Simms 1998)

Bei der Herkunftsbestimmung aus diversen Büchern fand ich:

  • Statistik
  • Datenbankmanagement
  • Mustererkennung
  • Visualisierung
  • Künstliche Intelligenz – vor allem der Bereich „Maschinelles Lernen“

Viele der Begriffe versucht man heute viel deutlicher voneinander abzugrenzen, als das nach meinem Gefühl vor 10 Jahren der Fall war. Möglicherweise ist das aufgrund der weitergeführten Forschung in den Bereichen, dem technologischen Fortschritt sowie geänderter Rahmenbedingungen (z. B. 3 V’s) auch absolut sinnvoll.

Nehme ich mal die drei aus meiner Sicht am engsten miteinander verbundenen Begriffe und schaue mir mal die Trends bei Google an, zeigt sich folgendes:

ki_ml_dm01

Offensichtlich zeigen AI und DM eine gewisse Korrelation über die Zeit. Machine Learning hat dafür lange vor sich dahingedümpelt, bis die letzten Jahre der Trend doch angezogen hat, so das Machine Learning an den anderen beiden Begriffen vorbeigezogen hat. Interessant auch der Blick auf die weltweite Verteilung:

ki_ml_dm_02_welt

Möglicherweise sind die Begriffe auch noch sehr regional geprägt. Während Data Mining doch recht verbreitet zu sein scheint, ist Machine Learning wohl vor allem in Skandinavien populär.

Gartner hat im Hype Cycle für Advanced Analytics und Data Science, 2015 das Thema Machine Learning auf dem Gipfel der überhöhten Erwartungen gesehen. Direkt vor Predictive Analytics. Der Hype Cycle 2016 hat sich dazu kaum verändert.

Bei den vor Kurzem für 2017 veröffentlichten Technologie-Trends sieht Gartner das Thema AI & ML als Top 1 und meint:

AI and machine learning have reached a critical tipping point and will increasingly augment and extend virtually every technology enabled service, thing or application.

In diesem Sinne folgen an Stelle 2 und 3 auch gleich die Themen „Intelligent Apps“ und „Intelligent Things“, welche letztendlich wieder stark auf AI basieren.

Howard Dresner schließt seinen Blog mit der Überlegung, das AI im BI-Umfeld ein Thema ist, wenn sie die Daten besser analysieren kann, als ein Mensch. Jedoch warnt er auch, dass AI trotz seines Alters (Ursprünge in den 50er-Jahren) heute keine reife Technologie ist und für Fehler sehr wohl anfällig sein kann, wie bspw. Microsoft im Frühjahr 2016 erfahren musste.

Was bedeutet dies nun für den klassischen SAP BI-Berater, der mit SAP BW, BEx und evtl. BusinessObjects BI unterwegs ist? HANA kommt, aber ist eben noch nicht überall angekommen. Bis zur BusinessObjects Cloud ist es für viele vor allem in Deutschland ebenfalls noch ein langer Weg. Und SAP Predictive Analytics ist aus meiner Erfahrung von der Lizenz her recht teuer.

Ich glaube zurück zur SAP BW Data Mining Workbench und zum Analyseprozessdesigner möchte auch niemand unbedingt. Die Automated Analytics-Ansätze richten sich schon an den Business User. Muss man dann evtl. nur noch technisch und bei der Bereitstellung der Daten unterstützen? Oder braucht man gleich die Weiterbildung zum Data Scientist?

Ich denke es sind einfach auch verschiedene Skills, wie auch verschiedene Anforderungen an die IT, die hier im Spiel sind. Trivial zu beantworten ist dies deshalb sicherlich nicht. Jedoch ist aus heutiger Sicht klar, alles, was eine SAP aktuell unter Analytics zusammenfasst, kann sowieso nur im Team abgedeckt werden. Dieses aufzubauen und zu strukturieren ist vielleicht die wahre Herausforderung.

SAP HANA 2

Am 08.11.2016 hat SAP zum Start der SAP TechEd Barcelona das Release 2 der HANA-Datenbank vorgestellt. Geplantes Releasedatum für Kunden ist der 30.11.2016. Kurz darauf soll es auch die HANA 2 Express Edition geben, um Entwicklern einen schnellen Zugriff zu ermöglichen.

Bernd Leukert hat HANA 2 wie folgt angekündigt und beschrieben:

“The first version of SAP HANA is the synonym for real time processing of data. It’s already the backbone of thousands of major companies,” said Leukert. “I’m proud to officially announce today SAP HANA 2, which will be released at end of November. This next generation of SAP HANA is the digital foundation to transform any business, helping IT shift focus to innovation, continuing to evolve data management and application development.”

Wer mag, kann sich hier direkt die Ankündigung anschauen.

Bzgl. Analytics soll HANA 2 folgende Erweiterungen liefern:

„Analytical intelligence: Developers are embedding rich insight into applications with enhanced analytical processing engines for text, spatial, graph and streaming data. For example, new algorithms for classification, association, time series and regression have been added to the predictive analytics library to empower data scientists to discover new patterns and incorporate machine learning into custom applications.“

Wenn auch der Zusammenhang aus den bisherigen Meldungen mir noch nicht ganz klar ist, hat SAP zeitgleich cloudbasierte SAP HANA Microservices im Bereich Analytics angekündigt:

  • TEXT ANALYSIS ENTITY EXTRACTION – Ein Service zum hervorheben wichtiger Informationen in unstrukturierten Daten.
  • TEXT ANALYSIS FACT EXTRACTION – Ein Service zur Sentimentanalyse, bspw. bzgl. eines Produktes oder eines vom Unternehmen angebotenen Services. Ebenso einen Service bzgl. Öffentlicher Veranstaltungen (Public Sector) bspw. zur Risikoabschätzung sowie einen Service zur Analyse von Unternehmensereignissen (Enterprise) wie personelle Veränderungen oder die Neueinführung von Produkten.
  • TEXT ANALYSIS LINGUISTIC ANALYSIS – Ein Service zur Sprachanalyse, bspw. um welche Sprache es sich handelt oder im Weiteren der linguistischen Analyse des geschrieben selbst.
  • Earth Observation Analysis Service – Ein Service zur Auswertung von Satelliteninformationen bzgl. der Erde. Aktuell in der Beta-Version.

SAP verspricht sich von einer Microservices Architektur Folgendes:

  • Independence from the business domain, devices, and environments
  • Nonproprietary environment that offers freedom to choose the programming languages and underlying database technologies as well as gaining portability of services and applications between cloud infrastructures
  • Prebuilt business processes that allows organizations to develop new ways to utilize application data and services easily and flexibly, and scale to changing requirements

Bis zur Veröffentlichung Ende November wird evtl. noch die eine oder andere Information zu neuen Features fließen. Ab 01.12.2016 informiert die SAP dann in 12 Webinaren über die Neuigkeiten.

Bis dahin bietet die aktuelle HANA 2 FAQ Antwort auf wenigstens ein paar Fragen.

SAP’s Wege zum Data Warehouse

Es ist immer wieder interessant, SAP dabei zuzuschauen, wie man aktuell z. B. im BI-Frontendbereich auf Vereinfachung (Simplification) setzt, andererseits im Bereich Data Warehouse einen Strauß bunter Lösungen entstehen lässt, der kaum noch überschaubar ist. Im Folgenden ein wenig die Geschichte, soweit diese für mich nachvollziehbar ist.

SAP BW erblickte 1997 mit dem Release 1.2A als Business Information Warehouse das Licht der Welt. Nach Jahren der Weiterentwicklung hat die SAP 2016 dem Produkt SAP BW ein Ende gesetzt, nur um es unter dem Namen SAP BW/4HANA neu auferstehen zu lassen. Aber das ist nicht die ganze Geschichte. Bereits mit dem Kauf von BusinessObjects und Sybase ließ sich bereits eine komplett vom SAP BW eigenständige BI- und Data Warehouse-Umgebung schaffen. Mit dem Aufkommen von HANA (als damals High-Performance ANalytical Applicance) war schnell klar, dass hier auch etwas neues entsteht. Und so bewirbt die SAP das HANA Data Warehouse, welches bereits 2013 von Thomas Zurek angedeutet wurde.

SAP BW stellen jedoch nicht die Ursprünge des Data Warehouses von SAP da. Bereits vorher war dies bei SAP vielfältig ein Thema. Geht man heute im SAP ERP durch den Customizing-Leitfaden, so findet man nach wie vor beispielsweise im Logistik-Umfeld das Logistics Data Warehouse.

Wenn man bei SAP also von Data Warehouse redet, muss man sich wirklich erstmal Fragen, welches man hier meint.

 

Pre-SAP BW (ERP DWH-Ansätze)

Ja auch heute noch stößt man bei vielen Unternehmen auf die verschiedenen Ausprägungen, welche noch deutlich weiter als das SAP BW zurückreichen. Da gibt es das Logistik-Informationssystem (LIS), welches für verschiedene Logistik-Module vorkonfigurierte, verdichtete Datenebenen bietet und quasi ein embedded Realtime-Reporting mit einer oft akzeptablen Performance liefert. Mit dem bereits erwähnten Logistic Data Warehouse, war (und ist) es möglich eigene Verdichtungsebenen und Fortschreibungsregeln zu definieren um dann flexibel darauf auswerten zu können. Wer BW-Releases vor 7.0 kennt und sich die Fortschreibung im LIS einmal angeschaut hat, wird überrascht gewesen sein und danach wissen, woher das Fortschreibungskonzept dafür stammte.

Auch vom CO-PA kennt man verschiedene Verdichtungsebenen und Auswertungswerkzeuge. Das Ganze gipfelt im EIS/FIS – also im Führungsinformationssystem, welches schon den Ansatz hat, sich auch den verschiedenen Informationssystemen oder auch externen Daten eine Datenbasis auszuwerten, welche flexibel ausgewertet werden kann.

Auch wenn hier Teile wie gesagt durchaus in vielen Unternehmen noch aktiv sind, so wurde doch irgendwann aus sicherlich vielfältigen und nachvollziehbaren Gründen (Performance, Systemlast, Flexibilität, …) entschieden einen Schritt weiter zu gehen. Dieser Schritt war SAP BW.

 

SAP BW

Wie anfangs erwähnt, hat das SAP BW seinen Anfang etwa 1997 oder 1998 mit dem veröffentlichen Release 1.2A. Das Projekt startete als “Reporting Server”, was möglicherweise die Grundlage für die bekannten RS*-Transaktionen gelegt haben dürfte.

Der Sprung zum Release 2.0 kam im August 2000 mit 2.0B, bei dem z. B. das Operational Data Store seinen Weg ins BW gefunden hat. Eine gewisse Erfolgsgeschichte, haben sich daraus doch 3 Varianten und zuletzt das Advanced DSO entwickelt. Im Dezember 2000 folgte bereits 2.1C.

Mit dem Release 3.0A wechselte der Name von Business Information Warehouse mit dem Akronym BIW zu noch kürzer BW.

Ein großer Sprung ereignete sich dann wieder März 2004. Damals kam das Thema Netweaver auf, und das BW-Release 3.5 war Teil von SAP Netweaver 2004.

Vermutlich am 06.06.2006 gab es ein einen großen Releasesprung. Zuerst unter dem Namen SAP NetWeaver 2014s BI capabilities (so wurde mir das damals von SAP gesagt 😉 ) sollte dies das Release SAP BI 7.0 werden. Eine kurze Periode, in der die SAP dem BW den Namen Business Intelligence verpasste. Kurz deshalb, weil SAP 2007 ein Übernahmeangebot für BusinessObjects machte und 2008 diese vollendete. BI wanderte vom BW zu BusinessObjects und das BW bekam mit dem Release 7.3 offizell wieder seine Bezeichnung BW zurück.

Noch ein wichtiger Meilenstein kam mit dem 7.0-Release. Der BWA (Business Warehouse Accelerator), damals noch unter dem Namen BIA (Business Intelligence Accelerator) wurde released. Der erste Ausflug in die In-Memory Welt für SAP BI/BW und der Vorläufer von HANA.

Mit dem Release 7.3 gab es neben der Rückkehr zum Namen BW auch noch zum nächsten großen Sprung. Mit SAP BW powered by SAP HANA. Mit SAP HANA hatte SAP Ende 2010 einen großen Schritt gewagt und heute, knapp 6 Jahre später fast ihre gesamt Produktstrategie darauf ausgerichtet. Nur etwa 1 Jahr später ging SAP BW 7.3 SP5 in den Ramp-Up für HANA.

Im März 2014 folgte das Release SAP BW 7.4. Dieses Release sollte die möglichkeiten von HANA deutlich besser ausnutzen und neue Features auf Basis der HANA-Technologie liefern. Als Enabler für das Logical Data Warehouse sollte es alle Daten als In-Memory Data Fabric in einen gemeinsam Kontext stellen.

Im Herbst 2015 wurde SAP BW 7.5 vorgestellt. Es soll das letzte seiner Art sein. Das Release wurde in 2 Modi vorgestellt. SAP BW 7.5 powered by SAP HANA und SAP BW 7.5, edition for HANA. Mit dem Modus “edition for HANA” leitete die SAP den nächsten Schritt ein. Ein SAP BW, welches nur noch die neuen, HANA-optimierten Objekte einsetzt und die bisher eingesetzten Modellierungsobjekte wie InfoCubes, Datastore-Objekt, InfoSet, MultiProvider usw. obsolet macht. Neben der Modellierung verändern sich auch auch die Schnittstellentechnologien sowie die Modellierungsfläche, welche für neue Objekte von Anfang an in der Eclipse-Umgebung zu finden war.

 

SAP BW/4HANA

Am 07.09.2016 wurde BW/4HANA offiziell vorgestellt bzw. Verfügbar gemacht. Erste Informationen dazu wurden ab 31.08.2016 bekannt gegeben.

Mit BW/4HANA wurde das SAP BW auf Wartung gesetzt und es wird kein Neues Release mehr geben. BW/4HANA gilt als neues Produkt. Als logischer, jedoch nicht rechtlicher Nachfolger. Das lässt sich leicht darauf erklären, hier eine Menge Code z. B. für die bisherigen Modellierungsobjekte sowie für die BEx-Suite entfernt wurde.

Eine gute Annäherung und Vorstellung, was BW/4HANA bedeutet, bekommt man über die rund um den Startzeitpunkt veröffentlichten Blogs:

Thomas Zurek:

Neil McGovern

Marc Bernard

 

SAP HANA Data Warehouse

Zum SAP HANA Data Warehouse habe ich bereits ein wenig geschrieben und möchte im Wesentlichen darauf und auf die Blogs von Thomas Zurek verweisen:

Thomas Zurek:

Sowie zusammenfassende Blog-Einträge von mir:

 

SAP (Sybase) IQ Data Warehouse

2010 hat SAP Sybase übernommen, welches im Bereich BI/Datenmanagement Lösungen wie Sybase IQ, den PowerDesigner und eine Lösung für Complex Event Processing beisteuerte.

SAP IQ ist im BW-Umfeld am ehesten als Datenbank für Nearline-Storage (NLS) bekannt. Die Datenbank ist spaltenbasiert und auf sehr große Datenmengen (Petabyte). Zuletzt 2014 hat SAP IQ im Zusammenspiel mit SAP HANA einen neuen Weltrekord für das weltgrößte Data Warehouse mit 12,1 Petabyte aufgestellt.

Des weiteren dürfte SAP IQ im Frontendbereich bei SAP Lumira eine gewisse Bekanntheit haben, sollte man sich fragen, wo eigentlich die ganzen Daten gespeichert und verarbeitet werden, welche in die Lumira Desktop-Version integriert werden.

Schaut man sich die lose gekoppelte Umgebung des HANA DWH an, dann liegt der Gedanke nahe, dass man hier eigentlich eine HANA auch gegen eine SAP IQ austauschen könnte. Das scheint aber bei der SAP kein populäres Konzept zu sein.

Eher findet man die Datenbank zur Entlastung von HANA als schneller Nearline-Storage, welcher im Multi-Temperature-Konzept der SAP den Bereich der kalten Daten (cold) abdecken soll.

Alternativ zu IQ als NLS kommt auch immer öfters Hadoop ins Spiel. Vor allem, wenn man über Big Data spricht. Mit HANA Vora hat die SAP hier ja sogar einen eigenen Ansatz vorgestellt.

 

SAP & Data Warehouse vs. Data Lake

Ich erinnere mich gut an einige Gespräche mit dem Fachbereich, bei denen mein Gegenüber der Meinung war, Big Data ist, wenn Excel nicht mehr ausreicht. Und dafür hätte man dann ja z. B. SAP BW.

Interessanterweise ist das auch oft das Bild, welches man durchaus bekommen kann. Oft werden Begriffe undifferenziert verwendet und Schlagwörter verwendet wie „wenn wir HANA haben, dann sind alle unsere Probleme gelöst“.

Gut das selbst die SAP mittlerweile erkannt hat, das HANA evtl. doch nicht die Eierlegende Wollmilchsau ist und an der einen oder anderen Stelle auf ergänzende Technologien angewiesen ist. HANA Vora (seit 03/2016 GA) ist so ein Beispiel.

Aber schon zuvor hat sich SAP gemeinsam mit Hortonworks an einer Big Data Reference Architecture versucht. Und wirbt gerne auch direkt bei den CIO’s mit ihrem Angebot, Big Data in den Griff zu bekommen.

Nun, wenn das DWH schon für Big Data steht, wofür benötigt man eigentlich ein HANA Vora oder gar ein Data Lake? Im folgenden möchte ich die beiden Konzepte etwas besser voneinander abgrenzen. Zuvor jedoch soll noch erwähnt sein, dass  DATAVERSITY einen empfehlenswerten Übersichtsartikel zu dem Thema bietet, welcher mich auch dazu inspiriert hat, hier einmal zu schauen, wo SAP sich dabei sieht..

Die erste Erwähnung und Prägung des Begriffs „Data Lake“ stammt wohl vom Chief Technology Officer von Pentaho:

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

– James Dixon, CTO Pentaho
Quelle: https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

SAP hat aus meiner Sicht hier für kompakte 2 1/2 Minuten gar nicht schlecht ihre Sichtweise für die Bedeutung eines Data Lakes dargestellt.

Wie bekommt man den nun ein Gefühl, wie sich Data Lake tatsächlich von Data Warehouse abgrenzt?

DWHvsDL

Die dargestellten Aspekte zeigen gut, dass ein Data Lake und ein Data Warehouse durchaus sich ergänzenden Ansätze darstellen. Nur weil in den letzten Jahren neue Datenquellen relevanter und verwertbarer geworden sind, sind bisherige Ansätze nicht obsolet. Jedoch muss man auch sehen, dass, obwohl gewisse Ansätze und Zielsetzungen recht ähnlich sind, der Skill und die Herangehensweise doch sehr unterschiedlich sein können.

In ihrer Roadmap zeigt die SAP, dass Sie hier eine gemeinsame technologische Architektur mit einer zentralen HANA-Plattform sieht, in der in einer absehbaren Zukunft auch das SAP BW im HANA Data Warehouse aufgehen wird:

SAP HANA DW-Roadmap

Dabei hat eben auch HANA Vora seinen Platz und wird als verbindender und integrierter Bestandteil zwischen Hadoop und HANA in dieser zukünftigen SAP HANA Data Warehousing Plattform dargestellt:

HANA_DW_Plattform

Die Zeit wird zeigen ob diese doch verschiedenen Ansätze tatsächlich sinnvoll kombiniert werden können und evtl. das eine Konzept in dem anderen aufgeht. Oder ob die Ansätze nur eine theoretische Möglichkeit darstellen, mit welcher man schön Marketing machen kann, welche so jedoch nicht Realität werden wird.

BW vs. S/4 HANA

Viel wird diskutiert darüber, ob mit einer S/4 HANA oder eben auch noch einer Suite on HANA ein SAP BW (on HANA) überhaupt noch notwendig ist.

Schon die Frage ist falsch gestellt. Den es gibt schon abgesehen von der Unternehmensrealität gänzlich verschiedene Grundsituationen.

Beispielsweise hat die DSAG bereits 8 grundlegende Szenarien für Analytics on HANA unterschieden:

8 HANA Bausteine

Quelle: DSAG-Leitfaden SAP HANA

Dann stellt sich ja nicht nur die Frage, BW oder ERP on HANA. Es gibt auch ein embedded BW oder ein HANA DW welche in diesem Zusammenhang wieder ganz andere Aspekte hineinbringen und zu berücksichtigen haben. Genauso kann die aktuelle Prüfung von Cloud-Angeboten eine Rolle spielen. Auch ist ein bestehendes SAP BW-System, in welches man bereits über Jahre viel investiert hat, doch ein starkes Kriterium gegen eine Ablösung durch ein ERP-basiertes Reporting.

Aus meiner Sicht favorisiert und kommuniziert die SAP die Ansätze HANA Live und S/4 HANA Analytics für operatives Reporting in einem Kontext, der i. d. R. auf das eine System und die darin regulär vorkommenden Daten beschränkt ist.

Trotzdem will ich im folgenden eine kurze Übersicht über Aspekte geben, welche eine erste Orientierung geben können, wann S/4 HANA evtl. ausreicht oder nach wie vor ein SAP BW, evtl. eben auch „on HANA“, sinnvoll ist.

BWvsS4HANA

Quelle: eigene Recherchen, DSAG-Leitfaden, Erfahrungswerte

Zuletzt ist jedoch immer eine individuelle Betrachtung der eigenen Situation, sowie der zukünftigen Planung entscheidend.

openSAP: Big Data with SAP HANA Vora

Und weiter geht es auf openSAP mit einen interessanten Kurs im Bereich Analytics. Am 06. September 2016 startet „Big Data with SAP HANA Vora„.

openSAP_HANAVora.PNG

Sicherlich nicht der erste Kurs zum Thema HANA. Konkret zu Big Data gab es jedoch bisher nur „Driving Business Results with Big Data“ vor einem guten Jahr und vielleicht „Text Analytics with SAP HANA Platform“ vom Januar diesen Jahres. In weniger guter Erinnerung ist mir geblieben, dass es damals bei „Driving Business REsults with Big Data“ ziemlich viel Werbung bzgl. SAP Services und RDS gab. Positiv war die Möglichkeit direkt an einem HANA-System in der Cloud auszuprobieren. Auch der Vortrag von Steve Lukas ist mir sehr gut in Erinnerung geblieben. Damals habe ich sogar ein paar Tweets dazu gemacht.

Nun gut, diesmal geht es über 3 Wochen um das Thema HANA Vora, Spark, Hadoop.

Die SAP Big Data-Lösung, welche erst seit 15.03.2016 allgemein verfügbar ist, zeigt den Willen der SAP auch im Bereich Big Data mitzumischen. War das bisher bei SAP jedoch immer einen HANA-Thema, zeigt SAP mit der Lösung, das HANA alleine eben doch nicht immer ausreicht um wirklich BIG data zu handhaben.

Der Kurs ist auf drei Wochen aufgeteilt:

  • Week 1: Overview: SAP HANA Vora
  • Week 2: SAP HANA Vora Data Modeling Tool
  • Week 3: Development in SAP HANA Vora

und adressiert:

  • Data Scientists
  • Anwendungsentwickler im HANA-Umfeld
  • Technische Business Analysten & Berater

Ein gewisses Wissen über Hadoop und Spark wird zwar vorausgesetzt, und zeigt, dass der Kurs wohl sehr technisch wird. Jedoch denke ich , selbst für den klassischen SAP BW-Berater, der evtl. noch nicht mal auf HANA ist, ist der Kurs einen Blick wert.

Ein guter Start, für den der sich evtl. etwas vorbereiten möchte, findet sich hier im SCN.