Was ist der SAP Data Hub?

Vor kurzem war ich auf der TDWI Konferenz 2017 auf dem SAP Special Day, der unter dem Motto „Ihr Fahrplan zum Digital Enterprise“ stand.

Eigentlich hatte ich hier verschiedene Perspektiven zu den aktuellen Themen wie auch etwas Praxiserfahrungen erwartet. Doch dann hat Jan Bungert (Head of Database & Data Management Germany) folgende Folie in seinem Vortrag aufgebaut:

TDWI2017_1
SAP-Vorstellung einer datengetriebenen Architektur

Nun, klar, HANA kenne ich, SAP Vora, alles von Hadoop über S3 bis hin zu Tensorflow. Selbst mit Tensorflow konnte ich was anfangen. Aber was ist „SAP Data Hub“?

 

Beim erste Googlen bin ich bei SAP Hybris Data Hub gelandet. Nun, das hörte sich ja jetzt auch gar nicht so falsch an. Nur hat halt hier niemand was von Hybris gesagt. Auch sollte das noch gar nicht alles sein. In einer weiteren Präsentation wurde es mit einem Kundenbeispiel konkreter:

TDWI2017_2.PNG

Wie es aussieht, übernimmt hier der SAP Data Hub das ganze Datenmanagement, bis zur Anflanschung an BW/4HANA über SAP Vora.

Ein paar konkretere Screenshots gab es auch dazu:

TDWI2017_3
SAP Data Hub – Übersicht und Monitoring
TDWI2017_4
SAP Data Hub – Prüfung von Daten in Flatfile
TDWI2017_5
SAP Data Hub – Datenfluss-Modellierung

Wenn so ein Produkt bisher kaum auffindbar ist, dann gibt es zwei Möglichkeiten:

-> Das Produkt ist neu.

-> Das Produkt hat einen neuen Namen.

Wie geschrieben, kommt man bei „SAP Data Hub“ eher bei einem SAP Hybris-Produkt raus, das so heißt. Dieses gibt es jedoch, soweit für mich nachvollziehbar, seit Jahren. Der SAP Data Hub wird aber laut PAM zum Q3/2017 allgemein verfügbar. Die Hilfe ist momentan verfügbar für Release 1.0 SPS0.

Aus der SAP-Hilfe kann man entnehmen, dass das System auf HANA XS läuft und SAP Vora, Spark und HANA Smart Data Integration unterstützt. Dies zeigt so auch der Architekturüberblick:

SAP_DATA_HUB_Architecture
SAP Data Hub – Architektur

 

Denke ich daran, dass SAP beim letzten DSAG AK-Treffen für BI & Analytics im Kontext von SAP Leonardo auch noch eine neue Big Data Strategie aufgezeigt hat, dann zeigt sich doch, das SAP sich hier stark mit neuen eigenen Produkten engagiert, während man sich gleichzeitig mit Open Source-Komponenten ergänzt. Dort war zwar noch nicht von SAP Data Hub die rede, aber es bleibt zu hoffen, dass dies nachher aus einer Hand gesteuert wird.

Auf jeden Fall wird es nicht langweilig. Vielleicht auch nicht einfacher. Wir werden sehen, was kommuniziert wird, sobald die Marketingmaschine dazu anläuft.

R and HANA

Tmilinovic's Blog

Fetching data from HANA to R can be done by using two R packages:

  • RODBC, which uses preconfigured ODBC HANA Data Source
  • RJDBC, which uses HANA JDBC driver

The example code for both approaches is shown below. I have noticed that RODBC doesn’t fetch varchar text fields (for example „CustName“ from my calculation view „_SYS_BIC“.“etk.H10XSproject1/VBAK_ScrClcView2″), so I use RJDBC.

#========

library(‚RODBC‘)
ch<-odbcConnect(„H10″,uid=“user“,pwd=“***“,DBMSencoding = „utf8“);

sql<-’select v.“SalesOrg“,v.“SoldToParty“,v.“Quarter“,sum(v.“NetValue“) AS „NetValue“ ‚
sql<-paste(sql, ‚from „_SYS_BIC“.“etk.H10XSproject1/VBAK_SCRCLCVIEW3″ v ‚)
sql<-paste(sql, ‚group by v.“SalesOrg“,v.“SoldToParty“,v.“Quarter“ ‚)

result <-sqlQuery(ch, sql,stringsAsFactors=FALSE)
print(result)

#========

library(‚RJDBC‘)
jdbcDriver <- JDBC(driverClass=“com.sap.db.jdbc.Driver“, classPath=“C:/Program Files/sap/hdbclient/ngdbc.jar“)
jdbcConnection <- dbConnect(jdbcDriver, „jdbc:sap://hanahost:30015/?autocommit=false“,“user“,“password“)

sql<-’select v.“SalesOrg“,v.“CustName“,v.“Quarter“,sum(v.“NetValue“) ‚
sql<-paste(sql, ‚from „_SYS_BIC“.“etk.H10XSproject1/VBAK_ScrClcView2″ v ‚)
sql<-paste(sql, ‚group by v.“SalesOrg“,v.“CustName“,v.“Quarter“ ‚)

result <- dbGetQuery(jdbcConnection, sql)
print(result)

sql<-’select * from ( select „CustName“,“Quarter“,“SumNetValue“,rank() over(order by „SumNetValue“ desc) as rank ‚
sql<-paste(sql, ‚from ( select „CustName“,“Quarter“,sum(„NetValue“) as „SumNetValue“ from emiltom.vbak group by „CustName“,“Quarter“ )) ‚)
sql<-paste(sql, ‚where rank <= 10 order by rank‘)

result <- dbGetQuery(jdbcConnection…

Ursprünglichen Post anzeigen 3 weitere Wörter

SAP Cloud Analytics Journey

Bill McDermott macht klare Ansagen. SAP soll „The Cloud Company“ werden. SAP Cloud wird die Basis für die Digitale Transformation. Basierend auf HANA, unterstützt durch Machine Learning und das SAP Leonardo IoT-Portfolio und versehen mit der preisgekrönten Fiori User Experience.

Das ist der Weg, den SAP aktuell geht. Seit 02/2010 ist er Vorstandssprecher der SAP SE. Betrachtet man einmal, was sich seither getan hat, kann man fast nur staunen.

SAP hat sich hier vom organischen Wachstum abgewendet und Milliardenübernahmen getätigt und gleichzeitig Bereiche wie BI/Analytics massiv vorangetrieben:

SAP Cloud (Analytics)
SAP’s Cloud Analytics-Reise
Quelle: Eigene Recherche, Internet

Laut Capital Market Day-Präsentation 2017 macht SAP in 2016 rund 3 Milliarden € Umsatz und verzeichnet 125 Millionen User für die Cloud. Gut, schaut man sich mal ein wenig die Akquisitionskosten an, so hat man das noch lange nicht wieder eingespielt. Aber es geht hier natürlich um das Geschäft der Zukunft.

Bill McDermott hat damit klar gezeigt, zu was er bereit und entschlossen ist.

Betrachtet man nun mal die Cloud Analytics-Ebene, dann ist doch interessant, dass BusinessObjects bereits 2006 auf die Cloud gebaut hat. Nach der Übernahme 2008 hatte SAP also bereits ein erstes Cloud Analytics-Angebot im Hause.

2010 wurde dies darauf hin neu als BI on Demand gelaunched. Damals schon mit freiem Test-Account, bei dem man mit zumindest kleinen Datenmengen den schon bald HANA-basierten BO Explorer ausprobieren konnte.

Nach meinem Gefühl hat BI on Demand jedoch niemals wirklich Fahrt aufgenommen. mit dem in 2013 gestarteten SAP Lumira Cloud-Angebot, war dann der BO Explorer wohl doch auch nicht mehr so interessant.

Ende 2015 kam dann die Info, dass Lumira Cloud mit dem Release 1.28 nicht mehr weiter aktualisiert wird. Ende 2014 wurde ja auch schon parallel Cloud for Planning (C4P) gestartet. Einige Monate später sickerte dann Projekt Orca durch, welches dann ein Jahr nach Start von C4P den Namen Cloud for Analytics (C4A) bekommen sollte. Damals wurde auf zusätzliche BI-Funktionalitäten verwiesen, welche diesen evolutionären Schritt rechtfertigen sollte.

Kein Jahr hat der Name gehalten, bis dann Mitte 2016 die Umbenennung in BusinessObjects Cloud folgte. Dazu kamen gewisse Predictive-Fähigkeiten. Wie wir wissen, sollte dies in der jungen Geschichte nicht die letzte Umbenennung sein. Folgte doch zur SapphireNow 2017 im Mai die Umbenennung in SAP Analytics Cloud. Ein Schritt, den beispielsweise Gartner-Analystin Cindi Howson als „smart“ bezeichnete.

Interessant ist jedoch noch zu vermerken, was parallel geschehen ist. So wurden Anfang 2016 die Predictive Services innerhalb der SAP Cloud Plattform (damals noch HANA Cloud Plattform) bereitgestellt und damit analytische HANA-Fähigkeiten in der Cloud verfügbar gemacht. Zeitgleich wurde mit der Übernahme von Roambi auch der Mobile BI-Aspekt im bestehenden Cloud Analytics-Portfolio gestärkt.

SAP Analytics Hub bildet mit dem letzten Renaming wohl nur den vorläufigen Höhepunkt der SAP Cloud Analytics Journey.

Data-as-a-Business – SAP Data Network

Vor ein paar Tagen hat SAP das SAP Data Network gelaunched. SAP beschreibt dieses als „data-driven insight services“. Der Kopf und das Gesicht hinter dem Ganzen ist keine Geringere als Helen Arnold. Ehemaliger CIO von SAP. Vor gut einem Jahr hat cio.de bereits über ihren Wechsel zum Aufbau einer neuen Datensparte berichtet.

Laut dem zugehörigen Whitepaper der SAP sehen erfolgreiche Unternehmen Daten als strategisches Asset. Unter Einsatz von SAP-eigenen Data Scientists, Cloud-Technologie, HANA, Design Thinking, Microservices, offene APIs und Machine Learning will SAP helfen, aus den Daten das volle Potential zu ziehen und damit bei der „Data Monetization Strategy“ unterstützen.

Helen Arnold lässt sich passenderweise wie folgt zitieren:

The ocean of Big Data itself is not that exciting, but being able to navigate the waters to discover the hidden treasures is.
– Helen Arnold, President, SAP Business Data Network

Bereits im Feburar beim Bitkom Big Data Summit 2017 hat Sie die Idee präsentiert.

Den grundsätzlichen Wert eines Data Networks beschreibt SAP in drei Punkten:

  • Daten Netzwerkeffekte (Data Network Effect)
  • Skaleneffekte (Scale Effect)
  • Verteilungsmacht (Distribution Power)

Nun, es sieht so aus, als würde SAP damit alles in die Waagschale werfen, was gerade an Konzepten und Technologien gehyped wird. Sicherlich werden die nächsten Konferenzen hier mehr Informationen bringen. Warten wir es ab.

Der Weg zum Data Scientists

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.

Gartner Magic Quadrant – Data Science Platforms 2017

Zunächst einmal – SAP hat den „Magic Quadrant for Advanced Analytics Platforms“ umbenannt in „Magic Quadrant for Data Science Platforms“. Als Grund gibt Gartner an, dass Data Scientists zu den Hauptnutzern dieser Plattformen gehören.

Gartner definiert eine Data Science Platform wie folgt:

„A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solution, and for incorporating those solutions into business processes, surrounding infrastructure and products.

Im Vergleich zum 2016 MQ fällt auf, dass der Leaders-Quadrant erstmal recht gleich geblieben ist. IBM, SAS, RapidMiner und KNIME sind die Leader. Dell ist rausgefallen, jedoch wird erklärt, dass Dell in Quest aufgegangen ist. Quest hat in 2017 eine gute Position im Challenger-Quadranten.

Bei den Leadern ist noch zu erwähnen, dass IBM hier 2017 eine klare Führungspositon einnimmt. Im Vorjahr war das noch nicht so klar, war doch SAS und auch KNIME in der „Completeness of Vision“ noch etwas vorne und SAS lag in der „Ability to Execute“ vorne und hatte somit 2016 die Führungsposition.

Nun, die Frage ist, wo liegt SAP, wo im Vergleich und was hat sich getan? Microsoft möchte ich ebenso betrachten.

SAP hatte es 2016 gerade in den Challenger-Quadranten geschafft. In 2017 ist SAP etwas abgerutscht und somit ein starker Nischenplayer. Nun gut, es verwundert wenig. Aktuell läuft von SAP auf OpenSAP der Kurs „Getting Startet with Data Science„. Schwerpunkt ist das hier im Magic Quadrant ebenfalls bewertete SAP BusinessObjects Predictive Analytics und dessen Nutzung im Rahmen des CRISP-DM-Prozesses. Gut, der Kurs heißt „Getting Startet…“ jedoch ist das wirklich Grundlagenarbeit. Die Arbeit mit SAP BO Predictive Analytics hat mich schon etwas überrascht. Ohne R-Integration ist die Anzahl der verfügbaren Algorithmen sehr überschaubar und richtig komplexe Sachen kann man im „Expert Mode“ auch kaum machen.

SAP’s Stärken 2016:

  • Klares Commitment zu Analytics
  • Vision für Cloud Analytics
  • Umfang der möglichen Use Cases
  • Embedded Analytics
  • Leicht zu lernen und zu benutzen

SAP’s Stärken 2017:

  • SAP HANA-Integration
  • Support for Citizen Data Scientists (Automated Analysis)
  • Deployment (Predictive Factory & Analytics Extensions)
  • Klares Commitment zu Analytics
  • Umfang der möglichen Use Cases

SAP’s Warnungen 2016:

  • Geringe Gesamtzufriedenheit, Support und Vertriebsbeziehungen
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)
  • Kunden hautsächliche innerhalb der Bestandskunden

SAP’s Warnungen 2017:

  • Kunden hautsächliche innerhalb der Bestandskunden
  • Geringe Gesamtzufriedenheit
  • HANA-First-Strategy
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)

Zusammenfassend läst sich für SAP also sagen, SAP PA ist recht schnell zu erlernen und bietet dabei ein breites Anwendungsspektrum. Jedoch wurden die Warnungen nicht erhöhrt und finden sich in 2017 wieder. Der Fokus auf HANA ist Chance und Risiko zugleich.

Microsoft gilt als Visionär im MQ. In 2017 sind Sie etwas höher an die Schwelle zum Leader gerückt. War 2016 noch SASS der Schwerpunkt der Betrachtung da andere Produkte erst frische am Markt waren, so schwenkt der Schwerpunkt in 2017 zum Azure Machine Learning (AML) Angebot als Teil Cortana Intelligence Suite.

MS’s Stärken 2016:

  • Höchste Bewertung bei „Completeness of Vision“
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Produktroadmap und Vision
  • AML bietet eine einfache Integration von Cloud-Data Sources
  • Plattform-Skalierbarkeit und Pay as you use
  • Starke OpenSource-Integration

MS’s Stärken 2017:

  • Plattform-Skalierbarkeit & Flexibilität
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Starke OpenSource-Integration
  • Innovativ im Bereich Bild- und Spracherkennung sowie Deep Learning
  • Starke Machine Learning-Fähigkeiten sowie Collaboration und Automatisierung
  • Starke Produktroadmap und Vision

MS’s Warnungen 2016:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Unsicherheit über Produktstrategie bzgl. integrierter Tools (z. B. Revolution Analytics)
  • Zum Teil geringe Kundenzufriedenheit (jedoch eher bzgl. traditioneller Tools wie SSAS)

MS’s Warnungen 2017:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Cortana Intelligence Suite ist noch neu und unreif
  • Delivery Optionen
  • Einige Bereiche sind schwach ausgeprägt (Dokumentation, Data Preperation, Branchenlösungen)

In Summe lässt sich über das Microsoft-Angebot sagen, es ist skalierbar und flexibel, hat eine hervorragende Roadmap und Open Source-Integration. Der Fokus ist auf Cloud, was von den Kunden nicht immer als Vorteil gesehen wird. Auch ist das Produkt noch recht neu, entwickelt sich jedoch schnell weiter.

Soweit zu den zwei Anbietern, welche für mich interessant sind. Aktuell ist keiner davon Leader oder Challenger. Microsoft hat bei der Completeness of Vision jedoch klar die Nase vorne und macht den Eindruck, möglicherweise bald in den Leader-Quadranten aufzusteigen. SAP hat nach meiner Beobachtung seine Aktivitäten stark gestreut auf viele Produkte und kommt deshalb nicht vergleichbar voran. Um zu den führenden Anbietern aufzuschließen fehlt noch ein wenig. Wie üblich ist das Produkt eher bei Bestandskunden verbreitet und tut sich aktuell schwer im breiten Markt.