OpenSAP: The Internet of Things with SAP

Ein aktuell interessanter, wenn auch nur 1-wöchiger Kurs von OpenSAP ist „The Internet of Things with SAP„. Im Kontext Analytics beschäftigt mich das Thema IoT schon länger. SAP hat dort eine gewisse Entwicklung hinter sich. Auch ist die Strategie bisher nicht ganz klar.

Auf der einen Seite gibt es den PCo – Plant Connectivity, welcher seine Heimat eher im Bereich Industrie 4.0 hat. Auf der anderen Seite findet sich in Cloud Foundry (SAP Cloud Platform) eine IoT Platform, welche die bisherige in Neo mittlerweile komplett abgelöst hat.

Welche aktuellen Erkenntnisse bringt uns dieser OpenSAP-Kurs?

Was ist IoT?

“The Internet of Things (IoT) is the network of physical objects that contain embedded technology to communicate and sense or interact with their internal states or the external environment.”

– Source: Gartner

Eine mögliche, vorgestellte Definition. SAP gibt hier erstmal keine eigene Definition.

Das IoT kann in 3 wesentliche Bausteine aufgeteilt werden:

  • Sensoren – Ein kleines Gerät, welches die Information aus der Umgebung liefert und als digitales Signal zur Edge oder Cloud übermittelt. Mögliche Messwerte sind u. a.:
    • Geräusche
    • Position (GPS)
    • Feuchtigkeit
    • Bewegung
    • Temperatur
    • usw.
  • Edge – Ein Gerät zur Verarbeitung von Daten am Rande eines Netzwerks zwischen Sensoren und Cloud/Rechenzentrum. Die Verarbeitung und Analyse nahe am Sensor kann die Entscheidung auf Basis der Daten beschleunigen. Eingesetzte Geräte sind u. a.:
    • IoT Gateways von einschlägigen Herstellern (z. B. Intel, Dell, Cisco)
    • Remote Server
    • Industrie PCs
    • Raspberry Pi
    • usw.
  • Cloud – Ein Rechenzentrum bzw. Rechenzentrumsverband welcher Speicher für die Daten und Verarbeitungskapazitäten zur Verfügung stellt.

SAP sieht IoT als wichtigen Baustein für das Intelligent Enterprise. Dies besteht aus dem klassischen Teil eines Systems, welches die Unternehmensprozess managed (z. B. SAP ERP/Intelligent Suite – O-Data) sowie Möglichkeiten die Interaktion mit Kunden und Mitarbeitern zu messen und zu verstehen (z. B. Qualtrics – X-Data) und warum etwas passiert. Um in einer „Experience Economy) zu gewinnen, müssen lt. SAP beide Seiten über Intelligence (Analytics, Intelligent Technologies, Database & Data Management und Application Integration & Development -> Business Technology Platform) verbunden werden. Teil der „Intelligent Technologies“ ist IoT cloud & edge.

3 Beispiele für die Relevanz von IoT:

  • Erhöhung der Produktivität durch die Wahrnehmung der aktuellen Situation (Nachschubsteuerung)
  • Verbindung von Prozessen für eine verbesserte Kundenerfahrung (z. B. Predictive Maintenance)
  • Geschäftsinnovationen für neue Geschäftsmodelle und Einkommensströme (z. B. Optimierung bei erneuerbaren Energien)

 

SAP Leonardo IoT in der Cloud bietet 4 Innovatonspfade:

  • Embed – Einbetten von IoT in SAP-Anwendungen (S/4HANA, C/HANA, …)
  • Extend – Entwickler die Möglichkeit geben, bestehende SAP-Prozesse durch vorher nicht verbundene IoT-Geräte wie Maschinen oder Produkte zu erweitern
  • Evolve – Im Kontext von SAP-Systemen neue Geschäftsmodelle ermöglichen
  • Edge-Enabled – Eine durch die Cloud ermöglichte Verarbeitung durch Edge-Geräte

Services von SAP Leonardo IoT:

  • Enablement of the Digital Twin
  • Data ingestion und Big Data storage
  • Analytic Services & Aggregation Management
  • Event Services
  • Actions, Integration & Descision Support Services
  • Streaming Rules & Roles on Persisted Data

SAP Edge Services – Die Services können mit 3 D’s beschrieben werden:

  • Distributed
  • Diverse
  • Dynamic Communication Channel

Das Angebot umfasst die folgenden Services:

  • Police Service – Deployment und Lifecycle Management aus der Cloud
  • Essential Business Functions Services – Erweiterung bestehender Anwendungen wie SAP ERP, SAP C/4HANA und SAP Asset Intelligence Network
  • Streaming Services – Analyse von IoT-Datenströmen in Realtime basierend auf Geschäftslogiken
  • Persistence Service – Speichern der IoT-Daten im IoT-Gateway
  • Custom Edge Services – z. B. Predictive Analytics

 

Aktuelle Themen, welche Industrie 4.0 weiter treiben:

  • 5G Mobilfunk-Standard
  • Edge Processing
  • Die 4. industrielle Revolution

 

SAP Analytix Fazit

IoT liefert grundsätzlich eine große Menge an Daten, welche in produktiven nach Big-Data-Prinzipien gemanaged werden müssen. Der Fokus des Kurses hier liegt ganz klar auf dem SAP Cloud Platform-basierten Leonardo IoT-Angebot.

Für die Analytics Services wird aus meiner Sicht konsequent SAP Analytics Cloud als Frontend über Live-Verbindung genutzt. Für die intelligente Automatisierung spielt im Weiteren Machine Learning eine wichtige Rolle.

Auch wenn IoT im eher klassischen Kontext über ein gewisses Monitoring hinaus kaum eine Rolle spielt, bringen neuere Disziplinen wie Big Data und Data Science in diesem Umfeld enormen Mehrwert. Das Thema IoT und Industrie 4.0 erfreuen sich zunehmender Beliebtheit und die Relevanz und Nutzung bei den Unternehmen wird deutlich zunehmen.

HPI – BD19/20 – Benchmarking und Measurement

Als Teil der Lecture Series des HPI hier Teil 4 der Big Data-Vorlesung mit „Benchmarking und Measurement„.

Zuletzt – Teil 4: HPI BD19/20 – Big Data Stack

Warum überhaupt messen?

  • Verfügbarkeit von Webseiten gewährleisten
  • Interaktive Datenanalyse skalierbar machen
  • Realtime-Analytics

 

Überlegungen

  •  Systemperformance muss regelmäßig geprüft werden.
  • Niemals nur einer Messmethode glauben
  • Back-of-the-envelope calculations -> Überschlagsrechnung
    • Grobe erste Berechnung, ob es passt oder nicht
    • Bsp. Berechnung der Performance der Einzelkomponenten (L1/L2-Cache, Hauptspeicher, Festplatte, …)

Im weiteren zeigt die Vorlesung viele Möglichkeiten, statistisch mit Messwerten zu arbeiten um verschiedene Aspekte sinnvoll zu testen und validieren zu können.

 

SAP Analytix-Fazit

Nun, im BI-Umfeld wie überall im Bereich Analytics spielt Performance eine wichtige Rolle und umfasst oft viele Stufen und Optionen.

Im klassischen SAP BW on Any DB dürfte dies z. B. jeder BI-Administrator/-Berater kennen. Lesen auf ein flaches Schema wird tendenziell nicht empfohlen, außer man benötigt wirklich die Detailebene und liest jeden einzelnen Datensatz. Für alles was aggregierte Daten berechnet, macht das Star Schema (InfoCube) mehr Sinn. Darauf aufbauend gibt es klassisch die Aggregate, welche nochmals über mehrere Merkmale verdichtet, eine Teilmenge der Daten auf der Datenbank bereitstellt. In der Pre-HANA Ära gab es dann auch noch den BWA, der die Daten im deutlich schnelleren Hauptspeicher vorgehalten hat. Im optimalen Fall wurden die Daten auch schonmal geladen und liegen im noch schnelleren Cache. All dies kann man designen und bereitstellen um Performance hoch zu halten.

HANA bringt das Thema natürlich nochmal auf ein neues Level. Die Daten sind permanent in Memory, spaltenbasiert quasi schon aggregiert und liefern mit optimierter Hardware auch die entsprechende Performance.

Die Cloud kann und wird evtl. zukünftig hier noch flexiblere Optionen ermöglichen, da hier Ressourcen flexibel zugeschaltet oder wieder zurückgefahren werden können.

Natürlich weiß auch jeder, der sich mit Performancemessungen beschäftigt hat, dass das beschriebene allein evt. noch nicht immer auch beim Anwender ankommt. Die richtige Systemparametrisierung, das Netzwerk und das Frontend selbst bzw. der Rechner auf dem dieses läuft, geben ihr übriges dazu.

In einem SAP BW-System haben Statistiken auch einen lange Historie und können ad-hoc oder im Langzeitvergleich flexibel ausgewertet werden.

 

Nächste Lecture: Benchmarks

 

HPI – BD19/20 – RDBMS Internals

Als Teil der Lecture Series des HPI hier Teil 3 der Big Data-Vorlesung mit „RDBMS Internals„.

Zuletzt – Teil 2: HPI – BD19/20 – Database Systems Recab

Hier geht es nochmal darum, wie Datenbanken im intern funktionieren.

Memory Hierarchy – klassisch gibt es verschiedene Abstufungen von schnell, teuer und klein (Register, Cache – in Kilobyte) zu langsam, günstig und damit typischerweise umfangreich (Bandlaufwerke – in Terabyte). Hauptspeicher und Festplatte liegt hier dazwischen. Flash ist ein modernerer Baustein dazwischen.

Von Hauptspeicher zu Festplatte gibt es ein Access Time Gap.

Das Potential von Festplatten ist ausgereizt durch physikalische Grenzen.

Datenbank-Layerarchitektur – Man kann die folgenden 5 Layer unterscheiden:

  • Datenmodell – SQL, Tabellen
  • Logischer Zugriff – Wie wird der Zugriff gehandhabt
  • Memory – Indexstrukturen usw.
  • Pufferverwaltung – Optimierung von Zugriffen
  • Betriebssystem – Zugriff auf Festplatte, typischerweise für kleine Dateien optimiert -> Ansatz für Datenmanagement!

-> Nicht jede Datenbank hat zwingend alle Layer!

Access Methods – von der Festplatte wird nicht der einzelne Datensatz, sondern immer der gesamte Block gelesen. Indizes erleichtern das Auffinden. Ein wichtiger Index ist der B- und B*-Baum Index. Diese Indizes sind sehr flach und benötigen dadurch wenig Zugriffe. Für schnelle, zufällige Zugriffe eignet sich bspw. Hashing besser. Caching ermöglicht über verschiedene Strategien den Zugriff auf die Festplatte zu umgehen.

Query Processing – Eine Query (SQL) generiert einen Query Execution Plan, welcher die Verarbeitung der Daten bestimmt. Um den optimalen Plan zu finden gibt es entweder einen Rule-Based Optimizer oder Cost-Based Optimizer.

SAP Analytix-Fazit

Nun, SAP HANA zeigt es, schnelle Zugriffe durch die Haltung der Daten im Arbeitsspeicher sind heute State-of-the-Art. Große Caches helfen dabei natürlich auch, neben weiteren Techniken, Abfragen zu beschleunigen. So kann der Flaschenhals bzgl. des Zugriffs auf eine Festplatte umgangen werden.

Auch von der ABAP-Seite ist die Diskussion bekannt, wie interne Tabellen gehandhabt werden sollen. Hab ich eine sortierte Tabelle und frage diese dann per BINARY SEARCH ab. Oder definiere ich gleich eine Hash-Tabelle, welche für jedes lesen eine konstante, i. d. R. kurze Zeit benötigt.

Der BW-Berater kennt sich mit B-Bäumen aus. Wird dieser doch, soweit dies die Datenbank überhaupt unterstützt durch das Flag „Hohe Kardinalität“ in der Definition der Dimension eines InfoCubes generiert. Somit können schnelle selektive Zugriffe auf große Dimensionstabellen ermöglicht werden. Dem BW-Admin wird auch die Funkion, eine Statistik für die Daten aufzubauen gut gekannt sein. Damit kann der Cost-Based Optimizer einen optimalen Ausführungsplan ermitteln.

Alles in allem damit auch für den SAP-Kontext gute Grundlagen, dass Verständnis zu vertiefen.

 

Nächste Lecture: Big Data Stack

 

 

HPI – BD19/20 – Database Systems Recab

Als Teil der Lecture Series des HPI hier Teil 2 der Big Data-Vorlesung mit „Database System Recab„.

Teil 1 – Introduction

Einführend in dieser Vorlesung eine Zusammenfassung zu den wichtigesten Begriffen der Datenbankvorlesungen.

  • RDBM – Relation DataBase System
  • Client-Server
  • Datenrepresentation
    • Logische Ebene
    • Konzeptionelle Ebene
    • Physische Ebene
  • Relationales Datenmodell
  • ER-Modellierung
  • Normalformen
  • Relationale Algebra
  • SQL
  • Datenintegrität
  • ACID-Prinzip
  • Konkurrierende Zugriffe

 

SAP Analytix-Fazit

Sicherlich gut, auch wenn es dazu schon Vorlesungen gab, nochmal wichtige Grundlagen zu wiederholen. Sicherlich auch für Entwickler und HANA-Modellierer ein Thema. Im klassischen BI-Umfeld kann es ja zusätzlich auch immer noch vorkommen, dass diverse Datenbanken als Quelle integriert werden sollen.

 

Nächste Lecture: RDBMS Internals

HPI – BD19/20 – Introduction

Als Teil der Lecture Series des HPI hier Teil 1 der Big Data-Vorlesung mit „Introduction„.

Grundlegend eine Einführung in Big Data. Woher kommen die Daten (Messages, Tweets, Social Networks, Blogs, Click Stream, Logs, …)

-> Der Wert der Daten nimmt über die Zeit ab (=> niemand benötigt Click Stream-Informationen die 10 Jahre alt sind.)

Es gibt viele Definitionen von Big Data. Generell kann gesagt werden – wenn du die Daten mit klassischen Ansätzen nicht mehr verarbeiten kannst, ist es Big Data.

Big Data wird oft über die 3 Vs definiert: Volume / Velocity / Variety

Big Data hat auch Risiken:

  • Fehler: Falsche Korrelationen, Bias, Simpsons Paradox
  • Manipulation: Fit data to result, biased training, manipulative Visualisierungen
  • Misuse: Diskriminierung, Verletzung von Datenschutz, Spionage
  • Data Monopoly

Der Nutzen von Big Data ist u. a.:

  • Wirtschaft: Predictive Maintenance, Betrugserkennung, Kapazitätsplanung, Prozessoptimierung
  • Automotive: Verkehrsoptimierung, Selbstfahrende Autos, verbesserte Sicherheit
  • Health: Früherkennung, personalisierte Medizin, medizinische Assistenten, Kostenreduktion
  • Science: Evidenzbasierte Forschung, schnelle Datenanalyse und -wiederverwendung

=> Data Science ist der Prozess um aus Big Data nutzen zu ziehen.

Data Science vs. Data Engineering: DS organisiert und analysiert Daten um Probleme zu lösen. DE erstellt die Architektur, betreibt Datenpipelines und bring DS in einen produktiven Kontext.

Ethik: „With great power comes great responsibility.“

 

SAP Analytix-Fazit

Gute Einführung in das Thema. Hier ist sicherlich noch nicht viel zu sagen. SAP treibt das Thema toolmäßig mit SAP Data Hub bzw. SAP Data Intelligence und versucht damit Data Science und Data Engineering zu verbinden.

SAP hat die letzten Jahre viele Initiativen entwickelt, um Big Data zu bewältigen. SAP HANA, Vora, Big Data Service und nicht zuletzt den demnächst startenden HANA Cloud Service, welcher direkt eine Data Lake-Funktionalität mitbringt.

Bleiben wir gespannt, wie es anläuft.

Nächste Lecture: Database Systems Recab

Is Business Intelligence a Data Science Role?

Vor etwa einem Jahr hat ein Teilnehmer in meines Coursera-Kurses „Big Data Specialication“ in einem der Foren die Titelfrage gestellt. Als ich vor etwa vier Monaten darauf gestoßen bin, habe ich neben anderen Teilnehmern versucht, die Frage zu beantworten.

Solche Abgrenzungen sind natürlich grundsätzlich schwierig. Im Beitrag zur Frage war sogar Business Intelligence und Business Analyst zusammen geschmissen. Grundsätzlich finde ich es auch immer interessant, wenn in einem Big Data oder Data Science-Buch Abgrenzungen sehe. I. d. R. finde ich diese immer etwas seltsam…

Ich hatte etwas Zeit damit verbracht, die Diskussionen zu lesen und darüber nachzudenken. Die Antwort von meiner Seite war dann auch recht umfangreich, weshalb ich gedacht habe, es könnte sich lohnen, diese hier wieder zu geben.

Meine Antwort:

Hi all!

Very interesting discussion. As a BI and DW specialist who is learning more about Data Science and Big Data, let me give my part to this discussion.

Where I‘m working and living (Germany), you can clearly differentiate between a Data Scientist and someone doing BI and DW. This is not primarily about tools. And from my point of view it is changing over time.

Data Scientists I know work with NoSQL, maybe Hadoop ecosystem and Spark and more and more in the cloud. Data comes from everywhere and can be structured or unstructured. Social Media, IoT, Business Data, … And they work with machine learning, statistics, also visualizations. E. g. deep learning with TensorFlow and Keras is very popular and Tableau for visualization and story telling. Some of them are very specialized on certain domains like IoT/time series or banking area (fraud detection, …).

So typical BI/DW-tools (DMBS, Viz-Tools) are also used by Data Scientists. What I would like to see as a Data Scientist is experience in working with math methods and machine learning and knowing specialiced tools like KNIME or know programming with R or Python.

CRISP-DM is a typical process and can be found in different variants. As a result Data Scientists found and explain interesting patterns in data and/or implement data driven solutions to optimize business or extend existing business models (or create new ones like Uber, Spotify, Google, Amazon, …)

But at the end I’m not a Data Scientists. So these are things I,ve learned, what maybe is missing to become on, if ever…

As a BI/DWH guy I follow the process ETL->DWH->BI. Typically with internal business data. My job is to extract, integrate and harmonize data from different sources like ERP systems or databases. We try to create an efficient, current (as needed) and integrated high quality base of data in a core data warehouse (a database) which delivers, based on business specification, transactional and master data.

In times before In-Memory databases, we modeled dimensional schemas delivering data very fast and flexible for queries, reports, dashboards, OLAP analysis or further applications like planning and data mining. For reports and dashboards definition of key performance indicators (KPIs) and a good understanding of the transactional process and master data is very often necessary and part of the project. At the end we deploy the report with BI clients, embedded, in a BI portal, mobile and so on.

While machine learning in DS is rather data driven, OLAP Analysis is hypothesis driven and manual work. At the end both can be done on a DW.

I think on a high level a lot of tasks are very similar. Gathering data. Load data on time or regularly to a kind of database. Integrate data (before doing analysis (BI/schema on write) or while doing analysis (DS/schema on read). Test the solution and deploy it. Maybe working on strategy, governance, operations, authorizations, optimization and so on.

For both there are a lot of tools, methods and approaches doing all this. In the last years I see on the one hand, that more and more classical BI vendors getting open for Data Science and Big Data approaches bringing both worlds together. On the other hand I see in both areas that these are not jobs just for one unicorn but for maybe two (like Data Engineer and Data Scientists) or a whole team. As it is in BI. Very often we have specialists for ETL/DW, for BI Clients or for Planning.

Hope this helps a little bit for future learners.

Maybe on last point. Data Science is much more of interest in these days 🙂 while BI/DW is still there since long time and in a broad range of businesses today. I’m looking forward to learn more and see what happens in the next years with these topics.

 

Im weiteren Verlauf gab es auch nochmal eine Antwort von einem Mentor mit folgender Meinung:

„In my view, the largest distinction between business intelligence and data science is that the former focuses on reporting what happened in the past, and the later focuses on predicting the future.“

Eine Aussage, welche ich immer wieder höre und etwas seltsam und im besten Fall etwas unzureichend dargestellt finde. Meine Antwort darauf:

I think no one in BI is building a report just to see what happened. This is an interesting discussion which came up very often. Machine Learning too is analyzing past data. Because you don’t have future data…

In BI you work with planning and forecasting (what could be based on predictive analytics or often not). You analyze past patterns and current trends in data to understand influences and changes to make future predictions and support decisions. You simulate and enhance this with expert knowledge like changed processes, planned promotions, new logistic technologies which can not predicted just maybe calculated or simulated.

In BI you also close the loop and bring analytical information back to ERP/OLTP or other operational Systems to support or automate decisions.

Difference between BI and DS is here maybe that in BI decisions and analysis is mostly done manually and hypothesis driven while DS implement solutions which learn by machine and data driven.

Master the Basics of Analytics

Wenn man sich mit einem Gebiet im Bereich Analytics beschäftigt oder vielleicht auch von einem bestimmten Anbieter oder Tool kommt, dann steht man evtl. irgendwann vor der Frage, woher das eigentlich alles kommt?

Manchmal ist es evtl. eine gute Idee mal ein Buch in die Hand zu nehmen, um von jemandem zu lesen, der sich als einer der Ersten mit dem Thema beschäftigt hat. Oder eben es als erster schaffte, dass auch auf Papier zu bringen.

 

Data Warehouse

Barry Devlin – Erste Definition des Begriffs (Business) Data Warehouse

Homepage | Twitter | Artikel „Business Data Warehouse“

William (Bill) Inmon – Vater des Data Warehouse

Twitter

Ralph Kimball – Vater der Dimensionalen Modellierung

Homepage

Dan Linstedt – Begründer von Data Vault

Homepage | Twitter

 

Business Intelligence

Hans-Peter Luhn – Vater der Business Intelligence

Artikel „A Business Intelligence System

Howard Dresner – Prägte „Business Intelligence“

Homepage | Twitter

Edward F. Codd – Prägte „On-Line Analytical Processing – OLAP“

Collected Work | Artikel „OLAP“

 

Information Design

Ben Shneiderman – Visual Information Seeking Mantra; Erfinder Tree Maps

Homepage | Twitter

Edward Tufte – Erfinder Sparklines; Prägte „Chart Junk“ und „Data-Ink-Ratio“

Homepage | Twitter | GitHub

Stephen Few – Leader in Datenvisualisierung; Erfinder des Bullet Graph

Homepage I | Homepage II

Rolf Hichert – Mitbegründer der SUCCESS-Rules und des IBCS

Homepage | Twitter | YouTube

 

Data Science

John W. Tukey – Begründer der explorative Datenanalyse

Biography | Report (1993, pdf)

Gregory Piatetsky-Shapiro – Prägte „Knowledge Discovery in Databases – KDD“

Homepage | Twitter

Andrew Ng – Mitgründer Google Brain-Projekt, Mitgründer Coursera

Homepage | Twitter

 

Big Data

Doug Cutting – Vater von Hadoop; Chefarchitekt Cloudera

| Blog | Twitter | Github

Matei Zaharia – Erfinder von Apache Spark; Miterfinder von Apache Mesos

Homepage | TwitterDissertation | GitHub

James Dixon – CTO Pentaho; prägte den Begriff „Data Lake“

Blog „Data Lake“ | Twitter

Nathan Marz – Erfinder von Apache Storm; Erfinder der Lambda-Architektur

Homepage | Twitter | GitHub

Forrester Wave™: Big Data Fabric – 2018 vs. 2016

Im Juni diese Jahres hat Forrester die Wave für „Big Data Fabric“ veröffentlicht. Ende 2016 gab es bereits eine entsprechende Forrester Wave. Schauen wir mal, was sich seither entwickelt hat. Neben der allgemeinen Betrachtung ist natürlich die Entwicklung von SAP hier besonders interessant.

Zunächst einmal ist der Begriff „Big Data Fabric“ nicht so einfach zu greifen.

Grob umreißt es Forrester wie folgt:

Big data fabric, an emerging platform, accelerates insights by automating ingestion, curation, discovery, preparation, and integration from data silos.

Quelle: Forrester

Als Inklusionskriterium gibt Forrester das Folgende an:

Evaluated vendors must provide big data fabric features and functionality, such as data access, data discovery, data transformation, data integration, data preparation,
data security, data governance, and data orchestration of data sources (including big data sources) to support various big data fabric workloads and use cases.

The solution must be able to ingest, process, and curate large amounts of structured, semistructured, and unstructured data stored in big data platforms such as Apache Hadoop, MPP EDW, NoSQL, Apache Spark, in-memory technologies, and other related commercial and open source projects.

The solution should be able to store metadata/catalogs for data modeling and data access to support a globally distributed data fabric.

Quelle: Ebenda

TDWI hat ebenfalls einen Versuch unternommen, den Begriff greifbar zu machen:

The term big data fabric is loosely defined at present, representing a need rather than a specific solution. A big data fabric is a system that provides seamless, real-time integration and access across the multiple data silos of a big data system.

Quelle: TDWI

Evtl. lässt es sich ja über die eingesetzten Tools noch greifbarer machen:

BDF Tools

Nun, SAP Data Hub wurde erst im Herbst 2017 gelaunched. Im Herbst 2016 wurde Altiscale von SAP übernommen. Wohl zu spät um damals noch Berücksichtigung zu finden. Die Entwicklung zeigt ein Stück weit, dass sich bei SAP auf jeden Fall einiges getan hat.

Somit ist also ein breites Technologie- und Anwendungsspektrum von SAP im Einsatz, welches auch typischerweise im Umfeld Big Data bei der SAP kommuniziert wird.

Interessant vielleicht auch ein Blick auf die zwischendurch in Q2/2017 erschienene „Forrester Wave: Big Data Warehouse“. Dort war SAP Leader u. a. mit AWS und Oracle. Dabei wurden folgende Tools evaluiert:

  • SAP HANA 2.0
  • SAP Vora 1
  • SAP BW/4HANA
  • SAP Data Services
  • SAP Cloud Platform Big Data Services

Interessant, dass der gleiche Author, Noel Yuhanna 2017 bereits BW/4HANA evaluiert, hier jetzt in 2018 für Big Data Fabric jedoch noch BW 7.5. Für Data Hub war es noch zu früh und die Enterprise Information Management (EIM)-Tools werden hier wohl zusätzlich betrachtet. Das ist leider nicht ganz eindeutig. Früher war hier Data Services durchaus noch damit gemeint. Aktuell betrachtet man ja eher unter dem Begriff die HANA-orientierten Tools rund um Smart Data Integration. Somit sind für wohl verschiedene Use Cases doch sehr ähnliche Tools im Rennen. Jedoch ist der Teilnehmerkreis dabei recht unterschiedlich. Nur SAP, Oracle, IBM, Hortenworks und Cloudera sind in beiden zu finden von jeweils 15 Anbietern.

Aber nun zu den Bewertungen von SAP vs. dem klaren Leader. Leider haben sich die Kriterien ein wenig geändert und auch der Leader von 2016, Informatica ist 2018 weit abgeschlagen und Talend, in 2016 auch schon Leader, hat hier die Rolle übernommen.

BDF Score

Es scheint recht klar, SAP kommt nicht an die Leader heran. SAP ist als Strong Performer in der Gesamtsicht eher im Mittelfeld der Anbieter zu finden. Beim Current Offering haben sich alle Werte verbessert, während die Roadmap und Vision wohl nicht mehr so ausgeprägt wahrgenommen werden wie noch 2016. Sicherlich hat die SAP bereits einige Schritte unternommen und mit Data Hub eine Lösung bereitgestellt, welche eine größere Lücke gefüllt hat. Zu den Führenden ist es jedoch noch ein weiter Weg.

Leider stehen in dem mir vorliegenden Dokument keine genaueren Definitionen zur Verfügung, was z. B. „Data Fabric Access“ bedeutet, bei dem SAP ganz gut abgeschlossen hat.

 

Was ist der SAP Data Hub?

Vor kurzem war ich auf der TDWI Konferenz 2017 auf dem SAP Special Day, der unter dem Motto „Ihr Fahrplan zum Digital Enterprise“ stand.

Eigentlich hatte ich hier verschiedene Perspektiven zu den aktuellen Themen wie auch etwas Praxiserfahrungen erwartet. Doch dann hat Jan Bungert (Head of Database & Data Management Germany) folgende Folie in seinem Vortrag aufgebaut:

TDWI2017_1
SAP-Vorstellung einer datengetriebenen Architektur

Nun, klar, HANA kenne ich, SAP Vora, alles von Hadoop über S3 bis hin zu Tensorflow. Selbst mit Tensorflow konnte ich was anfangen. Aber was ist „SAP Data Hub“?

 

Beim erste Googlen bin ich bei SAP Hybris Data Hub gelandet. Nun, das hörte sich ja jetzt auch gar nicht so falsch an. Nur hat halt hier niemand was von Hybris gesagt. Auch sollte das noch gar nicht alles sein. In einer weiteren Präsentation wurde es mit einem Kundenbeispiel konkreter:

TDWI2017_2.PNG

Wie es aussieht, übernimmt hier der SAP Data Hub das ganze Datenmanagement, bis zur Anflanschung an BW/4HANA über SAP Vora.

Ein paar konkretere Screenshots gab es auch dazu:

TDWI2017_3
SAP Data Hub – Übersicht und Monitoring
TDWI2017_4
SAP Data Hub – Prüfung von Daten in Flatfile
TDWI2017_5
SAP Data Hub – Datenfluss-Modellierung

Wenn so ein Produkt bisher kaum auffindbar ist, dann gibt es zwei Möglichkeiten:

-> Das Produkt ist neu.

-> Das Produkt hat einen neuen Namen.

Wie geschrieben, kommt man bei „SAP Data Hub“ eher bei einem SAP Hybris-Produkt raus, das so heißt. Dieses gibt es jedoch, soweit für mich nachvollziehbar, seit Jahren. Der SAP Data Hub wird aber laut PAM zum Q3/2017 allgemein verfügbar. Die Hilfe ist momentan verfügbar für Release 1.0 SPS0.

Aus der SAP-Hilfe kann man entnehmen, dass das System auf HANA XS läuft und SAP Vora, Spark und HANA Smart Data Integration unterstützt. Dies zeigt so auch der Architekturüberblick:

SAP_DATA_HUB_Architecture
SAP Data Hub – Architektur

 

Denke ich daran, dass SAP beim letzten DSAG AK-Treffen für BI & Analytics im Kontext von SAP Leonardo auch noch eine neue Big Data Strategie aufgezeigt hat, dann zeigt sich doch, das SAP sich hier stark mit neuen eigenen Produkten engagiert, während man sich gleichzeitig mit Open Source-Komponenten ergänzt. Dort war zwar noch nicht von SAP Data Hub die rede, aber es bleibt zu hoffen, dass dies nachher aus einer Hand gesteuert wird.

Auf jeden Fall wird es nicht langweilig. Vielleicht auch nicht einfacher. Wir werden sehen, was kommuniziert wird, sobald die Marketingmaschine dazu anläuft.

Der Weg zum Data Scientist

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.