Der Weg zum Data Scientist

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.

Advertisements

Gartner Magic Quadrant – Data Science Platforms 2017

Zunächst einmal – SAP hat den „Magic Quadrant for Advanced Analytics Platforms“ umbenannt in „Magic Quadrant for Data Science Platforms“. Als Grund gibt Gartner an, dass Data Scientists zu den Hauptnutzern dieser Plattformen gehören.

Gartner definiert eine Data Science Platform wie folgt:

„A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solution, and for incorporating those solutions into business processes, surrounding infrastructure and products.

Im Vergleich zum 2016 MQ fällt auf, dass der Leaders-Quadrant erstmal recht gleich geblieben ist. IBM, SAS, RapidMiner und KNIME sind die Leader. Dell ist rausgefallen, jedoch wird erklärt, dass Dell in Quest aufgegangen ist. Quest hat in 2017 eine gute Position im Challenger-Quadranten.

Bei den Leadern ist noch zu erwähnen, dass IBM hier 2017 eine klare Führungspositon einnimmt. Im Vorjahr war das noch nicht so klar, war doch SAS und auch KNIME in der „Completeness of Vision“ noch etwas vorne und SAS lag in der „Ability to Execute“ vorne und hatte somit 2016 die Führungsposition.

Nun, die Frage ist, wo liegt SAP, wo im Vergleich und was hat sich getan? Microsoft möchte ich ebenso betrachten.

SAP hatte es 2016 gerade in den Challenger-Quadranten geschafft. In 2017 ist SAP etwas abgerutscht und somit ein starker Nischenplayer. Nun gut, es verwundert wenig. Aktuell läuft von SAP auf OpenSAP der Kurs „Getting Startet with Data Science„. Schwerpunkt ist das hier im Magic Quadrant ebenfalls bewertete SAP BusinessObjects Predictive Analytics und dessen Nutzung im Rahmen des CRISP-DM-Prozesses. Gut, der Kurs heißt „Getting Startet…“ jedoch ist das wirklich Grundlagenarbeit. Die Arbeit mit SAP BO Predictive Analytics hat mich schon etwas überrascht. Ohne R-Integration ist die Anzahl der verfügbaren Algorithmen sehr überschaubar und richtig komplexe Sachen kann man im „Expert Mode“ auch kaum machen.

SAP’s Stärken 2016:

  • Klares Commitment zu Analytics
  • Vision für Cloud Analytics
  • Umfang der möglichen Use Cases
  • Embedded Analytics
  • Leicht zu lernen und zu benutzen

SAP’s Stärken 2017:

  • SAP HANA-Integration
  • Support for Citizen Data Scientists (Automated Analysis)
  • Deployment (Predictive Factory & Analytics Extensions)
  • Klares Commitment zu Analytics
  • Umfang der möglichen Use Cases

SAP’s Warnungen 2016:

  • Geringe Gesamtzufriedenheit, Support und Vertriebsbeziehungen
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)
  • Kunden hautsächliche innerhalb der Bestandskunden

SAP’s Warnungen 2017:

  • Kunden hautsächliche innerhalb der Bestandskunden
  • Geringe Gesamtzufriedenheit
  • HANA-First-Strategy
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)

Zusammenfassend läst sich für SAP also sagen, SAP PA ist recht schnell zu erlernen und bietet dabei ein breites Anwendungsspektrum. Jedoch wurden die Warnungen nicht erhöhrt und finden sich in 2017 wieder. Der Fokus auf HANA ist Chance und Risiko zugleich.

Microsoft gilt als Visionär im MQ. In 2017 sind Sie etwas höher an die Schwelle zum Leader gerückt. War 2016 noch SASS der Schwerpunkt der Betrachtung da andere Produkte erst frische am Markt waren, so schwenkt der Schwerpunkt in 2017 zum Azure Machine Learning (AML) Angebot als Teil Cortana Intelligence Suite.

MS’s Stärken 2016:

  • Höchste Bewertung bei „Completeness of Vision“
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Produktroadmap und Vision
  • AML bietet eine einfache Integration von Cloud-Data Sources
  • Plattform-Skalierbarkeit und Pay as you use
  • Starke OpenSource-Integration

MS’s Stärken 2017:

  • Plattform-Skalierbarkeit & Flexibilität
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Starke OpenSource-Integration
  • Innovativ im Bereich Bild- und Spracherkennung sowie Deep Learning
  • Starke Machine Learning-Fähigkeiten sowie Collaboration und Automatisierung
  • Starke Produktroadmap und Vision

MS’s Warnungen 2016:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Unsicherheit über Produktstrategie bzgl. integrierter Tools (z. B. Revolution Analytics)
  • Zum Teil geringe Kundenzufriedenheit (jedoch eher bzgl. traditioneller Tools wie SSAS)

MS’s Warnungen 2017:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Cortana Intelligence Suite ist noch neu und unreif
  • Delivery Optionen
  • Einige Bereiche sind schwach ausgeprägt (Dokumentation, Data Preperation, Branchenlösungen)

In Summe lässt sich über das Microsoft-Angebot sagen, es ist skalierbar und flexibel, hat eine hervorragende Roadmap und Open Source-Integration. Der Fokus ist auf Cloud, was von den Kunden nicht immer als Vorteil gesehen wird. Auch ist das Produkt noch recht neu, entwickelt sich jedoch schnell weiter.

Soweit zu den zwei Anbietern, welche für mich interessant sind. Aktuell ist keiner davon Leader oder Challenger. Microsoft hat bei der Completeness of Vision jedoch klar die Nase vorne und macht den Eindruck, möglicherweise bald in den Leader-Quadranten aufzusteigen. SAP hat nach meiner Beobachtung seine Aktivitäten stark gestreut auf viele Produkte und kommt deshalb nicht vergleichbar voran. Um zu den führenden Anbietern aufzuschließen fehlt noch ein wenig. Wie üblich ist das Produkt eher bei Bestandskunden verbreitet und tut sich aktuell schwer im breiten Markt.

BI – Die alten Regeln gelten nicht mehr

Vor Kurzem veröffentlichte Wayne W. Eckerson (WE) einen Artikel darüber, wie sich die Welt im BI-Umfeld verändert (hat). Er listet einige Erkenntnisse von seiner letzten TDWI-Konferenz und versucht auch dies zu erklären. Ich (SA) versuche einmal, ausgewählte Aussagen wieder zu geben und auf meine Situation zu übersetzen.

  • “There is no need for a dimensional model.”
    • WE: Heutige BI-Werkzeuge sind so gut, dass schlechtes Design kompensiert wird.
    • SA: InfoCubes sind in einen HANA-System nicht mehr notwendig. Bei einer Modellierung in HANA muss man nur bedingt auf Performance achten und Werkzeuge wie Lumira benötigen nichtmal In-Memory sondern nutzen SAP IQ als spaltenbasierte Datenbank um performance durch den Endanwender Millionen von Datensätzen verarbeiten zu können.
  • “There is no need for ETL tools.”
    • WE: nutze Spark für ETL in der Cloud oder in Hadoop-Umgebungen
    • SA: Ebenfalls Lumira hat hier schon gezeigt, wie auch recht komplexe Transformationen sowie die Anbindung an fast beliebige Datenquellen schnell und einfach möglich sind. Mit Agile Data Preparation hat die SAP sogar ein komplett eigenes Werkzeug dafür auf den Markt gebracht.
  • “You don’t need a relational database.”
    • WE: Du kannst alle deine Data Science-Aufgaben ins S3 und mit Spark erledigen.
    • SA: Zumindest meine ersten Erfahrungen mit BO Cloud legen nahe, dass Cloud doch noch die eine oder andere Kinderkrankheit hat. Allerdings garantiert Amazon 99,999999999 % Ausfallsicherheit. Das muss man intern erstmal leisten. Das man für Data Science nicht unbedingt eine relationale Datenbank benötigt, ist aber glaube ich wirklich nichts Neues. Gerade wenn es um unstrukturierte Daten geht und um extrem große Datenmengen sind andere Ansätze gefragt.
  • “Code is not the enemy.”
    • WE:  Schreibe ETL-Code in Spark und verwalte ihn in Git Hub; es ist befreiend
    • SA: Git scheint heute im HANA oder SAP Cloud-Umfeld schon der neue Standard zu sein. In einer superagilen Welt verwundert der Erfolg von Git Hub daher nicht.
  •  “We don’t move data.”
    • WE: Wir bauen logische views in Hadoop für analytische Anwendungsfälle
    • SA: Auch HANA und vor allem S/4HANA setzen auf virtuelle Datenmodelle, welche für analytische Zwecke optimiert sind. Mit Core Data Services wird aktuell von SAP eine neue Grundlage geschaffen, dieses Konzept in der Breite umzusetzen.
  •  “We design from physical to logical, not logical to physical.”
    • WE: Wir laden Rohdaten in das System, dann bauen wir logische views für jeden Anwendungsfall; wir modellieren nicht zuerst.
    • SA: Passt zum vorherigen Punkt und unterstützt und erweitert diesen. In einem S/4HANA liegen die Daten schon vor, jedoch nicht unbedingt für analytische Zwecke. Erst durch das virtuelle Datenmodell bereite ich die „Rohdaten“ auf. In einem NoSQL-System oder Data Lake lege ich Daten ab, wie Sie kommen. In zum Teil völlig verschiedenen Schemata für die Sie ursprünglich gedacht waren. Wie ich diese für die Analyse im Sinne von Data Science benötige, kann ich vorab noch nicht sagen. Dabei kann man jedoch noch gut zu den traditionellen Ansätzen differenzieren, bei denen der Analysezweck im vorhinein recht klar ist (z. B. Analyse von Umsatzdaten nach verschiedenen Dimensionen). Schema-on-Read ist nichts, was der Fachbereich mal nebenher macht, weil er eine Fragestellung beantwortet haben möchte. Und dann gibt es auch noch agile Ansätze wie Data Vault.
  • “We design for secondary use cases, not the primary one, which has a limited shelf life.”
    • WE: Wir laden Daten und speichern diese auf Detailebene, so dass wir diese für neue Einsatzzwecke verwenden können, sobald der Bedarf dafür aufkommt.
    • SA: Die Aggregation von Daten geschieht immer für einen bestimmten Zweck. Information geht dabei verloren. Natürlich sollte es für ein HANA-System in der SAP-Welt kein Problem sein, sehr granulare Daten zu speichern. Jedoch kann dies sehr teuer sein. Mit Ansätzen wie Dynamic Tiering und Nearline Storage hat SAP Ansätze, das zu handhaben. Eine Alternative für BW könnten Ansätze wie SparrowBI sein.
  • “Your data architecture is as important or more than your data model.”
    • WE: Wie die Daten im Dateisystem abgelegt werden ist wichtig. Sonst wird man mit den Daten wenig anfangen können.
    • SA: Themen wie Datenqualität, Metadatenmanagement und Data-Lineage spielen hier eine wichtige Rolle, soll der Data Lake nicht zum Datensumpf werden.
  • “Architecture is way more important when you move to the cloud.”
    • WE: Wenn du deine Cloud nicht richtig konfigurierst, wird es evtl. teurer als gedacht.
    • SA: Mit Cloud-Konzepten herrscht weniger Erfahrung als in der On-Premise-Welt. Die leichte Verfügbarkeit der Ressourcen verführt dazu, erstmal großzügig damit umzugehen. Evtl. muss hier neu und eher elastisch gedacht werden.
  • “Applications are dependent on analytics.”
    • WE: Wir benötigen DevOps um die Entwicklung von Anwendungen und Analytic zu koordinieren.
    • SA: S/4HANA setzt massiv auf Hybrid Transactional Analytical Processing (HTAP) und verbindet immer mehr operative Anwendungen mit analytischen Funktionen.
  • “Either you evolve and change, or die.”
    • WE: Sei offen gegenüber Hadoop, Spark und der Cloud.
    • SA: Das sich SAP gegenüber den Open Source-Technologien wie Hadoop und Spark z. B. im Rahmen von HANA Vora öffnet ist ein wichtiges Zeichen. Bei Cloud versucht sich SAP als Vorreiter und setzt darauf wie auf HANA und zeigt damit auch die Richtung.

Eckerson schließt mit den Worten „The only constant is change, and now is the time to change! „. Aber Veränderung ist kein Projekt oder etwas, was man jetzt mal angehen sollte. Um konkurrenzfähig zu bleiben muss Veränderung zum integralen Bestandteil der Unternehmenskultur werden.

BI & Machine Learning

Howard Dresner stellt in seinem aktuellen Blog die Frage „Is Artificial Intelligence the Future of Business Intelligence?

Bei SAP selbst tauchen Begriffe wie Machine Learning (ML) oder Artificial Intelligence (AI) immer wieder auf. So ist Bernd Leukert als SAP Vorstand für Produkte & Innovationen auch Aufsichtsrat des Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Bill McDermott hat in einem vor Kurzem erschienen Interview klar gesagt, dass SAP zukünftig eine führende Rolle in diesem Bereich einnehmen will. Er wird dabei wie folgt zitiert:

“We want to become the world-wide machine learning leader for corporate businesses, hands down,” …

“Our goal is to have the most intelligent business applications and we’re doing everything we can to achieve that.”

Nicht zuletzt hat SAP aktuell auf der MOOC-Plattform OpenSAP einen Kurs mit dem Titel „Enterprise Machine Learning in a Nutshell“ laufen.

Nun, schaue ich mir den OpenSAP-Kurs so an, dann sehe ich kaum Unterschiede zu dem, was ich schon 2006 zu Diplomarbeitszeiten gesehen und gelesen habe und was heute oft unter dem Label Predictive Analytics verkauft wird.

Schaut man sich die aktuellen Tools von SAP an, so findet man immer wieder die Verwendung der Automated Predictive Library (APL) und der Predictive Analysis Library (PAL) sowie der OpenSource Statistik-Bibliothek R, welche sich bei vielen Anbieter großer Beliebtheit erfreut. APL und PAL sind natürlich Teil von HANA selbst. Und im BW ist die Integration mit dem HANA Analysis Process möglich. Dann gibt es auch noch das Werkzeug SAP Predictive Analytics, welche grafische Oberflächen zur Modellierung bietet. Und auch in das noch sehr neue SAP Produkt SAP BusinessObjects Cloud hat Predictive mittlerweile Einzug gehalten.

Begriffe, welche man in dem Zusammenhang neben Künstliche Intelligenz und Maschinellem Lernen immer wieder hört, sind Data Mining, Statistik, Deep Learning und manchmal vielleicht auch noch Data Science.

Gartner beschreibt Maschinelles Lernen/Machine Learning wie folgt:

Advanced machine learning algorithms are composed of many technologies (such as deep learning, neural networks and natural-language processing), used in unsupervised and supervised learning, that operate guided by lessons from existing information. 

Lt. Gartner stellt sich Künstliche Intelligenz/Artificial Intelligence deutlich komplexer dar:

Artificial intelligence is technology that appears to emulate human performance typically by learning, coming to its own conclusions, appearing to understand complex content, engaging in natural dialogs with people, enhancing human cognitive performance (also known as cognitive computing) or replacing people on execution of nonroutine tasks. Applications include autonomous vehicles, automatic speech recognition and generation and detecting novel concepts and abstractions (useful for detecting potential new risks and aiding humans quickly understand very large bodies of ever changing information).

Gerade der hier auftauchende Begriff „Cognitive Computing“ zeigt, dass in dem Bereich aktuell viel Bewegung ist, bei dem IBM mit Watson ein Vorreiter ist. Jedoch beispielsweise auch die deutsche BITKOM das Thema für sich entdeckt hat.

Als ich 2006 meine Diplomarbeit zum Thema Data Mining (DM) schrieb, war die Welt noch etwas einfacher. Daten waren noch nicht so „Big“ oder „Smart“ und die Begriffswelt noch nicht so ausdifferenziert.

Data Mining beschrieb ich neben OLAP und Planung als Analysetechnik welches typischerweise auf einem Data Warehouse basiert:

„Data mining is the process of discovering meaningful new correlations,
patterns and trends by „mining“ large amounts of stored data using pattern
recognition technologies, as well as statistical and mathematical techniques.“
(Ashby, Simms 1998)

Bei der Herkunftsbestimmung aus diversen Büchern fand ich:

  • Statistik
  • Datenbankmanagement
  • Mustererkennung
  • Visualisierung
  • Künstliche Intelligenz – vor allem der Bereich „Maschinelles Lernen“

Viele der Begriffe versucht man heute viel deutlicher voneinander abzugrenzen, als das nach meinem Gefühl vor 10 Jahren der Fall war. Möglicherweise ist das aufgrund der weitergeführten Forschung in den Bereichen, dem technologischen Fortschritt sowie geänderter Rahmenbedingungen (z. B. 3 V’s) auch absolut sinnvoll.

Nehme ich mal die drei aus meiner Sicht am engsten miteinander verbundenen Begriffe und schaue mir mal die Trends bei Google an, zeigt sich folgendes:

ki_ml_dm01

Offensichtlich zeigen AI und DM eine gewisse Korrelation über die Zeit. Machine Learning hat dafür lange vor sich dahingedümpelt, bis die letzten Jahre der Trend doch angezogen hat, so das Machine Learning an den anderen beiden Begriffen vorbeigezogen hat. Interessant auch der Blick auf die weltweite Verteilung:

ki_ml_dm_02_welt

Möglicherweise sind die Begriffe auch noch sehr regional geprägt. Während Data Mining doch recht verbreitet zu sein scheint, ist Machine Learning wohl vor allem in Skandinavien populär.

Gartner hat im Hype Cycle für Advanced Analytics und Data Science, 2015 das Thema Machine Learning auf dem Gipfel der überhöhten Erwartungen gesehen. Direkt vor Predictive Analytics. Der Hype Cycle 2016 hat sich dazu kaum verändert.

Bei den vor Kurzem für 2017 veröffentlichten Technologie-Trends sieht Gartner das Thema AI & ML als Top 1 und meint:

AI and machine learning have reached a critical tipping point and will increasingly augment and extend virtually every technology enabled service, thing or application.

In diesem Sinne folgen an Stelle 2 und 3 auch gleich die Themen „Intelligent Apps“ und „Intelligent Things“, welche letztendlich wieder stark auf AI basieren.

Howard Dresner schließt seinen Blog mit der Überlegung, das AI im BI-Umfeld ein Thema ist, wenn sie die Daten besser analysieren kann, als ein Mensch. Jedoch warnt er auch, dass AI trotz seines Alters (Ursprünge in den 50er-Jahren) heute keine reife Technologie ist und für Fehler sehr wohl anfällig sein kann, wie bspw. Microsoft im Frühjahr 2016 erfahren musste.

Was bedeutet dies nun für den klassischen SAP BI-Berater, der mit SAP BW, BEx und evtl. BusinessObjects BI unterwegs ist? HANA kommt, aber ist eben noch nicht überall angekommen. Bis zur BusinessObjects Cloud ist es für viele vor allem in Deutschland ebenfalls noch ein langer Weg. Und SAP Predictive Analytics ist aus meiner Erfahrung von der Lizenz her recht teuer.

Ich glaube zurück zur SAP BW Data Mining Workbench und zum Analyseprozessdesigner möchte auch niemand unbedingt. Die Automated Analytics-Ansätze richten sich schon an den Business User. Muss man dann evtl. nur noch technisch und bei der Bereitstellung der Daten unterstützen? Oder braucht man gleich die Weiterbildung zum Data Scientist?

Ich denke es sind einfach auch verschiedene Skills, wie auch verschiedene Anforderungen an die IT, die hier im Spiel sind. Trivial zu beantworten ist dies deshalb sicherlich nicht. Jedoch ist aus heutiger Sicht klar, alles, was eine SAP aktuell unter Analytics zusammenfasst, kann sowieso nur im Team abgedeckt werden. Dieses aufzubauen und zu strukturieren ist vielleicht die wahre Herausforderung.

SAP HANA 2

Am 08.11.2016 hat SAP zum Start der SAP TechEd Barcelona das Release 2 der HANA-Datenbank vorgestellt. Geplantes Releasedatum für Kunden ist der 30.11.2016. Kurz darauf soll es auch die HANA 2 Express Edition geben, um Entwicklern einen schnellen Zugriff zu ermöglichen.

Bernd Leukert hat HANA 2 wie folgt angekündigt und beschrieben:

“The first version of SAP HANA is the synonym for real time processing of data. It’s already the backbone of thousands of major companies,” said Leukert. “I’m proud to officially announce today SAP HANA 2, which will be released at end of November. This next generation of SAP HANA is the digital foundation to transform any business, helping IT shift focus to innovation, continuing to evolve data management and application development.”

Wer mag, kann sich hier direkt die Ankündigung anschauen.

Bzgl. Analytics soll HANA 2 folgende Erweiterungen liefern:

„Analytical intelligence: Developers are embedding rich insight into applications with enhanced analytical processing engines for text, spatial, graph and streaming data. For example, new algorithms for classification, association, time series and regression have been added to the predictive analytics library to empower data scientists to discover new patterns and incorporate machine learning into custom applications.“

Wenn auch der Zusammenhang aus den bisherigen Meldungen mir noch nicht ganz klar ist, hat SAP zeitgleich cloudbasierte SAP HANA Microservices im Bereich Analytics angekündigt:

  • TEXT ANALYSIS ENTITY EXTRACTION – Ein Service zum hervorheben wichtiger Informationen in unstrukturierten Daten.
  • TEXT ANALYSIS FACT EXTRACTION – Ein Service zur Sentimentanalyse, bspw. bzgl. eines Produktes oder eines vom Unternehmen angebotenen Services. Ebenso einen Service bzgl. Öffentlicher Veranstaltungen (Public Sector) bspw. zur Risikoabschätzung sowie einen Service zur Analyse von Unternehmensereignissen (Enterprise) wie personelle Veränderungen oder die Neueinführung von Produkten.
  • TEXT ANALYSIS LINGUISTIC ANALYSIS – Ein Service zur Sprachanalyse, bspw. um welche Sprache es sich handelt oder im Weiteren der linguistischen Analyse des geschrieben selbst.
  • Earth Observation Analysis Service – Ein Service zur Auswertung von Satelliteninformationen bzgl. der Erde. Aktuell in der Beta-Version.

SAP verspricht sich von einer Microservices Architektur Folgendes:

  • Independence from the business domain, devices, and environments
  • Nonproprietary environment that offers freedom to choose the programming languages and underlying database technologies as well as gaining portability of services and applications between cloud infrastructures
  • Prebuilt business processes that allows organizations to develop new ways to utilize application data and services easily and flexibly, and scale to changing requirements

Bis zur Veröffentlichung Ende November wird evtl. noch die eine oder andere Information zu neuen Features fließen. Ab 01.12.2016 informiert die SAP dann in 12 Webinaren über die Neuigkeiten.

Bis dahin bietet die aktuelle HANA 2 FAQ Antwort auf wenigstens ein paar Fragen.

SAP & Data Warehouse vs. Data Lake

Ich erinnere mich gut an einige Gespräche mit dem Fachbereich, bei denen mein Gegenüber der Meinung war, Big Data ist, wenn Excel nicht mehr ausreicht. Und dafür hätte man dann ja z. B. SAP BW.

Interessanterweise ist das auch oft das Bild, welches man durchaus bekommen kann. Oft werden Begriffe undifferenziert verwendet und Schlagwörter verwendet wie „wenn wir HANA haben, dann sind alle unsere Probleme gelöst“.

Gut das selbst die SAP mittlerweile erkannt hat, das HANA evtl. doch nicht die Eierlegende Wollmilchsau ist und an der einen oder anderen Stelle auf ergänzende Technologien angewiesen ist. HANA Vora (seit 03/2016 GA) ist so ein Beispiel.

Aber schon zuvor hat sich SAP gemeinsam mit Hortonworks an einer Big Data Reference Architecture versucht. Und wirbt gerne auch direkt bei den CIO’s mit ihrem Angebot, Big Data in den Griff zu bekommen.

Nun, wenn das DWH schon für Big Data steht, wofür benötigt man eigentlich ein HANA Vora oder gar ein Data Lake? Im folgenden möchte ich die beiden Konzepte etwas besser voneinander abgrenzen. Zuvor jedoch soll noch erwähnt sein, dass  DATAVERSITY einen empfehlenswerten Übersichtsartikel zu dem Thema bietet, welcher mich auch dazu inspiriert hat, hier einmal zu schauen, wo SAP sich dabei sieht..

Die erste Erwähnung und Prägung des Begriffs „Data Lake“ stammt wohl vom Chief Technology Officer von Pentaho:

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

– James Dixon, CTO Pentaho
Quelle: https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

SAP hat aus meiner Sicht hier für kompakte 2 1/2 Minuten gar nicht schlecht ihre Sichtweise für die Bedeutung eines Data Lakes dargestellt.

Wie bekommt man den nun ein Gefühl, wie sich Data Lake tatsächlich von Data Warehouse abgrenzt?

DWHvsDL

Die dargestellten Aspekte zeigen gut, dass ein Data Lake und ein Data Warehouse durchaus sich ergänzenden Ansätze darstellen. Nur weil in den letzten Jahren neue Datenquellen relevanter und verwertbarer geworden sind, sind bisherige Ansätze nicht obsolet. Jedoch muss man auch sehen, dass, obwohl gewisse Ansätze und Zielsetzungen recht ähnlich sind, der Skill und die Herangehensweise doch sehr unterschiedlich sein können.

In ihrer Roadmap zeigt die SAP, dass Sie hier eine gemeinsame technologische Architektur mit einer zentralen HANA-Plattform sieht, in der in einer absehbaren Zukunft auch das SAP BW im HANA Data Warehouse aufgehen wird:

SAP HANA DW-Roadmap

Dabei hat eben auch HANA Vora seinen Platz und wird als verbindender und integrierter Bestandteil zwischen Hadoop und HANA in dieser zukünftigen SAP HANA Data Warehousing Plattform dargestellt:

HANA_DW_Plattform

Die Zeit wird zeigen ob diese doch verschiedenen Ansätze tatsächlich sinnvoll kombiniert werden können und evtl. das eine Konzept in dem anderen aufgeht. Oder ob die Ansätze nur eine theoretische Möglichkeit darstellen, mit welcher man schön Marketing machen kann, welche so jedoch nicht Realität werden wird.

SAP BI Statement of Direction für On-Premise

Heute wurde ein aktuelles Statement of Direction (SOD) für BusinessObjects BI veröffentlicht.

Nachdem vor Kurzem auf zum Start der SAPPHIRENOW bereits kund getan wurde, dass alle BI-Lösungen, On-Premise und Cloud unter BusinessObjects laufen. Und mit der starken Präsentation der Cloud BI-Lösung von SAP überlegt man sich natürlich schon, wo geht das alles hin.

Nun, was kann man aus dem SOD mitnehmen, welches immerhin auf 20 Seiten präsentiert wird?

Mit dem SOD möchte SAP eine Roadmap für die nächsten 2 Jahre aufzeigen. Zunächst tut die SAP dies, in dem Sie klar darstellt, dass sowohl in die Cloud wie auch in On-Premise BI weiter investiert wird. Die Strategie ist „Innovate the core and lead the cloud“.Durch die Digitale Transformation werden Themen wie Predictive, Self-Service und Realtime immer wichtiger.

Innovate the core
Timo Elliott, 2016

SAP sieht Analytics und BI als die Schlüsseltechnologie, um aus der dem digitalen Business Werte zu schöpfen. SAP wirbt hier mit dem Stichwort „Reimagine Analytics

Nach der Vorstellung der allgemeinen Richtung liegt der Schwerpunkt des SOD auf den folgenden Tools:

Schade, dass Crystal Reports hier nicht auftaucht. Ist es doch immer noch Teil der Simplification-Roadmap von SAP.

SAP sieht zwei Trends am Markt. Den Trend in Richtung Self-Service BI. SAP sieht hier Lumira und Analysis for Office positioniert. Bei Lumira wurde massiv investiert in neue Funktionen und durch die Verschmelzung mit Design Studio Ende 2016 wird hier die Strategie weiter entwickelt. Bei Analysis for Office wurde ein gemeinsames Add-In mit BPC entwickelt, um den Nutzen beider Welten zu erhöhen.Zukünftig soll dieses noch um Live Office-Funktionen erweitert werden.

Der zweite Trend ist, in die IT-gesteuerte Unternehmens-BI skalierbarer und vertrauenswürdiger zu machen. Erreicht werden soll das durch die Vereinfachung des SAP BI-Portfolios, ein einfacheres Plattformmangement und die Modernisierung der BI-Werkzeuge. Die SAP sieht hier Design Studio, Web Intelligence und Crystal Reports (also doch Crystal Reports, im Dokument jedoch ohne BusinessObjects vorangestellt???):

Mit Design Studio 1.5 und 1.6 sollten hauptsächlich die Lücken zu BEx Web Application Designer und SAP BusinessObjects Dashboards geschlossen werden. Aber auch viele neue Features wie die Scorecard-Komponente oder Smart Objects. Die BI Plattform 4.2 liefert die vertrauenswürdige Basis für BI im ganzen Unternehmen.

Auch Web Intelligence liefert viele Erweiterungen mit BIP 4.2 und für alle Tools wird weiter investiert und an den oben genannten Zielen gearbeitet.

Auch die BusinessObjects Mobile-Lösung ist klar weiter gesetzt und hat ihren Cloud-Gegenspieler nun mit Roambi gefunden. Zukünftig wird Lumira hier u. a. noch stärker unterstützt werden.

SAP BusinessObjects Predictive Analytics soll seine Position weiter ausbauen. Ebenso wird in die prädiktiven Fähigkeiten von HANA investiert. Predictive Anaytics soll für jeden Anwender nutzbar werden. Das wird von SAP als ein „data scientists in a box“ beschrieben.

Des weiteren sieht SAP die HANA Plattform als Digital Enterprise Platform, welche zwar auf der „Cloud First“-Philosophie beruht, jedoch bereit ist, die Brücke zwischen Cloud und On-Premise zu schlagen. BusinessObjects BI-Werkzeuge sind Schlüsselelemente dieser Plattform.

Bzgl. S/4 HANA werden die Core Data Services das zentrale Element sein, um im gesamten Kontext von S/4 HANA alle Möglichkeiten für operative, taktische und strategische Analytics , unterstützt auch durch ein embedded BW zu liefern. Das Ziel ist dabei alle Standard-ABAP-Berichte abzulösen.

Und zu guter Letzt, nach einem erneuten Werbeblock für die Cloud BI-Welt fordert die SAP die Community auf, mitzumachen und sich einzubringen.

Alles in allem, nicht viel unerwartetes. Wenig, was nicht schon die letzten Wochen bekannt geworden ist. Jedoch sicherlich eine gute Zusammenfassung, um klar zu stellen, wohin der Weg geht.

Seien wir gespannt wie es weiter geht…