Der Weg zum Data Scientist

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.

Advertisements

Gartner Magic Quadrant – Data Science Platforms 2017

Zunächst einmal – SAP hat den „Magic Quadrant for Advanced Analytics Platforms“ umbenannt in „Magic Quadrant for Data Science Platforms“. Als Grund gibt Gartner an, dass Data Scientists zu den Hauptnutzern dieser Plattformen gehören.

Gartner definiert eine Data Science Platform wie folgt:

„A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solution, and for incorporating those solutions into business processes, surrounding infrastructure and products.

Im Vergleich zum 2016 MQ fällt auf, dass der Leaders-Quadrant erstmal recht gleich geblieben ist. IBM, SAS, RapidMiner und KNIME sind die Leader. Dell ist rausgefallen, jedoch wird erklärt, dass Dell in Quest aufgegangen ist. Quest hat in 2017 eine gute Position im Challenger-Quadranten.

Bei den Leadern ist noch zu erwähnen, dass IBM hier 2017 eine klare Führungspositon einnimmt. Im Vorjahr war das noch nicht so klar, war doch SAS und auch KNIME in der „Completeness of Vision“ noch etwas vorne und SAS lag in der „Ability to Execute“ vorne und hatte somit 2016 die Führungsposition.

Nun, die Frage ist, wo liegt SAP, wo im Vergleich und was hat sich getan? Microsoft möchte ich ebenso betrachten.

SAP hatte es 2016 gerade in den Challenger-Quadranten geschafft. In 2017 ist SAP etwas abgerutscht und somit ein starker Nischenplayer. Nun gut, es verwundert wenig. Aktuell läuft von SAP auf OpenSAP der Kurs „Getting Startet with Data Science„. Schwerpunkt ist das hier im Magic Quadrant ebenfalls bewertete SAP BusinessObjects Predictive Analytics und dessen Nutzung im Rahmen des CRISP-DM-Prozesses. Gut, der Kurs heißt „Getting Startet…“ jedoch ist das wirklich Grundlagenarbeit. Die Arbeit mit SAP BO Predictive Analytics hat mich schon etwas überrascht. Ohne R-Integration ist die Anzahl der verfügbaren Algorithmen sehr überschaubar und richtig komplexe Sachen kann man im „Expert Mode“ auch kaum machen.

SAP’s Stärken 2016:

  • Klares Commitment zu Analytics
  • Vision für Cloud Analytics
  • Umfang der möglichen Use Cases
  • Embedded Analytics
  • Leicht zu lernen und zu benutzen

SAP’s Stärken 2017:

  • SAP HANA-Integration
  • Support for Citizen Data Scientists (Automated Analysis)
  • Deployment (Predictive Factory & Analytics Extensions)
  • Klares Commitment zu Analytics
  • Umfang der möglichen Use Cases

SAP’s Warnungen 2016:

  • Geringe Gesamtzufriedenheit, Support und Vertriebsbeziehungen
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)
  • Kunden hautsächliche innerhalb der Bestandskunden

SAP’s Warnungen 2017:

  • Kunden hautsächliche innerhalb der Bestandskunden
  • Geringe Gesamtzufriedenheit
  • HANA-First-Strategy
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)

Zusammenfassend läst sich für SAP also sagen, SAP PA ist recht schnell zu erlernen und bietet dabei ein breites Anwendungsspektrum. Jedoch wurden die Warnungen nicht erhöhrt und finden sich in 2017 wieder. Der Fokus auf HANA ist Chance und Risiko zugleich.

Microsoft gilt als Visionär im MQ. In 2017 sind Sie etwas höher an die Schwelle zum Leader gerückt. War 2016 noch SASS der Schwerpunkt der Betrachtung da andere Produkte erst frische am Markt waren, so schwenkt der Schwerpunkt in 2017 zum Azure Machine Learning (AML) Angebot als Teil Cortana Intelligence Suite.

MS’s Stärken 2016:

  • Höchste Bewertung bei „Completeness of Vision“
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Produktroadmap und Vision
  • AML bietet eine einfache Integration von Cloud-Data Sources
  • Plattform-Skalierbarkeit und Pay as you use
  • Starke OpenSource-Integration

MS’s Stärken 2017:

  • Plattform-Skalierbarkeit & Flexibilität
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Starke OpenSource-Integration
  • Innovativ im Bereich Bild- und Spracherkennung sowie Deep Learning
  • Starke Machine Learning-Fähigkeiten sowie Collaboration und Automatisierung
  • Starke Produktroadmap und Vision

MS’s Warnungen 2016:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Unsicherheit über Produktstrategie bzgl. integrierter Tools (z. B. Revolution Analytics)
  • Zum Teil geringe Kundenzufriedenheit (jedoch eher bzgl. traditioneller Tools wie SSAS)

MS’s Warnungen 2017:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Cortana Intelligence Suite ist noch neu und unreif
  • Delivery Optionen
  • Einige Bereiche sind schwach ausgeprägt (Dokumentation, Data Preperation, Branchenlösungen)

In Summe lässt sich über das Microsoft-Angebot sagen, es ist skalierbar und flexibel, hat eine hervorragende Roadmap und Open Source-Integration. Der Fokus ist auf Cloud, was von den Kunden nicht immer als Vorteil gesehen wird. Auch ist das Produkt noch recht neu, entwickelt sich jedoch schnell weiter.

Soweit zu den zwei Anbietern, welche für mich interessant sind. Aktuell ist keiner davon Leader oder Challenger. Microsoft hat bei der Completeness of Vision jedoch klar die Nase vorne und macht den Eindruck, möglicherweise bald in den Leader-Quadranten aufzusteigen. SAP hat nach meiner Beobachtung seine Aktivitäten stark gestreut auf viele Produkte und kommt deshalb nicht vergleichbar voran. Um zu den führenden Anbietern aufzuschließen fehlt noch ein wenig. Wie üblich ist das Produkt eher bei Bestandskunden verbreitet und tut sich aktuell schwer im breiten Markt.

BI – Die alten Regeln gelten nicht mehr

Vor Kurzem veröffentlichte Wayne W. Eckerson (WE) einen Artikel darüber, wie sich die Welt im BI-Umfeld verändert (hat). Er listet einige Erkenntnisse von seiner letzten TDWI-Konferenz und versucht auch dies zu erklären. Ich (SA) versuche einmal, ausgewählte Aussagen wieder zu geben und auf meine Situation zu übersetzen.

  • “There is no need for a dimensional model.”
    • WE: Heutige BI-Werkzeuge sind so gut, dass schlechtes Design kompensiert wird.
    • SA: InfoCubes sind in einen HANA-System nicht mehr notwendig. Bei einer Modellierung in HANA muss man nur bedingt auf Performance achten und Werkzeuge wie Lumira benötigen nichtmal In-Memory sondern nutzen SAP IQ als spaltenbasierte Datenbank um performance durch den Endanwender Millionen von Datensätzen verarbeiten zu können.
  • “There is no need for ETL tools.”
    • WE: nutze Spark für ETL in der Cloud oder in Hadoop-Umgebungen
    • SA: Ebenfalls Lumira hat hier schon gezeigt, wie auch recht komplexe Transformationen sowie die Anbindung an fast beliebige Datenquellen schnell und einfach möglich sind. Mit Agile Data Preparation hat die SAP sogar ein komplett eigenes Werkzeug dafür auf den Markt gebracht.
  • “You don’t need a relational database.”
    • WE: Du kannst alle deine Data Science-Aufgaben ins S3 und mit Spark erledigen.
    • SA: Zumindest meine ersten Erfahrungen mit BO Cloud legen nahe, dass Cloud doch noch die eine oder andere Kinderkrankheit hat. Allerdings garantiert Amazon 99,999999999 % Ausfallsicherheit. Das muss man intern erstmal leisten. Das man für Data Science nicht unbedingt eine relationale Datenbank benötigt, ist aber glaube ich wirklich nichts Neues. Gerade wenn es um unstrukturierte Daten geht und um extrem große Datenmengen sind andere Ansätze gefragt.
  • “Code is not the enemy.”
    • WE:  Schreibe ETL-Code in Spark und verwalte ihn in Git Hub; es ist befreiend
    • SA: Git scheint heute im HANA oder SAP Cloud-Umfeld schon der neue Standard zu sein. In einer superagilen Welt verwundert der Erfolg von Git Hub daher nicht.
  •  “We don’t move data.”
    • WE: Wir bauen logische views in Hadoop für analytische Anwendungsfälle
    • SA: Auch HANA und vor allem S/4HANA setzen auf virtuelle Datenmodelle, welche für analytische Zwecke optimiert sind. Mit Core Data Services wird aktuell von SAP eine neue Grundlage geschaffen, dieses Konzept in der Breite umzusetzen.
  •  “We design from physical to logical, not logical to physical.”
    • WE: Wir laden Rohdaten in das System, dann bauen wir logische views für jeden Anwendungsfall; wir modellieren nicht zuerst.
    • SA: Passt zum vorherigen Punkt und unterstützt und erweitert diesen. In einem S/4HANA liegen die Daten schon vor, jedoch nicht unbedingt für analytische Zwecke. Erst durch das virtuelle Datenmodell bereite ich die „Rohdaten“ auf. In einem NoSQL-System oder Data Lake lege ich Daten ab, wie Sie kommen. In zum Teil völlig verschiedenen Schemata für die Sie ursprünglich gedacht waren. Wie ich diese für die Analyse im Sinne von Data Science benötige, kann ich vorab noch nicht sagen. Dabei kann man jedoch noch gut zu den traditionellen Ansätzen differenzieren, bei denen der Analysezweck im vorhinein recht klar ist (z. B. Analyse von Umsatzdaten nach verschiedenen Dimensionen). Schema-on-Read ist nichts, was der Fachbereich mal nebenher macht, weil er eine Fragestellung beantwortet haben möchte. Und dann gibt es auch noch agile Ansätze wie Data Vault.
  • “We design for secondary use cases, not the primary one, which has a limited shelf life.”
    • WE: Wir laden Daten und speichern diese auf Detailebene, so dass wir diese für neue Einsatzzwecke verwenden können, sobald der Bedarf dafür aufkommt.
    • SA: Die Aggregation von Daten geschieht immer für einen bestimmten Zweck. Information geht dabei verloren. Natürlich sollte es für ein HANA-System in der SAP-Welt kein Problem sein, sehr granulare Daten zu speichern. Jedoch kann dies sehr teuer sein. Mit Ansätzen wie Dynamic Tiering und Nearline Storage hat SAP Ansätze, das zu handhaben. Eine Alternative für BW könnten Ansätze wie SparrowBI sein.
  • “Your data architecture is as important or more than your data model.”
    • WE: Wie die Daten im Dateisystem abgelegt werden ist wichtig. Sonst wird man mit den Daten wenig anfangen können.
    • SA: Themen wie Datenqualität, Metadatenmanagement und Data-Lineage spielen hier eine wichtige Rolle, soll der Data Lake nicht zum Datensumpf werden.
  • “Architecture is way more important when you move to the cloud.”
    • WE: Wenn du deine Cloud nicht richtig konfigurierst, wird es evtl. teurer als gedacht.
    • SA: Mit Cloud-Konzepten herrscht weniger Erfahrung als in der On-Premise-Welt. Die leichte Verfügbarkeit der Ressourcen verführt dazu, erstmal großzügig damit umzugehen. Evtl. muss hier neu und eher elastisch gedacht werden.
  • “Applications are dependent on analytics.”
    • WE: Wir benötigen DevOps um die Entwicklung von Anwendungen und Analytic zu koordinieren.
    • SA: S/4HANA setzt massiv auf Hybrid Transactional Analytical Processing (HTAP) und verbindet immer mehr operative Anwendungen mit analytischen Funktionen.
  • “Either you evolve and change, or die.”
    • WE: Sei offen gegenüber Hadoop, Spark und der Cloud.
    • SA: Das sich SAP gegenüber den Open Source-Technologien wie Hadoop und Spark z. B. im Rahmen von HANA Vora öffnet ist ein wichtiges Zeichen. Bei Cloud versucht sich SAP als Vorreiter und setzt darauf wie auf HANA und zeigt damit auch die Richtung.

Eckerson schließt mit den Worten „The only constant is change, and now is the time to change! „. Aber Veränderung ist kein Projekt oder etwas, was man jetzt mal angehen sollte. Um konkurrenzfähig zu bleiben muss Veränderung zum integralen Bestandteil der Unternehmenskultur werden.

DSAG Technologietage – Was man für BI & Analytics mitnehmen kann

Am 21. Und 22.02.2017 waren in Mannheim die DSAG Technologietage. Das Motto lautete – „Change = Chance: Heute ist morgen schon gestern“.

Leider war ich nicht vor Ort, analysiere jedoch gerne mal die Folien, um zu sehen, was sich im Bereich BW/BI/BO/Analytics und angrenzenden Bereichen bei der SAP so tut. Gerne bekomme ich auf dem Blog auch Feedback und Ergänzungen von Teilnehmern.

Die SAP HANA Cloud Platform (HCP), hier auch als SAP Cloud Platform beschrieben, scheint aktuell das große Ding zu sein. In der Keynote von SAP CIO Thomas Saueressig nimmt diese ganz klar die führende Rolle als Plattform für die Digitale Transformation ein.

Bei der HCP wird Analytics und Business Intelligence ganz klar als fundamentales Element der Digitalisierung (Machine Learning, Real-time Analytics) sowie der Digitalen Transformation (Zusammenspiel von Business process und Business intelligence) dargestellt. Die HCP soll dabei Mission Critical Data analysieren und visualisieren. Und wenn Data richtig Big wird, wird einfach HANA Vora angeflanscht.

Auch werden auf Basis der HCP einige Machine Learning Services, sogenannte Intelligent Enterprise Applications vorgestellt:

  • Resumee Matching
  • Cash Application Intelligence
  • Ticket Intelligence

Die Referenz fehlt, es dürfte aber ganz klar das seit kurzem verfügbare SAP Clea sein.

Auf den BW/4HANA-Folien werden aktuell 4.000+ BW on HANA-Kunden von insgesamt 16.000+ dargestellt. 8.000+ auf Release 7.3/7.4. Fast der Versuch zu sagen, das 7.5-Kunden ja sowieso auf HANA gehen, was nach meiner Erfahrung ganz klar nicht unbedingt der Fall ist. Nun wenn ich vergleiche, dann sind in den letzten 1 ¼ Jahren 1.500 BW-Kunden on HANA gegangen oder haben so gestartet. Bei 1.000 Neukunden in der Zeit ist hier sicherlich ein großer Teil zu sehen, die direkt on HANA starten. Also SAP, 12.000 Kunden voraus bis 2025!

Ansonsten haben die Folien von Roland Kramer und Gordon Witzel nichts wirklich Neues zu BW/4HANA gebracht. Aber bei so einer Veranstaltung muss man vielleicht auch erst alle nochmal abholen.

Ulrich Christ und Jürgen Haupt haben eine schlanke und dynamische Modellierung mit BW/4HANA und BW powered by HANA vorgestellt. Dabei ging es ziemlich ins Detail zu den flexiblen Möglichkeiten über einen CompositeProvider mit Hilfe von Associations und transitiven Attributen neue Stammdaten über alle LSA++-Layer zu integrieren. Ähnliches wurde bereits vor etwa einem Jahr in einem First Guidance-Paper vorgestellt.

Detlef Wassermuth stellt den aktuellen Stand der Planungs-Werkzeuge von SAP vor. Dabei wird BPC klar als Schwerpunkt dargestellt und die Möglichkeiten zwischen Embedded und Standard Model diskutiert. Aber auch hier nicht wirklich Neues.

Jie Deng und Alexander Peter stellten den aktuellen Stand zu Lumira 2.0 sowie Analysis Office vor. Bzgl. Analysis wurden kurz die Neuerungen von Release 2.4 vorgestellt und die Roadmap, was kommen soll. Hierzu gab es jedoch auch bereits diverse Webinare. Genauso bei Lumira. Auch hier wurden nach meinem Gefühl keine wesentlichen Neuheiten gezeigt, die man nicht bereits hätte kennen können. Allerdings gab es eine Demo und Live habe ich jetzt selbst auch noch nicht viel gesehen.

Von Abassin Sadiq und Larissa Naujoks wurde SAP BusinessObjects Cloud vorgestellt. Aufgefallen ist mir dabei das folgende Übersichtsbild:

sapanalytix-boc-dsagtt17-01

Quelle: SAP SE, „V010 –Wer morgen nicht von gestern sein möchte: SAP BusinessObjectsCloud –SAP Analytics aus der Wolke“ von Abassin Sidiq, Larissa Naujoks

Die Frage ist, was hier wohl „Verticals“ bedeutet? Der Stern deutet darauf hin, dass es sich um eine geplante Function handelt. In der Vergangenheit war hier auch schon mal GRC zu lesen oder auch „Embedding – Analytics into Applications“ wie noch in der letzten Roadmap vom Januar 2017. Natürlich könnte unter Verticals genau das Thema Embedding gemeint sein.

In einer Fiori-Session wurde von Michael Falk folgende Folie als geplante Innovation vorgestellt:

sapanalytix-boc-dsagtt17-02

Quelle: SAP SE, „V026 – SAP Fiori Evolution“ von Michael Falk

Evtl. schließt sich hier ja auch wieder der Kreis zu dem Theme „Verticals“ bei BO Cloud.

Kundenvorträge sind natürlich immer sehr interessannt und willkommen. So hat Tjarko von Lehsten von der Swisscom AG gezeigt, wie man dort das Thema BW on HANA angeht. Dort präsentierte er, nicht zum ersten Mal, das Projekt OneBI, welches drei BW-Systeme im Greenfield-Ansatz auf eine BW on HANA/HANA Native-Plattform für den dortigen Bereich Finanzen und Controlling konsolidieren sollte. Das Projekt wurde im Rahmen des BW 7.5 Ramp-Ups in  Zusammenarbeit mit SAP durchgeführt und setzte auch gleich auf den BusinessObjects Enterprise-Tools auf.

Das Projekt hat eine Laufzeit von über 2 Jahren (5.000 Manntage), und läuft parallel zu einem OneERP-Projekt.

Trotz das das Projekt aktuell noch läuft, kann man heute schon einige Lessons Learned daraus mitnehmen:

  • Bei Realtime-Ansätzen muss man auch auf die Stammdaten achten
  • Frühzeitige Einbeziehung der Fachbereiche, Aufbau eines Play Lab
  • Schnelles und agiles natives Modellieren verlängert Test- und Go-Live-Zyklen
  • Bei agilem Projektmanagement sollten die funktionalen Anforderungen so genau wie möglich definiert werden
  • Richtlinien und Standard-Szenarien sind sehr hilfreich
  • Ein Training für BW on HANA und HANA-Technologie vor dem Projekt ist notwendig
  • ODP-DataSources und EIM (Smart Data Integration/Access) stellen wichtige Integrationsfunktionen dar
  • Man muss sich entscheiden, ob der EDW-Layer in der HANA oder im BW liegt
  • Data Streaming benötigt neue Skills und hat eine gewisse Komplexität. Es bedient auch ganz neue Anwendungsfälle.
  • Die Reduktion auf neue Objekte führt zu einer schnelleren Implementierung
  • SQL-basierte Transformationen sind schnell und stabil

Sicherlich für viele ein Traumprojekt mit der Möglichkeit, die Fähigkeiten der Systeme und Werkzeuge voll auszunutzen und deren Mehrwert im Vergleich zur „alten Welt“ zu erfahren.

Ein weiterer Erfahrungsbericht kommt von WITTENSTEIN SE. Im Vortrag „Chance und Change für BI: SAP BW im Kontext einer HANA Strategie bei der WITTENSTEIN SE“, gehalten von Pascal Kranich von WITTENSTEIN und Stefan Kahle von ISR AG.

WITTENSTEIN als mittelständisch orientiertes, produzierendes Unternehmen mit starker internationaler Ausrichtung setzt stark auf die Digitalisierung. Industrie 4.0 spielt eine große Rolle. Der Mensch als Entscheider steht im Mittelpunkt. Daraus folgt: „Business Intelligence Fähigkeiten der Organisation werden zum strategischen Wettbewerbsfaktor“.

In der Data Warehouse-Zielarchitektur laufen betriebswirtschaftliche Daten aus SAP ERP, produktionsorientierte Daten aus dem MES und Sensor- und Maschinendaten, welche zuerst in Hadoop gesammelt werden zusammen.

In der weiteren Präsentation werden verschiedene Beispiele zu Mixed Models (BW & HANA-Modellierung) dargestellt.

Die Lessons Learned von WITTENSTEIN:

  • HANA allein ist kein EDW und BW kann nicht alle Optimierungen nutzen, welche HANA bietet
  • Man hat die Qual der Wahl zwischen BW und HANA und muss klare Regeln festlegen und diese einhalten
  • Sponsorship spielt eine wichtige Rolle
  • Kommunikation ist alles
  • Organisation ist herausforderner als die Technik

Einige Parallelen finden sich in den Erfahrungen die man macht sowohl bei Swisscom wie auch bei WITTENSTEIN. Gleichzeitig hat man den Eindruck, BW on HANA ist angekommen und zeigt seinen Nutzen.

Dann ein etwas technischer Anwenderbericht über die Einführung einer Nearline-Storage (NLS)-Lösung für das BW der Münchner Stadtwerke im Rahmen einer bevorstehenden HANA-Migration einschließlich Upgrade. Die Einführung der Lösung wurde durch Roland Kramer unterstützt. Interessant dabei die doch gut aussehenden Monitoringmöglichkeiten

Trotz des eher technischen Aspekts des Projekts ist es doch interessant, das auch der Fachbereich hier ein sehr positives Feedback abgegeben hat. Leider ansonsten wenig weitere greifbare Lessons Learned.

Die Präsentation „V047 –IoT Optionen anhand konkreter Lösungs-und Kundenbeispiele“ von Smitha Rayala (SAP) zeigt hauptsächlich die Lösung „SAP Predictive Maintenance & Service“ (PdMS). Die HANA-basierte Lösung stellt sich recht komplex als Zusammenspiel von SAP-Systemen, Open Source und 3rd Party-Lösungen dar. Für die Datenintegration werden Werkzeuge wie SAP Data Services oder Smart Data Streaming genutzt und ein Multi-Temperature-Konzept mit SAP IQ für „warm data“ wird dargestellt. Ebenfalls kommen in der technischen Realisierung Hadoop und HANA Vora, sowie R zum Einsatz bzw. sind geplant. Dazu passend wird als Methodologie der CRISP-DM-Ansatz vorgestellt. Auch wenn die Folien nur wenig Details hergeben, zeigt es einfach mal ein eine konkrete Lösung im Analytics-Umfeld, welche auf den aktuellen Technologien und Ansätzen der SAP aufsetzen.

In einem zweiten Teil wird SAP Vehicle Insights als aktuell HCP-basierte Lösung vorgestellt. Auch hier zeigt sich, das im Hintergrund eine Vielzahl an Technologien und Werkzeugen der SAP zusammenspielen und Analytics einen wichtigen Bestandteil darstellt:

sapanalytix-boc-dsagtt17-03

Quelle: SAP SE, „V047 –IoT Optionen anhand konkreter Lösungs-und Kundenbeispiele“ von Smitha Rayala

Der Vorteil im HCP-Betrieb wird darin gesehen, dass man trotz des komplexen Zusammenspiels eigentlich keine Betriebskosten hat, da alles von der SAP gemanaged wird.

Von Dr. Stefan Hoffmann (SAP) präsentierte „V132 – SQL Datawarehousing gemeinsam mit Business Warehouse BW4/HANA und deren gemeinsame Nutzung mit BW Inhalten“. Da das HANA DW-Konzept vorsieht, rund um HANA als Datenbank ein größeres Toolset bevorzugt aus dem eigenen Haus einzusetzen, wurden diese auch so vorgestellt. Zuerst im Gesamtkontext, dann auch einzeln:

  • SAP Enterprise Architect Designer – zur Modellierung des semantischen und logischen Datenmodells
  • SAP HANA EIM: SDI/SDQ und ADP – oder auch SAP HANA Enterprise Information Management: Smart Data Integration/Smart Data Quality und Agile Data Preperation für ETL und Datenqualität.
  • SAP HANA Web IDE – zur Modellierung von Calculation Views
  • SAP HANA CDS Development – graphischer und scriptbasierter Editor für virtuelle Datenmodelle auf ABAP-Basis
  • SAP Data Warehousing Foundation – Data Temperature Management Strategie mit dem Data Lifecycle Manager (DLM)
  • Native DSO (NDSO) – Quasi das Standard DSO nativ auf HANA implementiert und in FlowGraphs integriert
  • SAP HANA Data Warehouse Scheduler – macht den Eindruck als wäre es die HANA-Variante der Prozessketten.

In dem Kontext sei auch das Februar-Update der SAP Data Warehouse Overview & Roadmap-Präsentation erwähnt. Darin wird auch nochmal der grundsätzliche Ansatz und die Differenzierung zum BW/4HANA erläutert. Dort wird auch ganz frisch der oben beschriebene Swisscom-Fall als Beispiel für ein Mixed Model vorgestellt.

Zusammenfassend lässt sich aus der Folien-Perspektive sagen, die Technologietage sind wohl keine Veranstaltung um große Neuigkeiten zu kommunizieren. Jedoch gab es interessante Kundenvorträge und Deep Dives wie den von Ulrich Christ und Jürgen Haupt. Auch lohnt sich wohl immer mal der Blick links und rechts von BI und BW.

BusinessObjects Cloud – First Steps 1

So, er ist da. Und das schon einer Woche. Der Partner Demo Tenant für BusinessObjects Cloud (BOC).

Nach der ersten Übersicht und der Einrichtung der User für das weitere Team, natürlich gleich mal das erste Diagramm angelegt und ein Excel-File hochgeladen. Gefühlt ist nicht alles intuitiv. Man muss erstmal reinfinden. Offensichtlich werde ich das eine oder andere Video anschauen müssen oder vielleicht sogar die Zeit finden, den OpenSAP-Kurs zu BOC bzw. Digital Boadroom anzuschauen.

Auch die ersten Erfahrungen waren, dass das System in einer Woche mindesten 3x Probleme mit der Verfügbarkeit hatte. Netterweise bekommt man nachdem man es gemerkt hat auch bald eine Mail dazu.

Gut, schnell stellt man sich bei einer auf HCP basierenden Anwendung auch etwas anders vor:

cloud01

Gut, die Datei habe ich von Kaggle und sie umfasst ca. 50 MB und 1 Mio Datensätze anonymisierte Echtdaten von Rossmann.

Aber auch so ist mein Eindruck nicht ganz flüssig. Die Punkte, die sich bewegen, damit sich überhaupt was bewegt, sieht man z. B. auch bei dem Demo Dashboard. Natürlich kann das auch noch mit der Bandbreite und dem Netzwerkverkehr zu tun haben.

Damit ich mir auch gleich ein paar gute Beispiele anschauen darf, habe ich entsprechend den BOC content aus dem SAP Store heruntergeladen und in die BOC importiert:

cloud_content02

Da kommt ganz schön was zusammen. Und ich meine nicht nur die 89-seitige Doku dazu:

cloud_content08

Oder zum Beispiel einige Digital Boardrooms wie dieser hier:

cloud_content04

Hm, by the speed of thought???

cloud_content05

1-2 Minuten später – Ahhh:cloud_content06

Nun, wahrscheinlich ist mein Bildschirm zu klein, um solche großen Zahlen anzuzeigen:

cloud_content07

Es kommen auch Dateien mit, die auch schon mal schnell etwas Memory allokieren:

cloud_content09

Aber es ist ja noch genug da 😉

So, schauen wir dann, wie es weiter geht. Evtl. steht die HANA Cloud Connection auf der Agenda…

Cloud BI – Stand der Dinge 2017

2016 war ein wichtiges Jahr für Business Intelligence & Analytics in der Cloud im Speziellen und für Cloud Computing im Allgemeinen. Viele große Anbieter haben mittlerweile eine Cloud BI-Lösung im Angebot und bilden damit einen vorläufigen Höhepunkt einer Entwicklung, welche seit Anfang der 00er-Jahre mit Salesforce.com ihren Anfang genommen hatte.

Cloud Computing selbst hat sich mittlerweile etabliert und ist fester Bestandteil viele IT-Strategiediskussionen.

Laut [BARC2017] sind die Vorteile klar. Eine schnellere Verfügbarkeit, minimale Einbindung der IT, geringe Investitionen (Capex vs. Opex) und die vielgepriesene Elastizität der Ressourcen. [Forrester2015] fast es noch kompakter zusammen: Geschwindigkeit und Agilität.

Jedoch sind auch klar Risiken zu sehen, wie bei [TDWI2016] z. B. Datensicherheit, Datenschutz sowie Regulatorische Vorgaben und Compliancevorschriften.

Nach [EMA2015] gehören zu den wichtigsten Maßnahmen zum Schutz der Daten:

  • Verschlüsselung von inaktiven Daten
  • Audit Trails bzgl. Datenzugriff und Datenänderungen
  • Automatisierung von Regeln zur Datenspeicherung Fortgeschrittene
  • Authentifizierungsmethoden bzgl. der Datenverbindung
  • Maskieren von Daten basierend auf einem Berechtigungskonzept

 

[BARC2017] sieht für Cloud BI die folgenden Hot Spots:

  • Cloud BI hat den Tipping Point erreicht – Obwohl Datenschutz immer noch ein kritisches Thema ist, werden sich viele Unternehmen bewusst, dass die Daten in einer Public Cloud evtl. sicherer sind, als im eigenen Rechenzentrum.
  • Power User dominieren Cloud BI – Während normale Anwender Berichte und Dashboards konsumieren, analysieren Power User Daten, erstellen Berichte und bereiten zu einem Teil die Daten selbständig auf.
  • BI vor Datenmanagement – Unternehmen betreiben leichter BI in der Cloud, als dort ein Data Warehouse oder ein Data Mart aufzubauen und Datenintegration aufzubauen.
  • Public Cloud gibt die Richtung vor – Public ist die bevorzugte Form, gefolgt von Hybrid oder Private-Angeboten.
  • Cloud BI Outsourcing ist real – Mit Cloud wird automatisch ein Teil der Infrastruktur outgesourced. Viele gehen noch weiter in Richtung Managed Services.
  • Kleine Unternehmen zeigen, wo es lang geht – Kleine Unternehmen gehen eher in die Cloud als große und bevorzugen hier auch Public Cloud-Angebote
  • Nordamerika nutzt eher Cloud als Europa – Die Unternehmen sehen Cloud eher strategisch und preferieren die Public Cloud, während Europa im Bereich Private Cloud stark ist.

 

Das Cloud BI im Vergleich zu CRM oder ERP-Anwendungen erst jetzt auf dem Markt ins Laufen kommt, hat lt. [EMA2015] seine Gründe:

  • Die für BI zugrundeliegenden Datenmodelle sind im Vergleich sehr unternehmensindividuell
  • Ebenfalls im Frontend gibt es typischerweise keinen Standardprozess
  • Die zwischen Quellsystemen und BI-System ausgetauschten Datenmengen sind typischerweise deutlich höher als bei transaktionalen Anwendungen

 

[Forrester2015] gibt bei der Auswahl eines Cloud BI-Anbieters folgendes zu beachten:

  • Der Abgleich des Cloud-Angebots mit den eigenen Anforderungen und Erwartungen
  • Die Berücksichtigung hybrider Modelle zur Kombination von On-Premise und Cloud BI
  • Sicherstellung der Erfüllung der Anforderungen durch Compliance und Vorschriften
  • Die eigenen Anforderungen und die Möglichkeiten des Anbieters bzgl. Offline Verfügbarkeit

 

SAP bspw. liefert bzgl. Cloud BI in den verschiedensten Servicemodellen Lösungen aus:

  • Software as a Service (SaaS): die Anwendung wird aus der Cloud heraus angeboten, z. B. SAP BusinessObjects Cloud
  • Platform as a Service (PaaS): in der Cloud wird eine Plattform zur Entwicklung von Applikationen angeboten, z. B. SAP HANA Cloud Platform
  • Infrastructure as a Service (IaaS): Die komplette Infrastruktur (Speicherplatz, Rechenleistung) wird angeboten und es kann beliebige Software darauf installiert werden, z. B. SAP HANA Enterprise Cloud (HEC)
  • Speziellere Modelle wie
    • Data as a Service (DaaS) – der Service liefert definierte Daten zur Nutzung z. B. SAP Digital Consumer Insight
    • Big Data as a Service (BDaaS) – Big Data Applikationen werden direkt nutzbar zur Anwendung z. B. Altiscale (SAP)
    • Analytics Microservices – Durch eine API in eine Software eingebundene Funktion z. B. SAP Hybris as a Service (YaaS)

 

[TDWI2016] liefert 12 Best Practices sich dem Thema Cloud BI zu nähern:

  • Begrüße den Wandel – Bedenken bzgl. Datenschutz und Datensicherheit behindern den Weg in die Cloud. Unternehmen, welche in der Cloud sind, sehen klar die Vorteile bzgl. Flexibilität und Agilität.
  • Beachte kulturelle Themen – Es gibt legitime Gründe gegen die Cloud. Jobs können dadurch wegfallen. Change Management und Weiterbildung sind hier wichtig.
  • Nutze die Cloud um schneller Wert aus BI und Analytics zu ziehen
  • Suche die richtigen Projekte für den erfolgreichen Start
  • Nutze Cloud um die Integration zwischen BI, Analytics und Anwendungen zu modernisieren
  • Cloud-Architektur ist wichtig – Die Cloud ist Teil einer größeren IT-Architektur und in hybriden Ansätze wird viel Zukunft gesehen
  • Weite die IT-Governance auf die Cloud aus
  • Denke im Voraus an Performance und Latenzzeiten
  • Nutze die Cloud als Gelegenheit um mit Open Source zu experimentieren
  • Gehe nicht davon aus, das Datensicherheit und Disaster Recovery automatisch passieren
  • Stelle sicher, dass eine ausreichende „Elastizität“ gegeben ist
  • Konzentriere dich auf eine gute Integration zwischen On-Premise und Cloud

 

Referenzen:

[BARC2017] – BARC & EckersonGroup – BI and Data Management in the Cloud: Issues and Trends, BARC Research Study, January 2017

[TDWI2016] – TDWI – Best Practice Report Q4/2016 – BI, Analytics and the Cloud – Strategies for Business Agility, 2016

[EMA2015] – Enterprise Management Associaties (EMA) – Analytics in the Cloud – An EMA End-User Research Report, January 2015

[Forrester2015] – The Forrester Wave(TM): Cloud Business Intelligence Platforms, Q4 2015

S/4HANA Embedded Analytics

S/4HANA Embedded Analytics ist der Ansatz von SAP, ein performantes und flexibles operatives Reporting zu ermöglichen.
SAP® S/4HANA embedded analytics is the collection of all analytics fea-
tures integrated in the SAP S/4HANA suite that enables business users,
business analysts, and IT to perform real-time process analytics and

operational reporting on live transactional data.

Aus: SAP S/4HANA Embedded Analytics FAQ

Die Datengrundlage bilden virtuelle Datenmodelle (VDM), welche hauptsächlich auf den Core Data Services basieren. Im Frontend sind die aktuellen BusinessObjects BI-Werkzeuge sowohl On-Premise, wie auch in der Cloud verfügbar. Auf Fiori-Basis wurden jedoch neue Werkzeuge  entwickelt, welche man zwischen den Rollen Endanwender und Analysespezialist unterscheiden kann.

Für die Endbenutzer:

  • Multidimensionale Reports

  • Smart-Business-KPIs

  • Analytische Apps basierend auf Analysis Path Framework (APF)

  • Abfrage-Browser

  • Analytische Fiori-Apps

Für den Analysespezialisten:

  • Multidimensionale Reports

  • Smart-Business-KPIs

  • Analytische Apps basierend auf Analysis Path Framework (APF)

  • Abfrage-Browser

  • Analytische Fiori-Apps

Um das Thema „Embedded Analytics“ ganzheitlich zu betrachten muss man sich auch mit den ein Stückweit alternativen Ansatz HANA Live auseinandersetzen, welcher hier immer noch im Einsatz ist. Und auch das Embedded BW verliert seine Bedeutung durch die neuen Möglichkeiten nicht sondern kann in vielen Fällen aus meiner Sicht an Bedeutung gewinnen. Genauso entwickelt sich in diesem Kontext das BW selbst weiter, behält jedoch in vielen Bereichen noch seine bisherige Bedeutung.

Natürlich kann man sich auch fragen, ob S4H Embedded Analytics nicht nur einfach eine Modernisierung von LIS, SAP Query und ABAP Reports ist. Aber das würde hier zu weit führen.

Der Gedanke ist, diesen Blog in Zukunft evtl. auszubauen, wenn sich damit ein Mehrwert zeigt. Aktuell soll er jedoch im Schwerpunkt als Referenz für die aktuellen Quellen und verfügbaren Informationen zu dem Thema dienen. Es gibt bereits sehr gute Blogs zu dem Thema welche u. a. im Folgenden aufgelistet sind.

Best Practices von SAP: https://rapid.sap.com/bp/#/BP_S4H_ANA (mit S-User)

Das SAP FAQ zum Thema. Leider seit 11/2015 nicht mehr aktualisiert.

2-teilige Blog-Serie von Anirban Kundu aus dem SAP Produktmanagement, welcher einen guten Einstieg darstellt, gute weiterführende Referenzen bietet, jedoch technisch nur bis in eine überschaubare Tiefe geht: Teil 1, Teil 2

SAP S/4HANA Embedded Analytics – A detailed Walkthrough – 5-teilige Blog-Serie mit sehr guten Beschreibungen der relevanten Aspekte von prabhith prabhakaran: Teil 1, Teil 2, Teil 3, Teil 4, Teil 5

Die Einstiegsseite für S/4HANA Release 1610. Unter SAP S/4HANA > Übergreifende Komponenten > Analysen findet sich die aktuell SAP-Hilfe zu Embedded Analytics.

Developer Guide für Analysis Path Framework (APF)

SAP-Hilfe zu SAP Smart Business Cockpits

SAP Fiori Library – Rolle „Analytics Specialist“ – unter Categories > by Roles > Analytics Specialist :

sapanalytix_s4heaapps01
SAP Fiori Library – Rolle „Analytics Specialist“