Is Business Intelligence a Data Science Role?

Vor etwa einem Jahr hat ein Teilnehmer in meines Coursera-Kurses „Big Data Specialication“ in einem der Foren die Titelfrage gestellt. Als ich vor etwa vier Monaten darauf gestoßen bin, habe ich neben anderen Teilnehmern versucht, die Frage zu beantworten.

Solche Abgrenzungen sind natürlich grundsätzlich schwierig. Im Beitrag zur Frage war sogar Business Intelligence und Business Analyst zusammen geschmissen. Grundsätzlich finde ich es auch immer interessant, wenn in einem Big Data oder Data Science-Buch Abgrenzungen sehe. I. d. R. finde ich diese immer etwas seltsam…

Ich hatte etwas Zeit damit verbracht, die Diskussionen zu lesen und darüber nachzudenken. Die Antwort von meiner Seite war dann auch recht umfangreich, weshalb ich gedacht habe, es könnte sich lohnen, diese hier wieder zu geben.

Meine Antwort:

Hi all!

Very interesting discussion. As a BI and DW specialist who is learning more about Data Science and Big Data, let me give my part to this discussion.

Where I‘m working and living (Germany), you can clearly differentiate between a Data Scientist and someone doing BI and DW. This is not primarily about tools. And from my point of view it is changing over time.

Data Scientists I know work with NoSQL, maybe Hadoop ecosystem and Spark and more and more in the cloud. Data comes from everywhere and can be structured or unstructured. Social Media, IoT, Business Data, … And they work with machine learning, statistics, also visualizations. E. g. deep learning with TensorFlow and Keras is very popular and Tableau for visualization and story telling. Some of them are very specialized on certain domains like IoT/time series or banking area (fraud detection, …).

So typical BI/DW-tools (DMBS, Viz-Tools) are also used by Data Scientists. What I would like to see as a Data Scientist is experience in working with math methods and machine learning and knowing specialiced tools like KNIME or know programming with R or Python.

CRISP-DM is a typical process and can be found in different variants. As a result Data Scientists found and explain interesting patterns in data and/or implement data driven solutions to optimize business or extend existing business models (or create new ones like Uber, Spotify, Google, Amazon, …)

But at the end I’m not a Data Scientists. So these are things I,ve learned, what maybe is missing to become on, if ever…

As a BI/DWH guy I follow the process ETL->DWH->BI. Typically with internal business data. My job is to extract, integrate and harmonize data from different sources like ERP systems or databases. We try to create an efficient, current (as needed) and integrated high quality base of data in a core data warehouse (a database) which delivers, based on business specification, transactional and master data.

In times before In-Memory databases, we modeled dimensional schemas delivering data very fast and flexible for queries, reports, dashboards, OLAP analysis or further applications like planning and data mining. For reports and dashboards definition of key performance indicators (KPIs) and a good understanding of the transactional process and master data is very often necessary and part of the project. At the end we deploy the report with BI clients, embedded, in a BI portal, mobile and so on.

While machine learning in DS is rather data driven, OLAP Analysis is hypothesis driven and manual work. At the end both can be done on a DW.

I think on a high level a lot of tasks are very similar. Gathering data. Load data on time or regularly to a kind of database. Integrate data (before doing analysis (BI/schema on write) or while doing analysis (DS/schema on read). Test the solution and deploy it. Maybe working on strategy, governance, operations, authorizations, optimization and so on.

For both there are a lot of tools, methods and approaches doing all this. In the last years I see on the one hand, that more and more classical BI vendors getting open for Data Science and Big Data approaches bringing both worlds together. On the other hand I see in both areas that these are not jobs just for one unicorn but for maybe two (like Data Engineer and Data Scientists) or a whole team. As it is in BI. Very often we have specialists for ETL/DW, for BI Clients or for Planning.

Hope this helps a little bit for future learners.

Maybe on last point. Data Science is much more of interest in these days 🙂 while BI/DW is still there since long time and in a broad range of businesses today. I’m looking forward to learn more and see what happens in the next years with these topics.

 

Im weiteren Verlauf gab es auch nochmal eine Antwort von einem Mentor mit folgender Meinung:

„In my view, the largest distinction between business intelligence and data science is that the former focuses on reporting what happened in the past, and the later focuses on predicting the future.“

Eine Aussage, welche ich immer wieder höre und etwas seltsam und im besten Fall etwas unzureichend dargestellt finde. Meine Antwort darauf:

I think no one in BI is building a report just to see what happened. This is an interesting discussion which came up very often. Machine Learning too is analyzing past data. Because you don’t have future data…

In BI you work with planning and forecasting (what could be based on predictive analytics or often not). You analyze past patterns and current trends in data to understand influences and changes to make future predictions and support decisions. You simulate and enhance this with expert knowledge like changed processes, planned promotions, new logistic technologies which can not predicted just maybe calculated or simulated.

In BI you also close the loop and bring analytical information back to ERP/OLTP or other operational Systems to support or automate decisions.

Difference between BI and DS is here maybe that in BI decisions and analysis is mostly done manually and hypothesis driven while DS implement solutions which learn by machine and data driven.

Advertisements

Master the Basics of Analytics

Wenn man sich mit einem Gebiet im Bereich Analytics beschäftigt oder vielleicht auch von einem bestimmten Anbieter oder Tool kommt, dann steht man evtl. irgendwann vor der Frage, woher das eigentlich alles kommt?

Manchmal ist es evtl. eine gute Idee mal ein Buch in die Hand zu nehmen, um von jemandem zu lesen, der sich als einer der Ersten mit dem Thema beschäftigt hat. Oder eben es als erster schaffte, dass auch auf Papier zu bringen.

 

Data Warehouse

Barry Devlin – Erste Definition des Begriffs (Business) Data Warehouse

Homepage | Twitter | Artikel „Business Data Warehouse“

William (Bill) Inmon – Vater des Data Warehouse

Twitter

Ralph Kimball – Vater der Dimensionalen Modellierung

Homepage

Dan Linstedt – Begründer von Data Vault

Homepage | Twitter

 

Business Intelligence

Hans-Peter Luhn – Vater der Business Intelligence

Artikel „A Business Intelligence System

Howard Dresner – Prägte „Business Intelligence“

Homepage | Twitter

Edward F. Codd – Prägte „On-Line Analytical Processing – OLAP“

Collected Work | Artikel „OLAP“

 

Information Design

Ben Shneiderman – Visual Information Seeking Mantra; Erfinder Tree Maps

Homepage | Twitter

Edward Tufte – Erfinder Sparklines; Prägte „Chart Junk“ und „Data-Ink-Ratio“

Homepage | Twitter | GitHub

Stephen Few – Leader in Datenvisualisierung; Erfinder des Bullet Graph

Homepage I | Homepage II

Rolf Hichert – Mitbegründer der SUCCESS-Rules und des IBCS

Homepage | Twitter | YouTube

 

Data Science

John W. Tukey – Begründer der explorative Datenanalyse

Biography | Report (1993, pdf)

Gregory Piatetsky-Shapiro – Prägte „Knowledge Discovery in Databases – KDD“

Homepage | Twitter

Andrew Ng – Mitgründer Google Brain-Projekt, Mitgründer Coursera

Homepage | Twitter

 

Big Data

Doug Cutting – Vater von Hadoop; Chefarchitekt Cloudera

| Blog | Twitter | Github

Matei Zaharia – Erfinder von Apache Spark; Miterfinder von Apache Mesos

Homepage | TwitterDissertation | GitHub

James Dixon – CTO Pentaho; prägte den Begriff „Data Lake“

Blog „Data Lake“ | Twitter

Nathan Marz – Erfinder von Apache Storm; Erfinder der Lambda-Architektur

Homepage | Twitter | GitHub

Der Weg zum Data Scientist

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.

Gartner Magic Quadrant – Data Science Platforms 2017

Zunächst einmal – SAP hat den „Magic Quadrant for Advanced Analytics Platforms“ umbenannt in „Magic Quadrant for Data Science Platforms“. Als Grund gibt Gartner an, dass Data Scientists zu den Hauptnutzern dieser Plattformen gehören.

Gartner definiert eine Data Science Platform wie folgt:

„A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solution, and for incorporating those solutions into business processes, surrounding infrastructure and products.

Im Vergleich zum 2016 MQ fällt auf, dass der Leaders-Quadrant erstmal recht gleich geblieben ist. IBM, SAS, RapidMiner und KNIME sind die Leader. Dell ist rausgefallen, jedoch wird erklärt, dass Dell in Quest aufgegangen ist. Quest hat in 2017 eine gute Position im Challenger-Quadranten.

Bei den Leadern ist noch zu erwähnen, dass IBM hier 2017 eine klare Führungspositon einnimmt. Im Vorjahr war das noch nicht so klar, war doch SAS und auch KNIME in der „Completeness of Vision“ noch etwas vorne und SAS lag in der „Ability to Execute“ vorne und hatte somit 2016 die Führungsposition.

Nun, die Frage ist, wo liegt SAP, wo im Vergleich und was hat sich getan? Microsoft möchte ich ebenso betrachten.

SAP hatte es 2016 gerade in den Challenger-Quadranten geschafft. In 2017 ist SAP etwas abgerutscht und somit ein starker Nischenplayer. Nun gut, es verwundert wenig. Aktuell läuft von SAP auf OpenSAP der Kurs „Getting Startet with Data Science„. Schwerpunkt ist das hier im Magic Quadrant ebenfalls bewertete SAP BusinessObjects Predictive Analytics und dessen Nutzung im Rahmen des CRISP-DM-Prozesses. Gut, der Kurs heißt „Getting Startet…“ jedoch ist das wirklich Grundlagenarbeit. Die Arbeit mit SAP BO Predictive Analytics hat mich schon etwas überrascht. Ohne R-Integration ist die Anzahl der verfügbaren Algorithmen sehr überschaubar und richtig komplexe Sachen kann man im „Expert Mode“ auch kaum machen.

SAP’s Stärken 2016:

  • Klares Commitment zu Analytics
  • Vision für Cloud Analytics
  • Umfang der möglichen Use Cases
  • Embedded Analytics
  • Leicht zu lernen und zu benutzen

SAP’s Stärken 2017:

  • SAP HANA-Integration
  • Support for Citizen Data Scientists (Automated Analysis)
  • Deployment (Predictive Factory & Analytics Extensions)
  • Klares Commitment zu Analytics
  • Umfang der möglichen Use Cases

SAP’s Warnungen 2016:

  • Geringe Gesamtzufriedenheit, Support und Vertriebsbeziehungen
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)
  • Kunden hautsächliche innerhalb der Bestandskunden

SAP’s Warnungen 2017:

  • Kunden hautsächliche innerhalb der Bestandskunden
  • Geringe Gesamtzufriedenheit
  • HANA-First-Strategy
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)

Zusammenfassend läst sich für SAP also sagen, SAP PA ist recht schnell zu erlernen und bietet dabei ein breites Anwendungsspektrum. Jedoch wurden die Warnungen nicht erhöhrt und finden sich in 2017 wieder. Der Fokus auf HANA ist Chance und Risiko zugleich.

Microsoft gilt als Visionär im MQ. In 2017 sind Sie etwas höher an die Schwelle zum Leader gerückt. War 2016 noch SASS der Schwerpunkt der Betrachtung da andere Produkte erst frische am Markt waren, so schwenkt der Schwerpunkt in 2017 zum Azure Machine Learning (AML) Angebot als Teil Cortana Intelligence Suite.

MS’s Stärken 2016:

  • Höchste Bewertung bei „Completeness of Vision“
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Produktroadmap und Vision
  • AML bietet eine einfache Integration von Cloud-Data Sources
  • Plattform-Skalierbarkeit und Pay as you use
  • Starke OpenSource-Integration

MS’s Stärken 2017:

  • Plattform-Skalierbarkeit & Flexibilität
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Starke OpenSource-Integration
  • Innovativ im Bereich Bild- und Spracherkennung sowie Deep Learning
  • Starke Machine Learning-Fähigkeiten sowie Collaboration und Automatisierung
  • Starke Produktroadmap und Vision

MS’s Warnungen 2016:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Unsicherheit über Produktstrategie bzgl. integrierter Tools (z. B. Revolution Analytics)
  • Zum Teil geringe Kundenzufriedenheit (jedoch eher bzgl. traditioneller Tools wie SSAS)

MS’s Warnungen 2017:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Cortana Intelligence Suite ist noch neu und unreif
  • Delivery Optionen
  • Einige Bereiche sind schwach ausgeprägt (Dokumentation, Data Preperation, Branchenlösungen)

In Summe lässt sich über das Microsoft-Angebot sagen, es ist skalierbar und flexibel, hat eine hervorragende Roadmap und Open Source-Integration. Der Fokus ist auf Cloud, was von den Kunden nicht immer als Vorteil gesehen wird. Auch ist das Produkt noch recht neu, entwickelt sich jedoch schnell weiter.

Soweit zu den zwei Anbietern, welche für mich interessant sind. Aktuell ist keiner davon Leader oder Challenger. Microsoft hat bei der Completeness of Vision jedoch klar die Nase vorne und macht den Eindruck, möglicherweise bald in den Leader-Quadranten aufzusteigen. SAP hat nach meiner Beobachtung seine Aktivitäten stark gestreut auf viele Produkte und kommt deshalb nicht vergleichbar voran. Um zu den führenden Anbietern aufzuschließen fehlt noch ein wenig. Wie üblich ist das Produkt eher bei Bestandskunden verbreitet und tut sich aktuell schwer im breiten Markt.

BI – Die alten Regeln gelten nicht mehr

Vor Kurzem veröffentlichte Wayne W. Eckerson (WE) einen Artikel darüber, wie sich die Welt im BI-Umfeld verändert (hat). Er listet einige Erkenntnisse von seiner letzten TDWI-Konferenz und versucht auch dies zu erklären. Ich (SA) versuche einmal, ausgewählte Aussagen wieder zu geben und auf meine Situation zu übersetzen.

  • “There is no need for a dimensional model.”
    • WE: Heutige BI-Werkzeuge sind so gut, dass schlechtes Design kompensiert wird.
    • SA: InfoCubes sind in einen HANA-System nicht mehr notwendig. Bei einer Modellierung in HANA muss man nur bedingt auf Performance achten und Werkzeuge wie Lumira benötigen nichtmal In-Memory sondern nutzen SAP IQ als spaltenbasierte Datenbank um performance durch den Endanwender Millionen von Datensätzen verarbeiten zu können.
  • “There is no need for ETL tools.”
    • WE: nutze Spark für ETL in der Cloud oder in Hadoop-Umgebungen
    • SA: Ebenfalls Lumira hat hier schon gezeigt, wie auch recht komplexe Transformationen sowie die Anbindung an fast beliebige Datenquellen schnell und einfach möglich sind. Mit Agile Data Preparation hat die SAP sogar ein komplett eigenes Werkzeug dafür auf den Markt gebracht.
  • “You don’t need a relational database.”
    • WE: Du kannst alle deine Data Science-Aufgaben ins S3 und mit Spark erledigen.
    • SA: Zumindest meine ersten Erfahrungen mit BO Cloud legen nahe, dass Cloud doch noch die eine oder andere Kinderkrankheit hat. Allerdings garantiert Amazon 99,999999999 % Ausfallsicherheit. Das muss man intern erstmal leisten. Das man für Data Science nicht unbedingt eine relationale Datenbank benötigt, ist aber glaube ich wirklich nichts Neues. Gerade wenn es um unstrukturierte Daten geht und um extrem große Datenmengen sind andere Ansätze gefragt.
  • “Code is not the enemy.”
    • WE:  Schreibe ETL-Code in Spark und verwalte ihn in Git Hub; es ist befreiend
    • SA: Git scheint heute im HANA oder SAP Cloud-Umfeld schon der neue Standard zu sein. In einer superagilen Welt verwundert der Erfolg von Git Hub daher nicht.
  •  “We don’t move data.”
    • WE: Wir bauen logische views in Hadoop für analytische Anwendungsfälle
    • SA: Auch HANA und vor allem S/4HANA setzen auf virtuelle Datenmodelle, welche für analytische Zwecke optimiert sind. Mit Core Data Services wird aktuell von SAP eine neue Grundlage geschaffen, dieses Konzept in der Breite umzusetzen.
  •  “We design from physical to logical, not logical to physical.”
    • WE: Wir laden Rohdaten in das System, dann bauen wir logische views für jeden Anwendungsfall; wir modellieren nicht zuerst.
    • SA: Passt zum vorherigen Punkt und unterstützt und erweitert diesen. In einem S/4HANA liegen die Daten schon vor, jedoch nicht unbedingt für analytische Zwecke. Erst durch das virtuelle Datenmodell bereite ich die „Rohdaten“ auf. In einem NoSQL-System oder Data Lake lege ich Daten ab, wie Sie kommen. In zum Teil völlig verschiedenen Schemata für die Sie ursprünglich gedacht waren. Wie ich diese für die Analyse im Sinne von Data Science benötige, kann ich vorab noch nicht sagen. Dabei kann man jedoch noch gut zu den traditionellen Ansätzen differenzieren, bei denen der Analysezweck im vorhinein recht klar ist (z. B. Analyse von Umsatzdaten nach verschiedenen Dimensionen). Schema-on-Read ist nichts, was der Fachbereich mal nebenher macht, weil er eine Fragestellung beantwortet haben möchte. Und dann gibt es auch noch agile Ansätze wie Data Vault.
  • “We design for secondary use cases, not the primary one, which has a limited shelf life.”
    • WE: Wir laden Daten und speichern diese auf Detailebene, so dass wir diese für neue Einsatzzwecke verwenden können, sobald der Bedarf dafür aufkommt.
    • SA: Die Aggregation von Daten geschieht immer für einen bestimmten Zweck. Information geht dabei verloren. Natürlich sollte es für ein HANA-System in der SAP-Welt kein Problem sein, sehr granulare Daten zu speichern. Jedoch kann dies sehr teuer sein. Mit Ansätzen wie Dynamic Tiering und Nearline Storage hat SAP Ansätze, das zu handhaben. Eine Alternative für BW könnten Ansätze wie SparrowBI sein.
  • “Your data architecture is as important or more than your data model.”
    • WE: Wie die Daten im Dateisystem abgelegt werden ist wichtig. Sonst wird man mit den Daten wenig anfangen können.
    • SA: Themen wie Datenqualität, Metadatenmanagement und Data-Lineage spielen hier eine wichtige Rolle, soll der Data Lake nicht zum Datensumpf werden.
  • “Architecture is way more important when you move to the cloud.”
    • WE: Wenn du deine Cloud nicht richtig konfigurierst, wird es evtl. teurer als gedacht.
    • SA: Mit Cloud-Konzepten herrscht weniger Erfahrung als in der On-Premise-Welt. Die leichte Verfügbarkeit der Ressourcen verführt dazu, erstmal großzügig damit umzugehen. Evtl. muss hier neu und eher elastisch gedacht werden.
  • “Applications are dependent on analytics.”
    • WE: Wir benötigen DevOps um die Entwicklung von Anwendungen und Analytic zu koordinieren.
    • SA: S/4HANA setzt massiv auf Hybrid Transactional Analytical Processing (HTAP) und verbindet immer mehr operative Anwendungen mit analytischen Funktionen.
  • “Either you evolve and change, or die.”
    • WE: Sei offen gegenüber Hadoop, Spark und der Cloud.
    • SA: Das sich SAP gegenüber den Open Source-Technologien wie Hadoop und Spark z. B. im Rahmen von HANA Vora öffnet ist ein wichtiges Zeichen. Bei Cloud versucht sich SAP als Vorreiter und setzt darauf wie auf HANA und zeigt damit auch die Richtung.

Eckerson schließt mit den Worten „The only constant is change, and now is the time to change! „. Aber Veränderung ist kein Projekt oder etwas, was man jetzt mal angehen sollte. Um konkurrenzfähig zu bleiben muss Veränderung zum integralen Bestandteil der Unternehmenskultur werden.

BI & Machine Learning

Howard Dresner stellt in seinem aktuellen Blog die Frage „Is Artificial Intelligence the Future of Business Intelligence?

Bei SAP selbst tauchen Begriffe wie Machine Learning (ML) oder Artificial Intelligence (AI) immer wieder auf. So ist Bernd Leukert als SAP Vorstand für Produkte & Innovationen auch Aufsichtsrat des Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Bill McDermott hat in einem vor Kurzem erschienen Interview klar gesagt, dass SAP zukünftig eine führende Rolle in diesem Bereich einnehmen will. Er wird dabei wie folgt zitiert:

“We want to become the world-wide machine learning leader for corporate businesses, hands down,” …

“Our goal is to have the most intelligent business applications and we’re doing everything we can to achieve that.”

Nicht zuletzt hat SAP aktuell auf der MOOC-Plattform OpenSAP einen Kurs mit dem Titel „Enterprise Machine Learning in a Nutshell“ laufen.

Nun, schaue ich mir den OpenSAP-Kurs so an, dann sehe ich kaum Unterschiede zu dem, was ich schon 2006 zu Diplomarbeitszeiten gesehen und gelesen habe und was heute oft unter dem Label Predictive Analytics verkauft wird.

Schaut man sich die aktuellen Tools von SAP an, so findet man immer wieder die Verwendung der Automated Predictive Library (APL) und der Predictive Analysis Library (PAL) sowie der OpenSource Statistik-Bibliothek R, welche sich bei vielen Anbieter großer Beliebtheit erfreut. APL und PAL sind natürlich Teil von HANA selbst. Und im BW ist die Integration mit dem HANA Analysis Process möglich. Dann gibt es auch noch das Werkzeug SAP Predictive Analytics, welche grafische Oberflächen zur Modellierung bietet. Und auch in das noch sehr neue SAP Produkt SAP BusinessObjects Cloud hat Predictive mittlerweile Einzug gehalten.

Begriffe, welche man in dem Zusammenhang neben Künstliche Intelligenz und Maschinellem Lernen immer wieder hört, sind Data Mining, Statistik, Deep Learning und manchmal vielleicht auch noch Data Science.

Gartner beschreibt Maschinelles Lernen/Machine Learning wie folgt:

Advanced machine learning algorithms are composed of many technologies (such as deep learning, neural networks and natural-language processing), used in unsupervised and supervised learning, that operate guided by lessons from existing information. 

Lt. Gartner stellt sich Künstliche Intelligenz/Artificial Intelligence deutlich komplexer dar:

Artificial intelligence is technology that appears to emulate human performance typically by learning, coming to its own conclusions, appearing to understand complex content, engaging in natural dialogs with people, enhancing human cognitive performance (also known as cognitive computing) or replacing people on execution of nonroutine tasks. Applications include autonomous vehicles, automatic speech recognition and generation and detecting novel concepts and abstractions (useful for detecting potential new risks and aiding humans quickly understand very large bodies of ever changing information).

Gerade der hier auftauchende Begriff „Cognitive Computing“ zeigt, dass in dem Bereich aktuell viel Bewegung ist, bei dem IBM mit Watson ein Vorreiter ist. Jedoch beispielsweise auch die deutsche BITKOM das Thema für sich entdeckt hat.

Als ich 2006 meine Diplomarbeit zum Thema Data Mining (DM) schrieb, war die Welt noch etwas einfacher. Daten waren noch nicht so „Big“ oder „Smart“ und die Begriffswelt noch nicht so ausdifferenziert.

Data Mining beschrieb ich neben OLAP und Planung als Analysetechnik welches typischerweise auf einem Data Warehouse basiert:

„Data mining is the process of discovering meaningful new correlations,
patterns and trends by „mining“ large amounts of stored data using pattern
recognition technologies, as well as statistical and mathematical techniques.“
(Ashby, Simms 1998)

Bei der Herkunftsbestimmung aus diversen Büchern fand ich:

  • Statistik
  • Datenbankmanagement
  • Mustererkennung
  • Visualisierung
  • Künstliche Intelligenz – vor allem der Bereich „Maschinelles Lernen“

Viele der Begriffe versucht man heute viel deutlicher voneinander abzugrenzen, als das nach meinem Gefühl vor 10 Jahren der Fall war. Möglicherweise ist das aufgrund der weitergeführten Forschung in den Bereichen, dem technologischen Fortschritt sowie geänderter Rahmenbedingungen (z. B. 3 V’s) auch absolut sinnvoll.

Nehme ich mal die drei aus meiner Sicht am engsten miteinander verbundenen Begriffe und schaue mir mal die Trends bei Google an, zeigt sich folgendes:

ki_ml_dm01

Offensichtlich zeigen AI und DM eine gewisse Korrelation über die Zeit. Machine Learning hat dafür lange vor sich dahingedümpelt, bis die letzten Jahre der Trend doch angezogen hat, so das Machine Learning an den anderen beiden Begriffen vorbeigezogen hat. Interessant auch der Blick auf die weltweite Verteilung:

ki_ml_dm_02_welt

Möglicherweise sind die Begriffe auch noch sehr regional geprägt. Während Data Mining doch recht verbreitet zu sein scheint, ist Machine Learning wohl vor allem in Skandinavien populär.

Gartner hat im Hype Cycle für Advanced Analytics und Data Science, 2015 das Thema Machine Learning auf dem Gipfel der überhöhten Erwartungen gesehen. Direkt vor Predictive Analytics. Der Hype Cycle 2016 hat sich dazu kaum verändert.

Bei den vor Kurzem für 2017 veröffentlichten Technologie-Trends sieht Gartner das Thema AI & ML als Top 1 und meint:

AI and machine learning have reached a critical tipping point and will increasingly augment and extend virtually every technology enabled service, thing or application.

In diesem Sinne folgen an Stelle 2 und 3 auch gleich die Themen „Intelligent Apps“ und „Intelligent Things“, welche letztendlich wieder stark auf AI basieren.

Howard Dresner schließt seinen Blog mit der Überlegung, das AI im BI-Umfeld ein Thema ist, wenn sie die Daten besser analysieren kann, als ein Mensch. Jedoch warnt er auch, dass AI trotz seines Alters (Ursprünge in den 50er-Jahren) heute keine reife Technologie ist und für Fehler sehr wohl anfällig sein kann, wie bspw. Microsoft im Frühjahr 2016 erfahren musste.

Was bedeutet dies nun für den klassischen SAP BI-Berater, der mit SAP BW, BEx und evtl. BusinessObjects BI unterwegs ist? HANA kommt, aber ist eben noch nicht überall angekommen. Bis zur BusinessObjects Cloud ist es für viele vor allem in Deutschland ebenfalls noch ein langer Weg. Und SAP Predictive Analytics ist aus meiner Erfahrung von der Lizenz her recht teuer.

Ich glaube zurück zur SAP BW Data Mining Workbench und zum Analyseprozessdesigner möchte auch niemand unbedingt. Die Automated Analytics-Ansätze richten sich schon an den Business User. Muss man dann evtl. nur noch technisch und bei der Bereitstellung der Daten unterstützen? Oder braucht man gleich die Weiterbildung zum Data Scientist?

Ich denke es sind einfach auch verschiedene Skills, wie auch verschiedene Anforderungen an die IT, die hier im Spiel sind. Trivial zu beantworten ist dies deshalb sicherlich nicht. Jedoch ist aus heutiger Sicht klar, alles, was eine SAP aktuell unter Analytics zusammenfasst, kann sowieso nur im Team abgedeckt werden. Dieses aufzubauen und zu strukturieren ist vielleicht die wahre Herausforderung.

SAP HANA 2

Am 08.11.2016 hat SAP zum Start der SAP TechEd Barcelona das Release 2 der HANA-Datenbank vorgestellt. Geplantes Releasedatum für Kunden ist der 30.11.2016. Kurz darauf soll es auch die HANA 2 Express Edition geben, um Entwicklern einen schnellen Zugriff zu ermöglichen.

Bernd Leukert hat HANA 2 wie folgt angekündigt und beschrieben:

“The first version of SAP HANA is the synonym for real time processing of data. It’s already the backbone of thousands of major companies,” said Leukert. “I’m proud to officially announce today SAP HANA 2, which will be released at end of November. This next generation of SAP HANA is the digital foundation to transform any business, helping IT shift focus to innovation, continuing to evolve data management and application development.”

Wer mag, kann sich hier direkt die Ankündigung anschauen.

Bzgl. Analytics soll HANA 2 folgende Erweiterungen liefern:

„Analytical intelligence: Developers are embedding rich insight into applications with enhanced analytical processing engines for text, spatial, graph and streaming data. For example, new algorithms for classification, association, time series and regression have been added to the predictive analytics library to empower data scientists to discover new patterns and incorporate machine learning into custom applications.“

Wenn auch der Zusammenhang aus den bisherigen Meldungen mir noch nicht ganz klar ist, hat SAP zeitgleich cloudbasierte SAP HANA Microservices im Bereich Analytics angekündigt:

  • TEXT ANALYSIS ENTITY EXTRACTION – Ein Service zum hervorheben wichtiger Informationen in unstrukturierten Daten.
  • TEXT ANALYSIS FACT EXTRACTION – Ein Service zur Sentimentanalyse, bspw. bzgl. eines Produktes oder eines vom Unternehmen angebotenen Services. Ebenso einen Service bzgl. Öffentlicher Veranstaltungen (Public Sector) bspw. zur Risikoabschätzung sowie einen Service zur Analyse von Unternehmensereignissen (Enterprise) wie personelle Veränderungen oder die Neueinführung von Produkten.
  • TEXT ANALYSIS LINGUISTIC ANALYSIS – Ein Service zur Sprachanalyse, bspw. um welche Sprache es sich handelt oder im Weiteren der linguistischen Analyse des geschrieben selbst.
  • Earth Observation Analysis Service – Ein Service zur Auswertung von Satelliteninformationen bzgl. der Erde. Aktuell in der Beta-Version.

SAP verspricht sich von einer Microservices Architektur Folgendes:

  • Independence from the business domain, devices, and environments
  • Nonproprietary environment that offers freedom to choose the programming languages and underlying database technologies as well as gaining portability of services and applications between cloud infrastructures
  • Prebuilt business processes that allows organizations to develop new ways to utilize application data and services easily and flexibly, and scale to changing requirements

Bis zur Veröffentlichung Ende November wird evtl. noch die eine oder andere Information zu neuen Features fließen. Ab 01.12.2016 informiert die SAP dann in 12 Webinaren über die Neuigkeiten.

Bis dahin bietet die aktuelle HANA 2 FAQ Antwort auf wenigstens ein paar Fragen.