Is Business Intelligence a Data Science Role?

Vor etwa einem Jahr hat ein Teilnehmer in meines Coursera-Kurses „Big Data Specialication“ in einem der Foren die Titelfrage gestellt. Als ich vor etwa vier Monaten darauf gestoßen bin, habe ich neben anderen Teilnehmern versucht, die Frage zu beantworten.

Solche Abgrenzungen sind natürlich grundsätzlich schwierig. Im Beitrag zur Frage war sogar Business Intelligence und Business Analyst zusammen geschmissen. Grundsätzlich finde ich es auch immer interessant, wenn in einem Big Data oder Data Science-Buch Abgrenzungen sehe. I. d. R. finde ich diese immer etwas seltsam…

Ich hatte etwas Zeit damit verbracht, die Diskussionen zu lesen und darüber nachzudenken. Die Antwort von meiner Seite war dann auch recht umfangreich, weshalb ich gedacht habe, es könnte sich lohnen, diese hier wieder zu geben.

Meine Antwort:

Hi all!

Very interesting discussion. As a BI and DW specialist who is learning more about Data Science and Big Data, let me give my part to this discussion.

Where I‘m working and living (Germany), you can clearly differentiate between a Data Scientist and someone doing BI and DW. This is not primarily about tools. And from my point of view it is changing over time.

Data Scientists I know work with NoSQL, maybe Hadoop ecosystem and Spark and more and more in the cloud. Data comes from everywhere and can be structured or unstructured. Social Media, IoT, Business Data, … And they work with machine learning, statistics, also visualizations. E. g. deep learning with TensorFlow and Keras is very popular and Tableau for visualization and story telling. Some of them are very specialized on certain domains like IoT/time series or banking area (fraud detection, …).

So typical BI/DW-tools (DMBS, Viz-Tools) are also used by Data Scientists. What I would like to see as a Data Scientist is experience in working with math methods and machine learning and knowing specialiced tools like KNIME or know programming with R or Python.

CRISP-DM is a typical process and can be found in different variants. As a result Data Scientists found and explain interesting patterns in data and/or implement data driven solutions to optimize business or extend existing business models (or create new ones like Uber, Spotify, Google, Amazon, …)

But at the end I’m not a Data Scientists. So these are things I,ve learned, what maybe is missing to become on, if ever…

As a BI/DWH guy I follow the process ETL->DWH->BI. Typically with internal business data. My job is to extract, integrate and harmonize data from different sources like ERP systems or databases. We try to create an efficient, current (as needed) and integrated high quality base of data in a core data warehouse (a database) which delivers, based on business specification, transactional and master data.

In times before In-Memory databases, we modeled dimensional schemas delivering data very fast and flexible for queries, reports, dashboards, OLAP analysis or further applications like planning and data mining. For reports and dashboards definition of key performance indicators (KPIs) and a good understanding of the transactional process and master data is very often necessary and part of the project. At the end we deploy the report with BI clients, embedded, in a BI portal, mobile and so on.

While machine learning in DS is rather data driven, OLAP Analysis is hypothesis driven and manual work. At the end both can be done on a DW.

I think on a high level a lot of tasks are very similar. Gathering data. Load data on time or regularly to a kind of database. Integrate data (before doing analysis (BI/schema on write) or while doing analysis (DS/schema on read). Test the solution and deploy it. Maybe working on strategy, governance, operations, authorizations, optimization and so on.

For both there are a lot of tools, methods and approaches doing all this. In the last years I see on the one hand, that more and more classical BI vendors getting open for Data Science and Big Data approaches bringing both worlds together. On the other hand I see in both areas that these are not jobs just for one unicorn but for maybe two (like Data Engineer and Data Scientists) or a whole team. As it is in BI. Very often we have specialists for ETL/DW, for BI Clients or for Planning.

Hope this helps a little bit for future learners.

Maybe on last point. Data Science is much more of interest in these days 🙂 while BI/DW is still there since long time and in a broad range of businesses today. I’m looking forward to learn more and see what happens in the next years with these topics.

 

Im weiteren Verlauf gab es auch nochmal eine Antwort von einem Mentor mit folgender Meinung:

„In my view, the largest distinction between business intelligence and data science is that the former focuses on reporting what happened in the past, and the later focuses on predicting the future.“

Eine Aussage, welche ich immer wieder höre und etwas seltsam und im besten Fall etwas unzureichend dargestellt finde. Meine Antwort darauf:

I think no one in BI is building a report just to see what happened. This is an interesting discussion which came up very often. Machine Learning too is analyzing past data. Because you don’t have future data…

In BI you work with planning and forecasting (what could be based on predictive analytics or often not). You analyze past patterns and current trends in data to understand influences and changes to make future predictions and support decisions. You simulate and enhance this with expert knowledge like changed processes, planned promotions, new logistic technologies which can not predicted just maybe calculated or simulated.

In BI you also close the loop and bring analytical information back to ERP/OLTP or other operational Systems to support or automate decisions.

Difference between BI and DS is here maybe that in BI decisions and analysis is mostly done manually and hypothesis driven while DS implement solutions which learn by machine and data driven.

Advertisements

Master the Basics of Analytics

Wenn man sich mit einem Gebiet im Bereich Analytics beschäftigt oder vielleicht auch von einem bestimmten Anbieter oder Tool kommt, dann steht man evtl. irgendwann vor der Frage, woher das eigentlich alles kommt?

Manchmal ist es evtl. eine gute Idee mal ein Buch in die Hand zu nehmen, um von jemandem zu lesen, der sich als einer der Ersten mit dem Thema beschäftigt hat. Oder eben es als erster schaffte, dass auch auf Papier zu bringen.

 

Data Warehouse

Barry Devlin – Erste Definition des Begriffs (Business) Data Warehouse

Homepage | Twitter | Artikel „Business Data Warehouse“

William (Bill) Inmon – Vater des Data Warehouse

Twitter

Ralph Kimball – Vater der Dimensionalen Modellierung

Homepage

Dan Linstedt – Begründer von Data Vault

Homepage | Twitter

 

Business Intelligence

Hans-Peter Luhn – Vater der Business Intelligence

Artikel „A Business Intelligence System

Howard Dresner – Prägte „Business Intelligence“

Homepage | Twitter

Edward F. Codd – Prägte „On-Line Analytical Processing – OLAP“

Collected Work | Artikel „OLAP“

 

Information Design

Ben Shneiderman – Visual Information Seeking Mantra; Erfinder Tree Maps

Homepage | Twitter

Edward Tufte – Erfinder Sparklines; Prägte „Chart Junk“ und „Data-Ink-Ratio“

Homepage | Twitter | GitHub

Stephen Few – Leader in Datenvisualisierung; Erfinder des Bullet Graph

Homepage I | Homepage II

Rolf Hichert – Mitbegründer der SUCCESS-Rules und des IBCS

Homepage | Twitter | YouTube

 

Data Science

John W. Tukey – Begründer der explorative Datenanalyse

Biography | Report (1993, pdf)

Gregory Piatetsky-Shapiro – Prägte „Knowledge Discovery in Databases – KDD“

Homepage | Twitter

Andrew Ng – Mitgründer Google Brain-Projekt, Mitgründer Coursera

Homepage | Twitter

 

Big Data

Doug Cutting – Vater von Hadoop; Chefarchitekt Cloudera

| Blog | Twitter | Github

Matei Zaharia – Erfinder von Apache Spark; Miterfinder von Apache Mesos

Homepage | TwitterDissertation | GitHub

James Dixon – CTO Pentaho; prägte den Begriff „Data Lake“

Blog „Data Lake“ | Twitter

Nathan Marz – Erfinder von Apache Storm; Erfinder der Lambda-Architektur

Homepage | Twitter | GitHub

BARC Score Data Discovery 2017 vs. 2018

BARC hat für 2018 einen neuen BARC Score für Data Discovery veröffentlicht. Fast genau ein Jahr nach Veröffentlichung des ersten BARC Scores zu dem Thema kommt somit die Neuauflage.  Mit dem Neuzugang Datameer sind in 2018 dreizehn Anbieter zu finden.

Was das Thema ausmacht, jedoch auch wie SAP (mit SAP Analytics Cloud) und auch Microsoft (mit MS Power BI) hier abschneiden, möchte ich im Folgenden etwas genauer betrachten.

BARC hat eine eigene Definition für den Begriff Data Discovery:

„Data Discovery is the business user driven and iterative process of discovering patterns and outliers in data“

– BARC, 2017

Wikipedia fast den Begriff etwas pragmatischer:

„Der Begriff Data Discovery („Datenentdeckung“) gilt als Schlagwort für weiterentwickelte Business-Intelligence-Werkzeuge, die mehr Bedienerfreundlichkeit und Flexibilität sowie höchstmögliche Autonomie der Anwender gewährleisten sollen. Der Schwerpunkt liegt in der Visualisierung der Datenanalyse.“

Wikipedia, 19.09.2018

BARC fasst unter Data Discovery drei wesentliche Komponenten zusammen:

  • Data Preparation
  • Visual Analysis
  • Guided Advanced Analytics

An diesen Aspekten muss man sich auch messen lassen, um im BARC Score aufzutauchen.

2015 beschreibt Rita Sallam von Gartner im News-Beitrag Gartner Says Power Shift in Business Intelligence and Analytics Will Fuel Disruption“ Smart Data Discovery. Die Vorstellung von BARC und Gartner dürften sich hiermit weitgehend treffen.

Mitte 2017 greift Rita Sallam das Thema erneut auf und gibt der seitherigen Entwicklung einen neuen Namen: Augmented Analytics – mit Machine Learning und Conversational Analytics als neue Treiber.

Im Vergleich der Überblicksartikel sowie weiterer große Textteile im BARC Score fällt auf, dass sich hier im Prinzip nicht viel geändert hat und für BARC Copy & Paste offensichtlich weitgehend ausgereicht hat.

Inklusionskriterien und Evaluationskriterien haben sich zum Vorjahr im Wesentlichen nicht verändert. Zu den oben genannten drei Aspekten der ersten Score-Achse „Portfolio Capabilities“ kommt noch der Aspekt „Platform“ hinzu. Die individuelle Verarbeitung von Daten sowie die Verbreitung inkonsistenter Analyseergebnisse haben in der Vergangenheit zu einem Vertrauensverlust geführt. Deshalb bewertet BARC auch den Aspekt, lokale und globale Governance zu unterstützen sowie die Kollaboration rund um die Daten zu ermöglichen, ohne den Anwender im Fachbereich zu sehr einzuschränken.

In der Zweiten Score-Achse „Market Execution“ gab es eine kleine Anpassung. Wurde 2017 der Aspekt „Financials“ noch mit Medium bewertet, ist die Gewichtung in 2018 nur noch Low. Unter Financials versteht BARC Marktkapitalisierung, EBITDA, Cash, Profitabilität usw. Es ist anzunehmen, dass die großen Anbieter darunter etwas leiden. Jedoch ist dies hier nur eines von acht Kriterien.

Der BARC Score beginnt in sofern interessant, als das es keinen „Dominator“ rechts oben mit auf beiden Achsen extrem starken Wertungen gibt. Offensichtlich haben alle Tools auch Ihre Schwächen.

Wie 2017 finden sich im zweitbesten Bereich „Market Leaders“ Tableau und MicroStrategy. Neu hinzugestoßen in 2018 ist Qlik mit Qlik Sense. Vergleicht man mal mit den aktuellen Gartner Magic Quadrant für Analytics & BI, überraschen die Market Leader wenig. Der Fokus mag nicht genau der gleiche sein, was es interessant macht zu sehen, warum Power BI von Microsoft zwar auch im BARC Score stark ist (beste Market Execution), jedoch im Bereich Portfolio Capabilities zu den anderen zurück bleibt und somit nur im nachfolgenden „Challenger“-Bereich landet. Microsoft findet sich dort recht nahe zu SAP, welche zwar immer noch Challenger ist, jedoch im Vergleich zu 2017 in der weiteren Entwicklung wohl nicht ganz mit Microsoft mithalten konnte.

 

Bewertung von Microsoft Power BI 

Analytix_MSPowerBI

Beispiel für MS Power BI Desktop (eigene Darstellung)

Produktlink

Update Power BI-Service für Juli & August 2018

MS Power BI (PBI) ist ein Desktop BI-Tool mit cloudbasiertem BI-Service für die Veröffentlichung und Verteilung von BI-Inhalten. Eine On-Premise-Version (Berichtsserver) ist aktuell in Arbeit und bereits einsetzbar.

Treiber für PBI ist die starke Verbreitung von Microsoft sowie der sehr günstige Einstiegspreis. Die Sprache DAX erlaubt komplexe Funktionen in der Datenvorbereitung, erschwert jedoch den einfachen User u. U. die Nutzung. Die Stärke liegt in den Visualisierungsmöglichkeiten. Advanced Analytics steht bedingt zur Verfügung, R kann für fortgeschrittene User integriert werden.

Während BARC das im Unternehmen oft vorhandene Microsoft-Wissen als klare Stärke ansieht, ist die Kundenzufriedenheit in 2017 doch eher niedrig. In 2018 hat sich Microsoft hier aufgrund regelmäßiger Updates deutlich verbessert.

Stärken:

  • Quick Insights für geführte fortgeschrittene Analysen (nur 2017)
  • Natural Language Query-Funktionen für Visualisierungen (Q&A)
  • Integration in die Microsoft-Produktwelt
  • Nachvollziehbarkeit aller Datenvorbereitungsschritte, sowie diese zu ändern oder rückgängig zu machen
  • Gute Führung innerhalb der Datenvorbereitung (nur 2018)

Herausforderungen/Schwächen:

  • Datenimporte (Volumen) sowie der Live-Zugriff auf Quellen ist noch recht eingeschränkt
  • Datenvorbereitung und Modellierung ist nur im Desktop möglich
  • In der Datenvorbereitung sind nicht alle Funktionen über Wizards oder kontextsensitive Aktionen abgedeckt (2018)
  • Automatisierte Insights sind nur in der Cloud verfügbar und brachten in den Testfällen keine signifikanten Muster hervor.

 

Bewertung von SAP Analytics Cloud

Analytix_SAPAnalyticsCloud

Beispiel für SAP Analytics Cloud (eigene Darstellung)

Produktlink

Aktuelles Update (2 Wochen-Rythmus)

SAP vollzieht aktuell einen Wechsel im Bereich Data Discovery. Bisher war SAP Lumira als Desktop-Werkzeug das führende Produkt in diesem Bereich.  In 2018 hat die Strategie komplett zu SAP Analytics Cloud (SAC) gewechselt. SAC wird von BARC als Produkt mit einer vollständigen Vision für Data Discovery angesehen. Einschließlich Datenvorbereitung, visuelle Analyse, fortgeschrittene Analysen sowie als einziges der getesteten Werkzeuge Planung und Budgetierung. Jedoch ist der Reifegrad in bestimmten Bereichen noch nicht sehr ausgeprägt.

Der Umfang an Konnektoren ist bei SAC deutlich geringer als bei anderen Anbietern. Jedoch ist die Datenvorbereitung noch schwach ausgeprägt und ein grundlegendes Datenprofiling ist zwar möglich, jedoch aktuell nur bedingt hilfreich.

Advanced Analytics ist mit den Smart Discovery-Funktionen eine starke Säule des Produkts. Auf Basis der Testdaten konnten jedoch keine in den Daten verfügbaren Muster identifizieren.

Die Führung bei der Datenexploration wird aktuell nicht als ausreichend und flexibel genug angesehen. Jedoch gibt es anständige Visualisierungsmöglichkeiten kombiniert mit guten Kollaborations-, Kommentierungs- und Storytellingmöglichkeiten.

Stärken:

  • Breite BI- & Analytics-Fähigkeiten, integriert in einem Angebot
  • Die Möglichkeit, Ad-hoc Datenmodelle sowie zentrale Datenmodelle in Lösungen zu nutzen
  • Eine gute Führung bei fortgeschrittenen Analysen mittels „Smart Discovery“
  • Konnektivität und vordefinierte Inhalte für SAP-Datenquellen und -Anwendungen

Herausforderungen/Schwächen:

  • SAC ist nur in der Cloud verfügbar und immernoch ein relativ junges Produkt mit in einigen Bereichen eingeschränkten Möglichkeiten
  • Konnektoren fokussieren auf SAP
  • R-Integration ist nur für Datenvisulisierung, jedoch nicht für die Datenvorbereitung verfügbar
  • SAC ist die einzige Lösung im Anbieterfeld, welche in mehreren Bereichen keine Ergebnisse liefern konnte
  • Geringe Wahrnehmung außerhalb der SAP Kundenbasis

 

Fazit

Nun, das Urteil bzw. die Schwächen bei SAP Analytics Cloud erscheinen aktuell sehr hart. SAP hat hier aktuell einen Strategiewechsel hinter sich und liefert in hoher Geschwindigkeit neue Features aus. SAP hat eine große Vision mit SAC, jedoch aktuell noch viele Schwächen. Die aktuelle Roadmap macht das ganze nur noch ambitionierter. Nicht untypisch für SAP fokussiert SAP erstmal auf SAP. Das ist Stärke und Fluch zugleich.

MS Power BI steht aktuell stark da und wird schon länger von Microsoft als führendes Frontend-Werkzeug fokussiert. Auch hier hatte man eine Lernkurve, welche deutlich früher begonnen hat und ist daher z. B. SAP heute in einigen Bereiche noch klar voraus. Auch der Community-Support macht heute bei MS einen besseren Endruck im Vergleich zur SAP.

Einerseits ist es schön, hier doch recht unterschiedliche Fokussierungen und Entwicklungspfade zu sehen. Anbieter wie Qlik und Tableau sind in dem Umfeld bereits lange unterwegs und spielen ihre Erfahrung als Stärke aus. Andererseits zeigen sich ähnliche Releasezyklen im Rahmen agiler Entwicklungsmethoden und oberflächlich betrachtet unterscheiden sich die Tools in den Möglichkeiten erstmal nur bedingt. Cloud ist ein großer Enabler für Innovation und gefühlt wird jede neue Technologie reingebuttert, um dem Kunden einen Mehrwert zu bieten und sich von der Konkurrenz abzuheben.