Gartner Magic Quadrant – Data Science Platforms 2017

Zunächst einmal – SAP hat den „Magic Quadrant for Advanced Analytics Platforms“ umbenannt in „Magic Quadrant for Data Science Platforms“. Als Grund gibt Gartner an, dass Data Scientists zu den Hauptnutzern dieser Plattformen gehören.

Gartner definiert eine Data Science Platform wie folgt:

„A cohesive software application that offers a mixture of basic building blocks essential for creating all kinds of data science solution, and for incorporating those solutions into business processes, surrounding infrastructure and products.

Im Vergleich zum 2016 MQ fällt auf, dass der Leaders-Quadrant erstmal recht gleich geblieben ist. IBM, SAS, RapidMiner und KNIME sind die Leader. Dell ist rausgefallen, jedoch wird erklärt, dass Dell in Quest aufgegangen ist. Quest hat in 2017 eine gute Position im Challenger-Quadranten.

Bei den Leadern ist noch zu erwähnen, dass IBM hier 2017 eine klare Führungspositon einnimmt. Im Vorjahr war das noch nicht so klar, war doch SAS und auch KNIME in der „Completeness of Vision“ noch etwas vorne und SAS lag in der „Ability to Execute“ vorne und hatte somit 2016 die Führungsposition.

Nun, die Frage ist, wo liegt SAP, wo im Vergleich und was hat sich getan? Microsoft möchte ich ebenso betrachten.

SAP hatte es 2016 gerade in den Challenger-Quadranten geschafft. In 2017 ist SAP etwas abgerutscht und somit ein starker Nischenplayer. Nun gut, es verwundert wenig. Aktuell läuft von SAP auf OpenSAP der Kurs „Getting Startet with Data Science„. Schwerpunkt ist das hier im Magic Quadrant ebenfalls bewertete SAP BusinessObjects Predictive Analytics und dessen Nutzung im Rahmen des CRISP-DM-Prozesses. Gut, der Kurs heißt „Getting Startet…“ jedoch ist das wirklich Grundlagenarbeit. Die Arbeit mit SAP BO Predictive Analytics hat mich schon etwas überrascht. Ohne R-Integration ist die Anzahl der verfügbaren Algorithmen sehr überschaubar und richtig komplexe Sachen kann man im „Expert Mode“ auch kaum machen.

SAP’s Stärken 2016:

  • Klares Commitment zu Analytics
  • Vision für Cloud Analytics
  • Umfang der möglichen Use Cases
  • Embedded Analytics
  • Leicht zu lernen und zu benutzen

SAP’s Stärken 2017:

  • SAP HANA-Integration
  • Support for Citizen Data Scientists (Automated Analysis)
  • Deployment (Predictive Factory & Analytics Extensions)
  • Klares Commitment zu Analytics
  • Umfang der möglichen Use Cases

SAP’s Warnungen 2016:

  • Geringe Gesamtzufriedenheit, Support und Vertriebsbeziehungen
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)
  • Kunden hautsächliche innerhalb der Bestandskunden

SAP’s Warnungen 2017:

  • Kunden hautsächliche innerhalb der Bestandskunden
  • Geringe Gesamtzufriedenheit
  • HANA-First-Strategy
  • Zu wenig Innovationen (wie z. B. Spark- oder Phyton-Integration oder Collaboration)

Zusammenfassend läst sich für SAP also sagen, SAP PA ist recht schnell zu erlernen und bietet dabei ein breites Anwendungsspektrum. Jedoch wurden die Warnungen nicht erhöhrt und finden sich in 2017 wieder. Der Fokus auf HANA ist Chance und Risiko zugleich.

Microsoft gilt als Visionär im MQ. In 2017 sind Sie etwas höher an die Schwelle zum Leader gerückt. War 2016 noch SASS der Schwerpunkt der Betrachtung da andere Produkte erst frische am Markt waren, so schwenkt der Schwerpunkt in 2017 zum Azure Machine Learning (AML) Angebot als Teil Cortana Intelligence Suite.

MS’s Stärken 2016:

  • Höchste Bewertung bei „Completeness of Vision“
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Produktroadmap und Vision
  • AML bietet eine einfache Integration von Cloud-Data Sources
  • Plattform-Skalierbarkeit und Pay as you use
  • Starke OpenSource-Integration

MS’s Stärken 2017:

  • Plattform-Skalierbarkeit & Flexibilität
  • Bester Analytics Cloud Marktplatz (Cortana Analytics Library) mit großem Partner Ökosystem
  • Starke OpenSource-Integration
  • Innovativ im Bereich Bild- und Spracherkennung sowie Deep Learning
  • Starke Machine Learning-Fähigkeiten sowie Collaboration und Automatisierung
  • Starke Produktroadmap und Vision

MS’s Warnungen 2016:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Unsicherheit über Produktstrategie bzgl. integrierter Tools (z. B. Revolution Analytics)
  • Zum Teil geringe Kundenzufriedenheit (jedoch eher bzgl. traditioneller Tools wie SSAS)

MS’s Warnungen 2017:

  • Zu starker Fokus auf Cloud (speziell ALM)
  • Cortana Intelligence Suite ist noch neu und unreif
  • Delivery Optionen
  • Einige Bereiche sind schwach ausgeprägt (Dokumentation, Data Preperation, Branchenlösungen)

In Summe lässt sich über das Microsoft-Angebot sagen, es ist skalierbar und flexibel, hat eine hervorragende Roadmap und Open Source-Integration. Der Fokus ist auf Cloud, was von den Kunden nicht immer als Vorteil gesehen wird. Auch ist das Produkt noch recht neu, entwickelt sich jedoch schnell weiter.

Soweit zu den zwei Anbietern, welche für mich interessant sind. Aktuell ist keiner davon Leader oder Challenger. Microsoft hat bei der Completeness of Vision jedoch klar die Nase vorne und macht den Eindruck, möglicherweise bald in den Leader-Quadranten aufzusteigen. SAP hat nach meiner Beobachtung seine Aktivitäten stark gestreut auf viele Produkte und kommt deshalb nicht vergleichbar voran. Um zu den führenden Anbietern aufzuschließen fehlt noch ein wenig. Wie üblich ist das Produkt eher bei Bestandskunden verbreitet und tut sich aktuell schwer im breiten Markt.

Advertisements

BI – Die alten Regeln gelten nicht mehr

Vor Kurzem veröffentlichte Wayne W. Eckerson (WE) einen Artikel darüber, wie sich die Welt im BI-Umfeld verändert (hat). Er listet einige Erkenntnisse von seiner letzten TDWI-Konferenz und versucht auch dies zu erklären. Ich (SA) versuche einmal, ausgewählte Aussagen wieder zu geben und auf meine Situation zu übersetzen.

  • “There is no need for a dimensional model.”
    • WE: Heutige BI-Werkzeuge sind so gut, dass schlechtes Design kompensiert wird.
    • SA: InfoCubes sind in einen HANA-System nicht mehr notwendig. Bei einer Modellierung in HANA muss man nur bedingt auf Performance achten und Werkzeuge wie Lumira benötigen nichtmal In-Memory sondern nutzen SAP IQ als spaltenbasierte Datenbank um performance durch den Endanwender Millionen von Datensätzen verarbeiten zu können.
  • “There is no need for ETL tools.”
    • WE: nutze Spark für ETL in der Cloud oder in Hadoop-Umgebungen
    • SA: Ebenfalls Lumira hat hier schon gezeigt, wie auch recht komplexe Transformationen sowie die Anbindung an fast beliebige Datenquellen schnell und einfach möglich sind. Mit Agile Data Preparation hat die SAP sogar ein komplett eigenes Werkzeug dafür auf den Markt gebracht.
  • “You don’t need a relational database.”
    • WE: Du kannst alle deine Data Science-Aufgaben ins S3 und mit Spark erledigen.
    • SA: Zumindest meine ersten Erfahrungen mit BO Cloud legen nahe, dass Cloud doch noch die eine oder andere Kinderkrankheit hat. Allerdings garantiert Amazon 99,999999999 % Ausfallsicherheit. Das muss man intern erstmal leisten. Das man für Data Science nicht unbedingt eine relationale Datenbank benötigt, ist aber glaube ich wirklich nichts Neues. Gerade wenn es um unstrukturierte Daten geht und um extrem große Datenmengen sind andere Ansätze gefragt.
  • “Code is not the enemy.”
    • WE:  Schreibe ETL-Code in Spark und verwalte ihn in Git Hub; es ist befreiend
    • SA: Git scheint heute im HANA oder SAP Cloud-Umfeld schon der neue Standard zu sein. In einer superagilen Welt verwundert der Erfolg von Git Hub daher nicht.
  •  “We don’t move data.”
    • WE: Wir bauen logische views in Hadoop für analytische Anwendungsfälle
    • SA: Auch HANA und vor allem S/4HANA setzen auf virtuelle Datenmodelle, welche für analytische Zwecke optimiert sind. Mit Core Data Services wird aktuell von SAP eine neue Grundlage geschaffen, dieses Konzept in der Breite umzusetzen.
  •  “We design from physical to logical, not logical to physical.”
    • WE: Wir laden Rohdaten in das System, dann bauen wir logische views für jeden Anwendungsfall; wir modellieren nicht zuerst.
    • SA: Passt zum vorherigen Punkt und unterstützt und erweitert diesen. In einem S/4HANA liegen die Daten schon vor, jedoch nicht unbedingt für analytische Zwecke. Erst durch das virtuelle Datenmodell bereite ich die „Rohdaten“ auf. In einem NoSQL-System oder Data Lake lege ich Daten ab, wie Sie kommen. In zum Teil völlig verschiedenen Schemata für die Sie ursprünglich gedacht waren. Wie ich diese für die Analyse im Sinne von Data Science benötige, kann ich vorab noch nicht sagen. Dabei kann man jedoch noch gut zu den traditionellen Ansätzen differenzieren, bei denen der Analysezweck im vorhinein recht klar ist (z. B. Analyse von Umsatzdaten nach verschiedenen Dimensionen). Schema-on-Read ist nichts, was der Fachbereich mal nebenher macht, weil er eine Fragestellung beantwortet haben möchte. Und dann gibt es auch noch agile Ansätze wie Data Vault.
  • “We design for secondary use cases, not the primary one, which has a limited shelf life.”
    • WE: Wir laden Daten und speichern diese auf Detailebene, so dass wir diese für neue Einsatzzwecke verwenden können, sobald der Bedarf dafür aufkommt.
    • SA: Die Aggregation von Daten geschieht immer für einen bestimmten Zweck. Information geht dabei verloren. Natürlich sollte es für ein HANA-System in der SAP-Welt kein Problem sein, sehr granulare Daten zu speichern. Jedoch kann dies sehr teuer sein. Mit Ansätzen wie Dynamic Tiering und Nearline Storage hat SAP Ansätze, das zu handhaben. Eine Alternative für BW könnten Ansätze wie SparrowBI sein.
  • “Your data architecture is as important or more than your data model.”
    • WE: Wie die Daten im Dateisystem abgelegt werden ist wichtig. Sonst wird man mit den Daten wenig anfangen können.
    • SA: Themen wie Datenqualität, Metadatenmanagement und Data-Lineage spielen hier eine wichtige Rolle, soll der Data Lake nicht zum Datensumpf werden.
  • “Architecture is way more important when you move to the cloud.”
    • WE: Wenn du deine Cloud nicht richtig konfigurierst, wird es evtl. teurer als gedacht.
    • SA: Mit Cloud-Konzepten herrscht weniger Erfahrung als in der On-Premise-Welt. Die leichte Verfügbarkeit der Ressourcen verführt dazu, erstmal großzügig damit umzugehen. Evtl. muss hier neu und eher elastisch gedacht werden.
  • “Applications are dependent on analytics.”
    • WE: Wir benötigen DevOps um die Entwicklung von Anwendungen und Analytic zu koordinieren.
    • SA: S/4HANA setzt massiv auf Hybrid Transactional Analytical Processing (HTAP) und verbindet immer mehr operative Anwendungen mit analytischen Funktionen.
  • “Either you evolve and change, or die.”
    • WE: Sei offen gegenüber Hadoop, Spark und der Cloud.
    • SA: Das sich SAP gegenüber den Open Source-Technologien wie Hadoop und Spark z. B. im Rahmen von HANA Vora öffnet ist ein wichtiges Zeichen. Bei Cloud versucht sich SAP als Vorreiter und setzt darauf wie auf HANA und zeigt damit auch die Richtung.

Eckerson schließt mit den Worten „The only constant is change, and now is the time to change! „. Aber Veränderung ist kein Projekt oder etwas, was man jetzt mal angehen sollte. Um konkurrenzfähig zu bleiben muss Veränderung zum integralen Bestandteil der Unternehmenskultur werden.