Forrester Wave – Streaming Analytics

Für Q3 2019 gab es eine neue Forrester Wave zum Thema „Streaming Analytics“. Etwas verwundert war ich, als ich feststellte, dass SAP dort keinen Platz mehr findet. In den letzten beiden, mir bekannten Forrester Waves dazu (Q1 2016 und Q3 2017) was SAP sogar als Leader verzeichnet.

Oracle’s Stream Analytics hat ein ähnliches Schicksal ereilt. Beide Angebote gibt es jedoch noch.

SAPs Angebot heißt sogar genau so: SAP Streaming Analytics:

SAP Streaming Analytics

Natürlich verändern sich Produkte und das Angebot am Markt permanent. In zwei Jahren kann viel passieren:

SAP Streaming Analytics2

Auch die Definition, was unter Streaming Analytics verstanden wird verändert sich und damit auch die Kriterien, nach denen eine Auswahl getroffen wird.

Software that can filter, aggregate, enrich, and analyze a high throughput of data from multiple, disparate live data sources and in any data format to identify simple and complex patterns to provide applications with context to detect opportune situations, automate immediate actions, and dynamically adapt.

– The Forrester Wave™: Big Data Streaming Analytics, Q1 2016

bzw.

Software that provides analytical operators to orchestrate data flow, calculate analytics, and detect patterns on event data from multiple, disparate live data sources to allow developers to build applications that sense, think, and act in real time.

– The Forrester Wave™: Streaming Analytics, Q3 2017

Leider gab es in 2019 keine Definition und auch keine Info, warum SAP hier nicht mehr dabei ist (oder Oracle).

Klar ist, SAP Streaming Analytics (Service -> SAP Cloud Platform) und SAP Smart Data Streaming (On-Premises -> HANA) sind nach wie vor verfügbar.

Das Streaming Analytics bspw. im IoT-Umfeld nach wie vor und auch zukünftig eine wichtige Rolle spielt, dürfte keine Frage sein. Möglicherweise geht es jedoch auch in anderen Werkzeugen und Ansätzen auf.

SAP Datenmanagement as a Service

Im Juni diesen Jahres hat Forrester eine neue Wave zu „Database-as-a-Service“ herausgebracht. Die vorherige erschien in 2017.

Seit etwa 2012 stellt SAP HANA auch in der SAP Cloud Platform bereite, welche ja auch eine ganze Zeit SAP HANA Cloud Platform hieß. Immerhin hat sich SAP hier als „Strong Performer“ im Vergleich 2019<->2017 auf Position gehalten. Die Leaders in 2019 sind Oracle, die hier selbst innerhalb des Leaders-Bereichs seit 2017 nochmal ganz gut aufgeholt zu haben scheinen, Amazon, Microsoft, MongoDB und Google. Während Google bereits 2017 am Leaders-Bereich gekratzt hatte, war MongoDB damals noch etwas davon entfernt.

Die Aussage ist trotzdem leider recht klar. Trotz „Strong Performer“ ist der Markt der SAP hier doch deutlich voraus. Die Marktbegleiter, welche noch hinter SAP kommen, höre ich hier zum ersten Mal.

Interessant wird es, vergleicht man die Produkte, welche SAP anbietet:

  • In 2017: SAP Cloud Platform – In der Bewertung wird hier nur der SAP HANA Service erwähnt.
  • In 2019: SAP HANA Serivce, SAP Big Data Services, Redis, PostgreSQL, MongoDB.

Die 2019-Bewertung von SAP leitet dann auch gleich ein mit den folgenden Worten:

„SAP Cloud Platform expands support for non-SAP applications.“

Leider wird darauf nicht mehr tiefer eingegangen.

Nun schaut man mal darauf, wann die Daten für 2017 zusammengetragen wurden: 21.12.2016. Das ist deshalb interessant, weil es am 16.05.2017 folgenden SAP-Blogeintrag von Manjunath Baburao (Produktmanager für SCP Datenmanagement bei SAP Labs Indien) gegeben hat: „Data Management on SAP Cloud Platform: New Environment; New Capabilities

Also die 2017 Wave erstellt wurde, gab es also wohl die Services noch nicht. Von daher ist auch verständlich, dass diese Services noch nicht bewertet werden konnten.

Die Möglichkeit für solche Services ist der Einführung der Cloud Foundry-Umgebung zu verdanken, welche neben der Neo-Umgebung den Betrieb von Open Source-Werkzeugen und Services ermöglicht hat. Im Blog wird dies wie folgt begründet:

„Introduction of the Cloud Foundry environment in the SAP Cloud Platform, brings in, new capabilities like NoSQL, Message Brokers, Object Storage to the SAP Cloud Platform. In addition to the existing relational capabilities of the platform (HANA), the Data Management portfolio on the new environment is a formidable power, which brings in the flexibility of choosing any service on the SAP Cloud Platform, based on need and the relevant use case.“

Weiter oben im Blog wird gar die Abkehr von Namen „SAP HANA Cloud Platform“ zu „SAP Cloud Platform“ wie folgt begründet:

„As indicated by the rename announcements at the Mobile World Congress 2016, the SAP Cloud Platform is much more than just HANA (hence the rename to SAP HANA Cloud Platform).“

So weit, so gut. Alles könnte nun schön sein, könnte man auf der SAP Cloud Plattform bei den Services nicht aktuell folgendes lesen:

Blog_SCP
Quelle: https://cloudplatform.sap.com/capabilities.html, 2019

Sprich, die noch 2017 gelobten und von Forrester bewerteten Möglichkeiten sind mittlerweile schon wieder obsolet.

Ebenfalls darf Manjunath Baburao hier wieder die Veränderung per Blog ankündigen:

„SAP wants to strategically invest in areas which differentiate us, such as business services; which are being built on a strong foundation of decades of business process knowledge and excellence.

Following the core principles of ‘openness‘ and ‘freedom of choice‘, the platform will partner and integrate with hyper-scale providers intensively. Customers will have the flexibility to select any hyper-scaler of their choice to procure commodity technical services like the open-source backing services. This will in-turn help customers leverage hyper-scaler technology innovations within their SAP landscapes.“

Dann wird die Aussage nochmal klarer:

„As a first step towards this strategic goal, starting July 15th, 2019, we announce the retirement of SAP ‘managed’ open-source backing services offerings – PostgreSQL, MongoDB, Redis, and RabbitMQ, from SAP Cloud Platform pricelists.“

Man mag es nun interpretieren, wie man möchte. Der Blog beschreibt es auch recht klar. Mittlerweile kann SAP diese Services weitgehend selbst anbieten.

Eine Dokumenten-orientierte NoSQL Datenbank a la MongoDB liefert HANA seit dem Release 2.0 SPS 01 mit. Messaging Services wie RabbitMQ ist mit Enterprise Messaging seit 10/2018 verfügbar. Nun, eine Key-Value Datenbank wie Redis wird evtl. durch den SAP Cloud Platform Backend service  (BaaS – Backend as a Service) ersetzt, welcher die Serverless-fähigkeiten der SAP Cloud Platform ausbauen soll, aktuell noch in Beta ist und noch für 2019 angekündigt ist.

Zum Big Data Service (fka Altiscale) habe ich zwar keine Begründung gefunden. Schaut man sich jedoch mal für Ende 2019 angekündigten HANA Cloud Service an, sieht man, dass auch hier die Alternative bzw. der Nachfolger evtl. am anlaufen ist:

HANA_Cloud_Service.PNG
Quelle: https://saphanacloudservices.com/hana-cloud/, 2019

Wie sich zeigt, ist das Umfeld sehr dynamisch und die SAP arbeitet beständig daran, ihre Services auszubauen. Ob damit beliebte Open Source-Services ersetzt werden können wird sich zeigen. Alternativ zeigt sich die SAP aber immerhin bereit Services der anderen Plattformen zu integrieren. Nicht umsonst läuft die Cloud Foundry bereits direkt auf den Hyperscalern GCP, AWS, Azure und AliCloud.

Beispiele finden sich hier:

SAP Cloud Platform offers integration with Google Cloud Platform services

How to consume AWS services on SAP Cloud Platform?

Consuming native Microsoft Azure services on SAP Cloud Platform

 

 

Twitter SAP Analytics Flash 08/2019

Schauen wir mal, was der Monat August alles auf Twitter gebracht hat. Was war neu, wo gibt es Trends.

Eine kurze Übersicht in Reihenfolge der Themen mit (Anzahl) der hier aufbereiteten Tweets im August:

  • SAP Leonardo (3)
  • SAP Analytics Cloud (17)
  • SAP BusinessObjects BI (2)
  • SAP Data Intelligence / SAP Data Hub (5)
  • SAP BW (5)
  • SAP Cloud Platform (2)
  • SAP Data Warehouse Cloud (5)
  • SAP HANA (6)
  • SAP Intelligent Enterprise (4)

 

SAP Leonardo

Unter SAP Leonardo werden verschiedene Lösungen, Werkzeuge und Technologien zusammengefasst. Lösungen wie SAP Intelligent Asset Management gehören ebenfalls dazu:

Aber auch SAP Leonardo Machine Learning erweitert die Möglichkeiten bestehender Lösungen:

SAP Leonardo Machine Learning scheint mittlerweile auch ausserhalb der SAP-Welt Aufmerksamkeit zu finden:

 

SAP Analytics Cloud

Wer sich schon länger gefragt hat, wie Search to Insight funktioniert, findet hier einen guten Start:

Natürlich lässt sich Search to Insight mittlerweile auch mit SAP Conversational AI verbinden:

Ziemlich regelmäßig gibt es Webcasts, um bestimmte Funktionen vorzustellen oder Neuerungen zu präsentieren:

Auch mit der Statistiksprache R, welche in Data Science-Kreisen sehr beliebt ist, lässt sich in SAC einiges anfangen:

Oder auch nur eine Word Cloud bauen:

Hier geht es eher um die komplexe Zusammensetzung von Kennzahlen:

SAC ist natürlich immer noch die go-to Lösung für die Cloud-basierten SAP Lösungen:

Auch im Kontext der Digitalen Transformation kann man SAC auf IoT-Daten ansetzen:

Wer mit SAC noch wenig zu tun hatte, kann sich hier gerne von Ingo Hilgefort überzeugen lassen:

Und natürlich gibt es permanent Updates und eine reich gefüllte Roadmap:

Der Application Designer bringt SAC natürlich nochmal deutlich nach vorne:

Ein tieferer Überblick und weiterführende Links finden sich auch hier:

Auch bei den Research-Unternehmen findet SAC anklang. Hier die Bewertung zusammen mit S/4HANA Group Reporting als Visionary im Gartner Magic Quadrant:

Wie man die User- und Team-Verwaltung über REST-Service integrieren kann, wird hier gezeigt:

Ebenfalls eine Vereinfachung im Kontext der Verwaltung bietet der hier dargestellte Export über das Content Network:

Und so mancher Windows-Admin dürfte sich über die SSO-Integration mittels Azure AD freuen:

Ergänzend dazu tut sich auch was im Bereich SAP Analytics Hub:

 

SAP BusinessObjects BI

Ich denke von SAP BO werden wir die nächsten Monate und dann ab 2020 wieder einiges mehr hören und sehen:

Und auch wenn es in der Regel meist Meldungen zu neuen Themen, Tools und Features gibt, so gibt es auch irgendwann mal den Zeitpunkt, an dem diese auch wieder ihr Ende finden:

 

SAP Data Intelligence / SAP Data Hub

Zur Zeit startet SAP Data Intelligence als um Machine Learning erweiterte Variante des SAP Data Hub durch. Einen Einblick gibt dazu Marc Hartz:

Hier findet man ein Beispiel, wie man mit ML und Data Intelligence starten kann:

Nicht nur Daten managen, auch daraus Wert generieren gehört zu einem ganzheitlichen Ansatz:

Beim Thema Kubernetes denke ich oft an Container und Infrastruktur bzw. Rechenzentrum. Aber für Data Intelligence und Data Hub spielt Kobernetes eine wichtige Rolle. Drum – Master the Basics:

Was man mit Data Governance Rules in SAP Data Hub anfangen kann, zeigt folgender Blog:

 

SAP BW

Auch bei BW/4HANA werden immer wieder neue Erfahrungen, wie beispielsweise beim Rechnen Datumsdifferenzen gemacht:

Wem hier beispielsweise der passende BI-Content fehlt, der darf sich gerne mit einbringen:

Allerdings wird hier auch beständig geliefert, bedenkt man, dass der BW/4HANA BI-Content komplett neu entwickelt wurde:

Die Verwendung von BAdIs im Kontext von BW-Hierarchien zeigt uns reyemsaibot:

Im Kontext SAP BW war das Portal seit SAP NetWeaver 7.0 der Single Point of Access. Vielleicht schon immer etwas überdimensioniert wird dieser schon länger durch das BI Launchpad, SAP Analytics Hub oder auch das Fiori Launchpad abgelöst:

 

SAP Cloud Platform

Wer mit der SAP Cloud Platform noch wenig vertraut ist, für den ist evtl. Die YouTube Videoserie „FromZeroToCloud“ ganz interessant:

Die SAP Cloud Platform hat nämlich viel zu bieten. Z. B. ein SDK für Machine Learning:

 

SAP Data Warehouse Cloud

Ebenfalls Fahrt nimmt im August und September das Data Warehouse Cloud auf. Für Ende des Jahres angekündigt ist soeben die Beta-Phase angelaufen. Wer noch nicht weiß, warum man DWC jetzt auch noch als DWH-Lösung benötigt:

Tammy Powlas gibt im Blog zum aktuelle Überblick-Webcast die wichtigsten Infos mit:

Die Roadmap ist hier auch schon verfügbar:

Wer es aber nochmal kompakt und auf den Punkt braucht:

Auf jeden Fall ist DWC nun in der Beta Phase und bereit für erste Tests:

 

SAP HANA

Lucia Subatin verrät uns ganz zurückhaltend, dass HANA Express 2.0 SPS 04 nun verfügbar ist:

Wie und warum HANA evtl. in das Data Warehouse-Konzept passt, kann man hier lesen:

Calculation Views stellen ein wichtiges Modellierungsinstrument für HANA dar und sollten natürlich optimal eingesetzt werden:

Wie sich ein Calculation View technisch von einen SQL View unterscheidet, findet sich hier:

Wie man nun Python für die Explorative Datenanalyse nutzen kann wird in diesem Blog ausführlich dargestellt:

Und die Möglichkeiten von HANA schlagen sich auch immer mehr auf der Applikationsebene, also in ABAP nieder. Wie hier am Beispiel von Graph Processing:

 

Intelligent Enterprise

mit den neusten S/4HANA Cloud Release 1908 kommen auch wieder neue Features im Bereich RPA, ML und Predictive Analytics dazu:

 

Hintergrund hier ist u. a. die Möglichkeiten, welche sich durch das so genannte Hybrid Transactional / Analytical Processing (HTAP) ergeben:

Wenn noch mehr interessiert, der findet hier eine kleine Video-Serie dazu:

Aber auch Sven Denecken erklärt hier gerne in seinem Blog den Stand der Dinge:

Twitter SAP Analytics Flash 07/2019

Aus Spaß einfach mal ein Stück weit, was sich in der Twittersphäre so tut. In kompakter Form. Allein wenn man mal wie hier rund 2 Wochen zurück geht, zeichnet sich ein recht klarer News-Flow Gewinner in der SAP Analytics Twittersphere ab.

SAP Analytics allgemein

Ein Highlight zuletzt war die DSAG Handlungsempfehlung zu „Zukunftsorientiere Analytische Plattformen„, die auf hoher Flughöhe zeigt, wie man mit SAP-Mitteln einen ganzheitlichen, modernen Ansatz für Analytics schaffen kann.

Daneben freut man sich natürlich immer über eine gute Research-Platzierung wie hier im neusten BARC BI Score.

SAP Analytics Cloud

Zunehmend fließt SAC in die verschiedenen, vor allem Cloud-basierten Tools wie SuccessFactors ein. Das Thema People Analytics wird hier groß geschrieben. Tammy Powlas dokumentiert für uns den aktuellen Stand der Planning-Roadmap für SAC. Auch die Smart Predict-Funktion integriert sich hier bereits gut in die Plannung. SAC liefert flexible Möglichkeiten, eigene berechnete Dimensionen (Measure Based Calculated Dimension) anzulegen. Warum man überhaupt in Richtung SAC gehen sollte, erklärt uns Ingo Hilgefort. Er geht aber gerne auch mal in die Details und erklärt, wie Simulationen wie das Minimum Wage Analysis Scenario in SAC umgesetzt werden können. Mittlerweile bietet SAP zum Einstieg sogar Expert-guided Implementation an. Zuletzt kam das 14. Release von SAC mit natürlich jeder Menge neuer Funktionen heraus. Und als ein Major Highlight kann der zuletzt eingeführte Analytics Designer angesehen werden, der den Einsatz von Scripting erlaubt. Ein spannendes Thema mit SAP und CloudFoundry ist IoT, wie hier gezeigt wird. Aber natürlich nie die Sicherheitsaspekte vernachlässigen. Beim Thema Integration wurde eine ganze Tutorial-Serie für HANA Service in der SAP Cloud Platform durch die HANA Academy zur Verfügung gestellt.

SAP BusinessObjects BI

SAP BO BI 4.3 steht an. Wenn auch erstmal in der Beta-Phase. Auf was man sich alles freuen kann, findet man schonmal bei SAP-Partner 360Suite.

HANA Analytics

Wie man mit Smart Data Integration (SDI) in CloudFoundry arbeitet, wird in diesem Blog erklärt. Wer sich für die Neuerungen in SDI und SDQ interessiert wird hier mit dem Nötigsten versorgt. Die Möglichkeiten der Nutzung von R mit HANA werden gut hier gezeigt. Wer lieber den Zugriff und die Verarbeitung mit Python mag, freut sich über dieses End to End Machine Learning Scenario.

SAP Data Warehousing

VisualBI zeigt uns, welche Veränderungen sich in der DSO-Modellierung von BW/4HANA 1.0 auf 2.0 ergeben haben. Wie BW/4HANA gut mit S/4HANA zusammenarbeitet, zeigt uns SAP-Partner Itelligence UK. Mit der Vora-Technologie kann der Data Warehouse-Ansatz auf einen Data Lake ausgedehnt werden. Wer hier bzgl. Hadoop mal eine Einführung möchte, dem wird hier geholften. Gleichzeitig startet das Data Warehouse Cloud bald mit spannenden Features in die Beta-Phase.

SAP Data Hub

Wie SAP Data Hub mit der Process Mining Software Celonis Snap zusammen arbeitet zeigt uns Frank Schuler. Genauso zeigt er, wie man mit Lineage Informationen besser Vertrauen zu seinen Daten aufbauen kann.

S/4HANA Embedded Analytics

Insight to Action wird hier durch die richtige KPI Tile ermöglicht. Selbst kleinen Herausforderungen wie der Darstellung von Prozentzeichen wird sich aktuell angenommen.

SAP HANA – What’s New SDI/SDA Journey

Smart Data Integration (SDI) und Smart Data Access (SDA) sind die Technologien zur Integration von non SAP-Daten in die HANA Datenbank. Dabei werden drei Arten der Integration unterschieden. Batch, Real-time und virtuell. Die Kommunikation mit den Quelldatenbanken bei SDA findet über ODBC statt.

Smart Data Access wird als ein Weg gesehen um Smart Data Integration für den virtuellen Zugriff auf Tabellen zu implementieren.

SAP HANA 1.0 SPS06: Ab hier ist Smart Data Access (SDA) verfügbar.

2
Virtuelle Tabellen als Kernkonzept von SDA – SAP, 2017

SAP HANA 1.0 SPS07: Neue Datenquellen wie Oracle 12c, Microsoft SQL Server 11 und Hadoop Hortenworks HDP 1.3 sind verfügbar. Virtuelle Tabellen können u. a. in Calculation Views verwendet werden.

SAP HANA 1.0 SPS08: Neue Datenquellen sind IBM DB2 UDB ver10.1 und Netezza ver7. Analytic und Attribute Views werden nun unterstützt.

SAP HANA 1.0 SPS09: Ab hier ist Smart Data Integration (SDI) verfügbar. Für Real-time Integration wird die Sybase Replication Server Technologie für Change Data Capture für ausgewählte Quellen genutzt. Batch ist für alle Quellen möglich. Es gibt ein Adapter Framework auf Basis einer Java oder C++ API. Unter anderem kam ein Twitter und OData Adapter hinzu. Über Replication Tasks in der Web-based Development Workbench kann Real-time Replikation gesteuert werden. Im Data Flow UI können komplexe Real-time und Batch Transformationen eingerichtet werden.

1.PNG
Smart Data Integration – SAP, 2014

SAP HANA 1.0 SPS10: Für folgende Adapter kann in flowgraphs ein Data Sink-Node erstellt werden, welcher Daten zurück schreibt: ASE, File, HANA, Teradata, DB2, Oracle und MSSQL. Die bisherige Data Flow UI wird durch flowgraphs ersetzt. Neu sind hier SDQ-Funktionalitäten wie Cleanse und Match. Die Tabellensuche in Remote Sources wird nun unterstützt. Neu wird auch Dynamic Tiering in flowgraphs unterstützt. SDA bringt einen Spark SQL-Adapter mit. DP Agent Groups werden als failover-Konzept eingesetzt.

SAP HANA 1.0 SPS11: Für SDA ist das Monitoring im HANA Cockpit neu, wie dies auch schon im HANA Studio verfügbar war. Für MSSQL, Oracle und DB2 können SDA-Quellen in SDI-Quellen konvertiert werden. Andersherum können SDI-Quellen für SDA genutzt werden (Lizenz vorausgesetzt). SDI unterstützt nun Workload Management. Außerdem kann auf neue Remote-Quellen zugegriffen werden (SAP ERP-Tabellen und ODP DataSources für BW, MS Excel und SOAP Web Services, CamelAdapter und CamelFacebookAdapter). Flowgraphs werden an vielen Stellen wie JIT Data Preview, neue Datenquellen (Virtual Functions, SQL Views und Calculation Views) und Hierarchische Transformationen (XML/SOAP).

SAP HANA 1.0 SPS12: SDA unterstützt nun die UPSERT-Funktion. SDI-Quellen können mit SDA nun ohne zusätzliche Lizenz genutzt werden. SDI liefert neue Adapter für Google+, Outloook PST und Informix. OData und HDFS werden als Ziele unterstützt. Eine neue Monitoring UI für Flowgraphs und Replication Tasks ist verfügbar. E-Mail Benachrichtigungen für verschiedene Zustände sind nun verfügbar. Data Masking für Transformationen ist neu. Der Flowgraph Editor wurde an vielen Stellen erweitert.

SAP HANA 2.0 SPS00: SDA wurde im Bereich virtuelle Tabellen bei der Synchronisation von Metadaten und dem Result Caching verbessert. Mittels eines neuen ODBC Adapters für Vora kann direkt auf Hadoop zugegriffen werden. SDA kann nun im HANA Cockpit 2.0 gemonitort werden. Bei SDI ist Flowgraph in XSA ein neues Feature. Mit Task Partitioning wurden Datenmenge und Performance in XSC und XSA verbessert. MS Access wurde als Adapter erweitert sowie an weiteren Adaptern Verbesserungen vorgenommen.

SAP HANA 2.0 SPS01: SDA Virtuelle Tabellen können ab sofort transportiert werden. Mit dem Feature Linked Tables müssen Virtuelle Tabellen bei HANA zu HANA-Verbindungen nicht mehr explizit definiert werden. Dabei sind neue Berechtigungen zu berücksichtigen. Für SDI ist in XSA ein neuer File Format Editor verfügbar und XSA Flowgraphs wurden um verschiedene Transformationen (Pivot, Unpivot, Match) erweitert. Für den Data Provisioning Agent (DPA) gibt es ein neues Command Line Interface. Neue Adapter für PostgreSQL, Apache Impala und Camel JDBC wurden zur Verfügung gestellt sowie viele Adapter erweitert.

SAP HANA 2.0 SPS02: SDA unterstützt nun für einige Datenbanken Ausfallsicherheit für Remote Sources, indem beim Ausfall des Remote active worker node auf den Remote standby node zurückgegriffen wird. Für ODBC-Verbindungen kann nun zwischen einem high performance mode über den Indexserver (für SAP-Quellen) oder einen safe mode über den Script Server (3rd Party). In SDI wurden diverse Adapter erweitert (ASE, Excel, CamelFacebook, …). In XSA Flowgraphs werden nun PAL-Aufrufe unterstützt und Virtuelle Tabellen können als Datenziel dienen.

SAP HANA 2.0 SPS03: SDA ermöglicht nun den virtuellen Zugriff auf Spatial Daten in anderen HANA-Systemen. SDA wird nun auch im SAP HANA Database Explorer unterstützt. In SDI werden hauptsächlich Erweiterungen bei Adaptern und in Flowgraphs umgesetzt.

SAP HANA 2.0 SPS04: SDA wird um das Generic Adapter Framework erweitert, durch welches die Anpassung an Remote Sources vereinfacht wird. Im Weiteren wird DDL für Remote Sources unterstützt. Für SDI unterstützt der DP Agent Load Balancing, Whitelisting für Quelltabellen und das Abschalten von Adapter Writeback. Der Zugriff auf Cloud Foundry bzw. HANA as a Service wird nun unterstütz. Auch einige Cloud Datenbanken bei AWS und Azure werden nun unterstütz. Replication Tasks sind nun in XSA/Web IDE verfügbar.

3
SDA Generic Adapter Framework – SAP, 2019

 

Soweit zum Stand SDI/SDA. Weitere Quellen:

2180119 – FAQ: SAP HANA Smart Data Access

1868209 – SAP HANA Smart Data Access 1.0 Master Release Note

2352696 – SAP HANA Smart Data Access 2.0 Master Release Note

2600176 – SAP HANA Smart Data Access Supported Remote Sources

2400022 – FAQ: SAP HANA Smart Data Integration (SDI)

 

SAP HANA – What’s New PAL Journey

Im Folgenden ein Überblick über die Neuerungen (auf Basis der What’s New-Präsentationen) zu SAP HANA Predictive Analysis Library (PAL) von SAP HANA 1.0 SP06 bis SAP HANA 2.0.

PAL wurde bereits mit SPS05 unter dem Framework Application Function Library neben der Business Function Library (BFL) gestartet. Die Bereitstellung erfolgte initial nur über SQL Skript. Die Implementierung erfolgte in C++ als Teil der HANA-Datenbank.

SAP HANA 1.0 SPS06: Mit diesem SPS wurden bereits 28 Algorithmen für Data Preparation und Machine Learning/Data Mining zur Verfügung gestellt. Darunter C4.5, CHAID, diverse Regressionsalgorithmen, Apriori, K-Means oder DBSCAN. Ab hier wurde der Application Function Modeler (AFM) als grafischer Editor zusätzlich verfügbar gemacht.

SAP HANA 1.0 SPS07:  (Ca. 11/2013) Ziel war es, die Implementierung komplexer Algorithmen zu vereinfachen bzw. Alternativen bereitzustellen. Hier kamen neue Uni- und Multivariate statistische Methoden (Mittelwert, Median, Varianz, Schiefe, Chi-Quadrat Test, F-Test, …), die Behandlung von fehlenden Werten und die Partitionierung von Datensets hinzu. Neue Algorithmen waren u. a. Support Vector Machine (SVM), Forecast Smoothing, Agglomeratives hierarchisches Clustering. Auch gab es Optimierungen und Erweiterungen an verschiedenen Algorithmen. Des weiteren wurde die AFM-Unterstützung verbessert.

1
Application Function Library Framework in SAP HANA (SAP, 2013)

SAP HANA 1.0 SPS08: (Ca. 05/2014)  Hier wurden im Schwerpunkt Erweiterungen auf Basis der Priorisierung durch Kunden und anderen Stakeholder gemacht. 8 Algorithmen kamen hinzu (FP-Growth, CART, K-Medoid, ARIMA, Distribution Fit, Cumulative Distribution Function, Quantilfunktion, Random Distribution Sampling). Wieder wurden Erweiterungen wie die automatische Handhabung fehlender Werte durchgeführt.

SAP HANA 1.0 SPS09: (Ca. 11/2014) Ebenfalls 8 neue Algorithmen wie Top K Rule Discovery, Back-Propagation, Croston Method und Principal Component Analysis (PCA) kamen hinzu. An der AFL wurden Änderungen vorgenommen und Berechtigungen erweitert. Der AFM wurde Re-Designed (HANA Studio) und um Funktionen zu flowgraphs erweitert, welche u. a. auch die Integration von R-Scripts ermöglichen.

SAP HANA 1.0 SPS10: (Ca. 06/2015) In den SPS sind 7 neue Algorithmen ergänzt worden. U. a. Confusion Matrix, Gaussian Mixture Model (GMM) und Latent Dirichlet Allocation (LDA). Daneben wurde das Fehlerhandling verbessert und die PAL-Integration mit Seriendaten und Window Funktionen eingeführt. Mit SPS 10 wurde auch der web-basierte Editor (Web-based Development Workbench) eingeführt.

SAP HANA 1.0 SPS11: (Ca. 12/2015) 6 neue Algorithmen werden hier zur Verfügung gestellt, darunter Random Forest, Kaplan-Meier Survival Analysis und Area under curve (AUC). Für Smart Data Streaming wurden Algorithmen wie Adaptive Hoeffding Decision Tree und DenStream eingebettet.

2
Smart Data Streaming in SPS11 – SAP, 2018

SAP HANA 1.0 SPS12: (Ca. 05/2016) In dem SPS kam Auto-ARIMA für Zeitreihenanalyse sowie Erweiterungen zu bestehenden Algorithmen hinzu. Für Scale-out-Szenarien kamen verteilte Berechnungen über den Node Script Server hinzu.

SAP HANA 2.0 SPS00: (Ca. 12/2016) Mit dem SPS wurden 8 Algorithmen auf insgesamt 91 Algorithmen erweitert. Unter den neuen Algorithmen sind Gradient Boosting Decision Trees, Fast Fourier Transform (FFT) und Sequential Pattern Mining. Technisch wurde die parallele Ausführung von Scoring-Funktionen auf partitionierten Daten erweitert.

SAP HANA 2.0 SPS01: (Ca. 04/2017) 6 Algorithmen wurden hier erweitert (u. a. Accelerated K-Means, ANOVA oder T-Test). Als neue Algorithmenklasse kam Recommender Systems mit Factorized Polynomial Regression hinzu. Im Bereich Ausreißeranalysen kam One Class SVM hinzu. Ebenso ist Real Time Scoring hinzugekommen.

SAP HANA 2.0 SPS02: (Ca. 07/2017) 2 Algorithmen im Bereich Data Preparation wurden ergänzt (Factor Analysis und Multi dimensional scaling). Seit diesem SPS kam die Möglichkeit zur Integration von TensorFlow hinzu (External Machine Learning – EML). Auch wird ab hier PAL über die Web IDE supported. Die Schnittstelle zum Aufruf der PAL-Funktionen wurde vereinfacht. Auch Treiber für Python sind ab hier verfügbar. Weitere Funktionen für das im vorherigen SPS eingeführten Real Time Scoring wurden ermöglicht.

3
SAP HANA TensorFlow Integration – SAP, 2017

 

SAP HANA 2.0 SPS03: (Ca. 04/2018) SAP stellt das Machine Learning Portfolio unter dem Namen SAP Leonardo neu auf. Auch kommt das SPS Data Scientists mit Resampling und Hyperparametersuche entgegen. 4 neue Algorithmen kommen hinzu (Hierarchical Forecasting, Alternating Last Squares, Field-aware Factorization Machines und PageRank). Der Python-Zugriff wird durch die Unterstützung von SQLAlchemy verbessert.

4
SAP Leonardo Machine Learning Portfolio – SAP, 2018

SAP HANA 2.0 SPS04: (Ca. 05/2019) Neben Python wird nun auch eine R API für das direkte Arbeiten mit R auf HANA zur Verfügung gestellt. Neue Algorithmen sind u. a. Hybrid Gradient Boosting Tree, Change Point Detection, Conditional Random Fields und Regression Comparison Function. Insgesamt 10 Neue. Die Automated Predictive Library (APL) ist nun Teil von SAP HANA.

Soweit nun die Reise der PAL-Bibliothek bzw. zunehmend auch weiterer Möglichkeiten wie APL, Streaming Analytics, Tensorflow, R und Python.

Viele Technologien rund herum unterstützen die analytischen Fähigkeiten der SAP HANA Platform.

 

Research: Cloud Data Warehouse

Seit kurzem scheint das Thema „Cloud Data Warehouse“ (CDW) im Trend zu sein. Zumindest Forrester hat für Q4/2018 eine eigene Forrester Wave herausgegeben genau zu dem Thema. Darin wurden 14 Anbieter untersucht.

Forrester definiert das Cloud Data Warehouse wie folgt (frei übersetzt):

Ein sicheres, skalierbares On-Demand Self-Service Data Warehouse, welches die Datenbeschaffung, Administration, Tuning, Backup und Recovery automatisiert um Analytics und wertvolle Erkenntnisse bei gleichzeitiger Minimierung der administrativen Anforderungen zu liefern.

– The Forrester Wave™: Cloud Data Warehouse, Q4 2018

Nachdem GA für SAP Data Warehouse Cloud erst für Q4/2019 angekündigt ist, sind andere Anbieter hier schon deutlich länger auf dem Markt, z. B.:

  • Google Big Query (11/2011)
  • Amazon Redshift (10/2012)
  • Snowflake Computing (06/2015)
  • Microsoft Azure SQL Data Warehouse (07/2016)
  • Oracle – Autonomous Data Warehouse Cloud (03/2018)

In sofern ist SAP in The Forrester Wave auch nicht vertreten bzw. hat offensichtlich den Kriterien der Untersuchung nicht genügt.

Im Magic Quadrant von Gartner (01/2019 – Gartner Magic Quadrant for Data Management Solutions for Analytics) findet SAP noch seinen Platz und auch der Cloud-Trend bleibt nicht unbemerkt. Eine Abgrenzung wird von Gartner hier jedoch noch nicht vorgenommen. Somit wird BW/4HANA, HANA selbst (welche jedoch als in der Cloud verfügbar wahrgenommen wurden) sowie der SAP Cloud Platform-basierte Big Data Service analysiert. Trotz Kritikpunkten bei Themen wie der Elastizität wird beispielsweise die Multi-Cloud Strategie positiv hervorgehoben und SAP ist bei Gartner im Leader-Quadranten vor Anbietern wie Snowflake, IBM und Google zu finden.

Bei Forrester sind die Leader ganz klar Amazon Web Services (AWS), Snowflake, Google und auch noch Oracle.

2017 hat BARC im ihrer Reseach Study „BI and Data Management in the Cloud: Issues and Trends“ folgende Feststellung gemacht (frei übersetzt):

Unternehmen betreiben eher BI (Frontend)-Anwendungen in der Cloud als Data Warehouses, Data Marts oder Datenintegration.

Data Management-Lösungen benötigen IaaS und PaaS sowie die Prüfung von Datenschutz, Datensicherheit und unternehmenspolitischer Aspekte.

In der BARC Research Study „Datenmanagement im Wandel“ von 2014 zeigt sich ein noch viel nüchterneres Bild:

  • Bei der Frage, was sich aktuell konkret verändert, antworteten nur 6% mit „Rückgriff auf cloud-basierte Data Warehouse“
  • Die Frage nach dem Umgang mit Self-Service BI beantworteten gerade mal 2% mit „Auslagerung in die Cloud“
  • Im Vergleich zu anderen Ansätzen war die Lösung „Cloud-basierte Data Warehouse-Lösungen“ zur einfacheren Umsetzung von DWH-Anforderungen weit abgeschlagen. Wichtiger waren „In-Memory Datenbanksysteme“, „Automatisiertes DWH“, uvam.

Im Whitepaper „Cloud Data Warehouse Trends for 2019“ wird nun jedoch die Frage aufgeworfen, ob das CDW gar der Schlüssel zur Digitalen Transformation ist. Die Antwort folgt schnell. Das CDW wird als wichtiger erster Schritt zum datengetriebenen Unternehmen gesehen.

Lt. Whitepaper sind die Top-Gründe für das CDW:

  • Flexibles Kostenmodell
  • Vorteil der Nutzung von Cloud-Features
  • Bessere Performance

Typische Anwendungsfälle sind:

  • Kundenanalysen für das Marketing
  • Finanzanalysen
  • Vertriebsunterstützung
  • Anbindung an einen Data Lake für Analytics
  • Kundenserviceanalysen
  • IT-Analytics

Die größten Herausforderungen dabei sind:

  • Data Governance
  • Integration von Daten aus unterschiedlichen Quellen
  • Daten in das Data Warehouse zu bekommen
  • Einfacher Datenzugriff für den Anwender
  • Kosten

Nun gut, es zeigt sich, dass Thema Cloud Data Warehouse ist nicht neu. Der Self-Service Trend hat jedoch das Angebot sicherlich verändert. So positioniert SAP sein angekündigtes SAP Data Warehouse Cloud mit der Zielgruppe Business Analyst, wie auch schon SAP Analytics Cloud.

Persönlich denke ich, als BI-Berater wird man deshalb nicht arbeitslos. Aber Aufgaben werden sich verändern. Die Fachbereiche werden mündiger und können einen immer größeren Bereich selbst abdecken. Das ist gut, weil es die faktenbasierte Entscheidungsfähigkeit bei richtiger Strategie stärkt. Denn eines ist klar. Excel ist und bleibt das beliebteste Tool für BI und ist dank Office 365 auch in der Cloud verfügbar mit Power Pivot und Power BI als Verstärkung. Ob das gut ist, ist eine ganz andere Frage.

Die Herausforderungen sind immer neue Datenquellen, gerade wegen der Cloud. Die Harmonisierung und semantisch saubere Integration der Daten überfordert Fachbereiche oder führt dort zur Spezialistenbildung. Die zunehmende Dynamik im Internet wie auch die zunehmende Agilität in Unternehmen erfordert eine schnelle BI-Adaption und Konzept-Know-How im Umgang mit historischen Daten. Daten sind nicht mehr nur strukturiert, sondern das, was bisher Big Data und NoSQL geleistet hat, wird zunehmend integriert und erhöht die Anforderungen. Basistechnologien wie SAP HANA liefern heute Funktionalitäten wie Text, Spatial, Predictive Analytics oder Graph-Verarbeitung, um höheren Nutzen aus den Daten zu ziehen. Die Komplexität der nutzbaren Methoden nimmt damit immer weiter zu. Die Vielfalt verfügbarer Komponenten und neuer oder unterschiedlicher Schnittstellen ebenso. Die Anforderung an die Datenqualität werden deutlich steigen und eine ganzheitliche Sicht auf das Unternehmen rückt eher in die Ferne als Realität zu werden.

Für Unternehmen mit einfachen operativen Systemen und überschaubaren Anforderungen an Reporting und Datenanalysen werden es also leicht haben, jedoch auch nur geringen Nutzen aus einer zunehmen Digitalisierung ziehen. Für alle anderen ist Self Service und zunehmende Data Literacy eine Notwendigkeit um irgendwie noch mithalten zu können, da die IT-Fachkräfte nicht schnell genug vom Baum wachsen werden.