Was ist der SAP Data Hub?

Vor kurzem war ich auf der TDWI Konferenz 2017 auf dem SAP Special Day, der unter dem Motto „Ihr Fahrplan zum Digital Enterprise“ stand.

Eigentlich hatte ich hier verschiedene Perspektiven zu den aktuellen Themen wie auch etwas Praxiserfahrungen erwartet. Doch dann hat Jan Bungert (Head of Database & Data Management Germany) folgende Folie in seinem Vortrag aufgebaut:

TDWI2017_1
SAP-Vorstellung einer datengetriebenen Architektur

Nun, klar, HANA kenne ich, SAP Vora, alles von Hadoop über S3 bis hin zu Tensorflow. Selbst mit Tensorflow konnte ich was anfangen. Aber was ist „SAP Data Hub“?

 

Beim erste Googlen bin ich bei SAP Hybris Data Hub gelandet. Nun, das hörte sich ja jetzt auch gar nicht so falsch an. Nur hat halt hier niemand was von Hybris gesagt. Auch sollte das noch gar nicht alles sein. In einer weiteren Präsentation wurde es mit einem Kundenbeispiel konkreter:

TDWI2017_2.PNG

Wie es aussieht, übernimmt hier der SAP Data Hub das ganze Datenmanagement, bis zur Anflanschung an BW/4HANA über SAP Vora.

Ein paar konkretere Screenshots gab es auch dazu:

TDWI2017_3
SAP Data Hub – Übersicht und Monitoring
TDWI2017_4
SAP Data Hub – Prüfung von Daten in Flatfile
TDWI2017_5
SAP Data Hub – Datenfluss-Modellierung

Wenn so ein Produkt bisher kaum auffindbar ist, dann gibt es zwei Möglichkeiten:

-> Das Produkt ist neu.

-> Das Produkt hat einen neuen Namen.

Wie geschrieben, kommt man bei „SAP Data Hub“ eher bei einem SAP Hybris-Produkt raus, das so heißt. Dieses gibt es jedoch, soweit für mich nachvollziehbar, seit Jahren. Der SAP Data Hub wird aber laut PAM zum Q3/2017 allgemein verfügbar. Die Hilfe ist momentan verfügbar für Release 1.0 SPS0.

Aus der SAP-Hilfe kann man entnehmen, dass das System auf HANA XS läuft und SAP Vora, Spark und HANA Smart Data Integration unterstützt. Dies zeigt so auch der Architekturüberblick:

SAP_DATA_HUB_Architecture
SAP Data Hub – Architektur

 

Denke ich daran, dass SAP beim letzten DSAG AK-Treffen für BI & Analytics im Kontext von SAP Leonardo auch noch eine neue Big Data Strategie aufgezeigt hat, dann zeigt sich doch, das SAP sich hier stark mit neuen eigenen Produkten engagiert, während man sich gleichzeitig mit Open Source-Komponenten ergänzt. Dort war zwar noch nicht von SAP Data Hub die rede, aber es bleibt zu hoffen, dass dies nachher aus einer Hand gesteuert wird.

Auf jeden Fall wird es nicht langweilig. Vielleicht auch nicht einfacher. Wir werden sehen, was kommuniziert wird, sobald die Marketingmaschine dazu anläuft.

Der Weg zum Data Scientists

Wie wird man eigentlich Data Scientist? Benötigt man tatsächlich alle Skills wie:

  • Mathematik/Statistik
  • Informatik
  • Betriebswirtschaft & Softskills
  • Fachliche Expertise
  • Visualisierung & Storytelling

Sind Data Scientists die Fabelwesen, die Einhörner mit dem unglaublichen Skill? Gibt es  Data Scientists eigentlich nur als Team und nicht in einer Person? Und wenn, dann mindestens mit einem Doppel-Doktor, also mit einem mindestens mal Pi-shaped Skill?

Mittlerweile sind viele Hochschulen und Bildungsanbieter auf den Zug aufgesprungen und bieten Ausbildungen zum Data Scientists oder ähnlichem an. Was diese Ausbildungen wirklich leisten, wird wohl nur beurteilen können, wer diese bewältigt hat. Trotzdem lässt sich sicherlich einiges aus den Angeboten lernen.

Im Folgenden eine kurze Übersicht über diverse greifbare Angebote aus (weitgehend) meiner Region. Diese bilden verschiedene Ansätze und Niveaus ab:

Fraunhofer-Allianz Big Data

Ein 13-tägiger Kurs, welcher auf parallele Berufserfahrung setzt und sich an Business Developer, Analysten und Application Developer richtet. Er umfasst  die Grundlagen für Datenmanagement, Big Data und Analytics. Kosten: 13.150,-€

3-stufiger Zertifikatskurs
Data Scientist Basic Level (5 Tage)
 -> Big Data-Systeme
 -> Datenanalyse
 -> Datenschutz, Datensicherheit
 -> Datenmanagement
 -> Big Data & Business
Data Analyst (4 Tage)
 -> KNIME, Phyton
 -> Modeling Techniques
 -> Advanced Modeling
 -> In-depth analysis
Data Manager in Science (4 Tage)
 + Berufserfahrung

Coursera – Data Science Specialization

Eine auf 10 Kurse und 43 Wochen ausgelegte Spezialisierung der John Hopkins University, welche wirklich stark auf Analytics setzt und stark mit R unterwegs ist. Kosten: ca. 450,-€ (laufzeitabhängig 45€/Monat)

10 Kurse
The Data Science Toolbox (3 Wochen – 1-4h)
 -> Überblick
 -> R-Installation
 -> Git & Github
 -> Konzepte
R Programming (4 Wochen)
Getting and Cleaning Data (4 Wochen)
Exploratory Data Analysis (4 Wochen)
Reproducible Research (4 Wochen – 4-9h)
Statistical Inference (4 Wochen)
Regression Models (4 Wochen)
Practical Machine Learning (4 Wochen)
Developing Data Products (7 Wochen)

Uni Ulm – Business Analytics (M. Sc.)

Der Studiengang richtet sich an Berufstätige mittlere und höhere Führungskräfte, Projektleiter/innen und Berater/innen und bietet einen Abschluß als Master of Science. Das Spektrum ist eher breit angelegt. Kosten: ca. 17.000,-€

Vollzeit 3 Semester (Teilzeit möglich)
3 Säulen
 -> Wirtschaftswissenschaften
 -> Mathematik
 -> Informatik
Pflichtmodule
 -> Grundlagen Business Analytics
 -> Strategisches Management
 -> Grundlagen Stochastik
 -> Angewandte Statistik
 -> Prädikative Methoden
 -> Grundlagen von Datenbanksystemen
 -> Business Process Management
 -> Projektarbeit
Wahlmodule
 -> Strategisches Prozessmanagement
 -> Finanzielles Management
 -> Controlling
 -> Angewandte Operations Research
 -> Numerische Methoden für Big Data
 -> Social Media Analytics
 -> Data Science
 -> Infrastruktur & Sicherheit

HS Albstadt-Sigmaringen – Data Science (M. Sc.)

Das Studium ist berufsbegleitend auf 3 Jahre angelegt und führ zum Master of Science. Es bietet ein breites Spektrum an Themen, jedoch gleichzeitig stark fokussiert auf Big Data und Analytics. Kosten: 18.580,-€

Teilzeit 6 Semester
3 Säulen
 -> Business Information
 -> Data Analytics
 -> Data Management
BI und Data Warehouses
Data Mining
Mathematical Foundations of Data Science
Programming for Data Science
Decision Support
Large Scale Data Analysis
Web Integration
Databases for Big Data
Business Process & Big Data Use Cases
Text Mining
Machine Learning
Optimization Techniques for Data Analysis
Practical Training
Data Privacy
Data Compliance
Semantic Web Technologies
Web Mining
In-Memory DB/OLAP
Thesis

SAP Learning Journey – Data Scientist

Die SAP-Kurse sind stark produktspezifisch und nur lose aufeinander aufbauend. Die openSAP-Kurse bieten einen einfachen und kostenfreien Einstieg. Will man die SAP Trainings besuchen, steigen die Kosten jedoch schnell über 20.000,-€ und übersteigen damit leicht die Master-Programme der Hochschulen.

Lose Kurse mit verschiedenen Vertiefungsstufen
Freie Kombination aus
 -> eLearning
 -> Classroom
Introduction to Data Science
Enterprise Machine Learning in a Nutshell
Driving Business Results with Big Data
SAP Big Data Overview
How the IoT and Smart Services will change Society
SAP HANA Introduction
R Integration with SAP HANA
SQL Basics for SAP HANA
Data Provisioning
SAP HANA Smart Data Integration
Introduction to SAP BO BI Solutions
Data Science Case Study
SAP HANA Modeling
Introduction to Predictive Analytics & Automated Analytics
Predictive Analytics: Details of Expert Analytics
SAP Lumira
SAP BusinessObjects Cloud
Statistical Thinking for Data Science and Analytics (edX – 5 Wochen)
 -> Statistical Thinking
 -> Exploratory Data Analysis and Visualization
 -> Introduction to Bayesian Modeling

Alles in allem kann man sich nicht über die Vielfalt beschweren. Für jeden ist etwas dabei, abhängig von der Zeit, der genauen Richtung und den finanziellen Möglichkeiten. Bei den Masterkursen ist man natürlich stark auf die Qualität der Professoren angewiesen und das Programm umfasst nur wenig Flexibilität in einem sich sehr schnell verändernden Umfeld.

Von den eingangs genannten Skills eines Data Scientists konzentrieren Sich die Anbieter i. d. R. auf Mathematik/Statistik im Sinne von Analytics und Data Mining und Ergänzen Fertigkeiten im Bereich Mathematik. Nur die Uni Ulm bietet auch klar betriebswirtschaftliche Aspekte mit an. Bei den Anbietern wie Fraunhofer oder Coursera mag das noch angehen, da man entsprechende Kurse auch dort oder bei anderen Anbietern flexibel mit aufnehmen kann. Das Studium an der HS Albstadt-Siegmaringen scheint dagegen etwas unausgewogen, und setzt wohl mehr auf die Tiefe des Fachgebiets.

Ist man nicht scharf auf ein Zertifikat oder Master-Abschluß, so bietet sich über die freien Anbieter eine gute Gelegenheit, sich sein persönliches Programm, nach seinen Ansprüchen und Vorstellungen zusammen zu stellen.

Da das Gebiet „Data Science“ selbst kaum fest abzugrenzen ist, sollte man sich aus meiner Sicht, gerade als Berufstätiger, die Rosinen herauspicken und den Rest evtl. der Erfahrung in Projekten überlassen.

BI – Die alten Regeln gelten nicht mehr

Vor Kurzem veröffentlichte Wayne W. Eckerson (WE) einen Artikel darüber, wie sich die Welt im BI-Umfeld verändert (hat). Er listet einige Erkenntnisse von seiner letzten TDWI-Konferenz und versucht auch dies zu erklären. Ich (SA) versuche einmal, ausgewählte Aussagen wieder zu geben und auf meine Situation zu übersetzen.

  • “There is no need for a dimensional model.”
    • WE: Heutige BI-Werkzeuge sind so gut, dass schlechtes Design kompensiert wird.
    • SA: InfoCubes sind in einen HANA-System nicht mehr notwendig. Bei einer Modellierung in HANA muss man nur bedingt auf Performance achten und Werkzeuge wie Lumira benötigen nichtmal In-Memory sondern nutzen SAP IQ als spaltenbasierte Datenbank um performance durch den Endanwender Millionen von Datensätzen verarbeiten zu können.
  • “There is no need for ETL tools.”
    • WE: nutze Spark für ETL in der Cloud oder in Hadoop-Umgebungen
    • SA: Ebenfalls Lumira hat hier schon gezeigt, wie auch recht komplexe Transformationen sowie die Anbindung an fast beliebige Datenquellen schnell und einfach möglich sind. Mit Agile Data Preparation hat die SAP sogar ein komplett eigenes Werkzeug dafür auf den Markt gebracht.
  • “You don’t need a relational database.”
    • WE: Du kannst alle deine Data Science-Aufgaben ins S3 und mit Spark erledigen.
    • SA: Zumindest meine ersten Erfahrungen mit BO Cloud legen nahe, dass Cloud doch noch die eine oder andere Kinderkrankheit hat. Allerdings garantiert Amazon 99,999999999 % Ausfallsicherheit. Das muss man intern erstmal leisten. Das man für Data Science nicht unbedingt eine relationale Datenbank benötigt, ist aber glaube ich wirklich nichts Neues. Gerade wenn es um unstrukturierte Daten geht und um extrem große Datenmengen sind andere Ansätze gefragt.
  • “Code is not the enemy.”
    • WE:  Schreibe ETL-Code in Spark und verwalte ihn in Git Hub; es ist befreiend
    • SA: Git scheint heute im HANA oder SAP Cloud-Umfeld schon der neue Standard zu sein. In einer superagilen Welt verwundert der Erfolg von Git Hub daher nicht.
  •  “We don’t move data.”
    • WE: Wir bauen logische views in Hadoop für analytische Anwendungsfälle
    • SA: Auch HANA und vor allem S/4HANA setzen auf virtuelle Datenmodelle, welche für analytische Zwecke optimiert sind. Mit Core Data Services wird aktuell von SAP eine neue Grundlage geschaffen, dieses Konzept in der Breite umzusetzen.
  •  “We design from physical to logical, not logical to physical.”
    • WE: Wir laden Rohdaten in das System, dann bauen wir logische views für jeden Anwendungsfall; wir modellieren nicht zuerst.
    • SA: Passt zum vorherigen Punkt und unterstützt und erweitert diesen. In einem S/4HANA liegen die Daten schon vor, jedoch nicht unbedingt für analytische Zwecke. Erst durch das virtuelle Datenmodell bereite ich die „Rohdaten“ auf. In einem NoSQL-System oder Data Lake lege ich Daten ab, wie Sie kommen. In zum Teil völlig verschiedenen Schemata für die Sie ursprünglich gedacht waren. Wie ich diese für die Analyse im Sinne von Data Science benötige, kann ich vorab noch nicht sagen. Dabei kann man jedoch noch gut zu den traditionellen Ansätzen differenzieren, bei denen der Analysezweck im vorhinein recht klar ist (z. B. Analyse von Umsatzdaten nach verschiedenen Dimensionen). Schema-on-Read ist nichts, was der Fachbereich mal nebenher macht, weil er eine Fragestellung beantwortet haben möchte. Und dann gibt es auch noch agile Ansätze wie Data Vault.
  • “We design for secondary use cases, not the primary one, which has a limited shelf life.”
    • WE: Wir laden Daten und speichern diese auf Detailebene, so dass wir diese für neue Einsatzzwecke verwenden können, sobald der Bedarf dafür aufkommt.
    • SA: Die Aggregation von Daten geschieht immer für einen bestimmten Zweck. Information geht dabei verloren. Natürlich sollte es für ein HANA-System in der SAP-Welt kein Problem sein, sehr granulare Daten zu speichern. Jedoch kann dies sehr teuer sein. Mit Ansätzen wie Dynamic Tiering und Nearline Storage hat SAP Ansätze, das zu handhaben. Eine Alternative für BW könnten Ansätze wie SparrowBI sein.
  • “Your data architecture is as important or more than your data model.”
    • WE: Wie die Daten im Dateisystem abgelegt werden ist wichtig. Sonst wird man mit den Daten wenig anfangen können.
    • SA: Themen wie Datenqualität, Metadatenmanagement und Data-Lineage spielen hier eine wichtige Rolle, soll der Data Lake nicht zum Datensumpf werden.
  • “Architecture is way more important when you move to the cloud.”
    • WE: Wenn du deine Cloud nicht richtig konfigurierst, wird es evtl. teurer als gedacht.
    • SA: Mit Cloud-Konzepten herrscht weniger Erfahrung als in der On-Premise-Welt. Die leichte Verfügbarkeit der Ressourcen verführt dazu, erstmal großzügig damit umzugehen. Evtl. muss hier neu und eher elastisch gedacht werden.
  • “Applications are dependent on analytics.”
    • WE: Wir benötigen DevOps um die Entwicklung von Anwendungen und Analytic zu koordinieren.
    • SA: S/4HANA setzt massiv auf Hybrid Transactional Analytical Processing (HTAP) und verbindet immer mehr operative Anwendungen mit analytischen Funktionen.
  • “Either you evolve and change, or die.”
    • WE: Sei offen gegenüber Hadoop, Spark und der Cloud.
    • SA: Das sich SAP gegenüber den Open Source-Technologien wie Hadoop und Spark z. B. im Rahmen von HANA Vora öffnet ist ein wichtiges Zeichen. Bei Cloud versucht sich SAP als Vorreiter und setzt darauf wie auf HANA und zeigt damit auch die Richtung.

Eckerson schließt mit den Worten „The only constant is change, and now is the time to change! „. Aber Veränderung ist kein Projekt oder etwas, was man jetzt mal angehen sollte. Um konkurrenzfähig zu bleiben muss Veränderung zum integralen Bestandteil der Unternehmenskultur werden.

BW/4HANA SPS01

Nach dem Start des neuen BW/4HANA im September spendiert die SAP in KW13 2017 auch das erste Support Package für ABAP. Leicht enttäuschend dafür, dass in den Präsentationen immer mal erwähnt wird, dass durch die Loslösung von SAP NetWeaver schnellere Updates möglich sind. Denn bis dahin sind gut 6 Monate seit GA vergangen.

Da man sich ja nun bzgl. BW 7.5 auf keine großen Neuerungen mehr freuen kann, ist es besonders interessant zu beobachten, wohin BW/4HANA sich nun entwickelt.

Schauen wir zuerst auf die interessanten neuen Funktionen:

  • Big-Data-Quellsystem – Über Smart Data Access und den Adapter SPARK SQL sowie des Spark Controllers wird ein Zugriff auf Big Data zur Verfügung gestellt. Open ODS-Views und CompositeProvider ermöglichen die Integration ins BW.

  • API für Hierachien – Hier hat die SAP wohl auf BW/4HANA angepasste Funktionsbausteine ausgeliefert. Oberflächlich scheint damit die eine oder andere Funktion dazu gekommen zu sein:

    bw4hier01
    Vergleich Hierarchie API’s BW7.5 und BW/4HANA
  • Bearbeitung von Stammdaten – Was hat man sich nicht so gedacht, womit die SAP ab Release 7.4 hinwollte, als sie die Stammdatenpflege vom SAP GUI in ein Web Dynpro verlegt hatte. Lt. Doku wollte man damit besser die Business User unterstützen. Nun hat SAP die Bearbeitung in die BW Modellierungswerkzeuge integriert. Da man unter BW Modellierungswerkzeuge Eclipse versteht, ist damit wohl gemeint, dass hier einfach alles an einem Ort, aber doch noch in Web Dynpro ist.
  • SAP Dynamic Tiering pro Partition – für DSO’s (advanced) können die Daten jetzt pro Partition in Extension Nodes verschoben werden.
    • Query anlegen – Prioritäten definieren: Hier können bei Queries mit 2 Strukturen jeweils festgelegte Eigenschaften priorisiert werden. Diese Funktion ist extra für Power User gedacht.

Auch zwei Änderungen/Erweiterungen, welche auf interessante Eigenschaften von BW/4HANA hindeuten:

  • CDS-Views für Data-Warehouse-Monitoring: Hier werden Core Data Services-Views als Nachfolger für den Technischen Content eingesetzt. Das vereinfacht natürlich auch das Monitoring, da keine Stamm- oder Bewegungsdaten ins BW geladen werden müssen.
  • SAP HANA-Views für Queries mit Hierarchiefilter: Eine Erweiterung, um in der HANA DB Calculation Views zu erzeugen. Offensichtlich ist es gut, hier auch die Einschränkungen zu kennen.

So, als kurzes Fazit ist aus der Release-Information noch nicht viel Großes herauszulesen. Man scheint sich dem Thema Big Data zu nähern und liefert an sonsten nur kleinere Anpassungen. Vielleicht sickern aber bis zum Erscheinungstermin auch noch ein paar größere Themen durch.

Mit den oben dargestellten Themen hat man es auf jeden Fall geschafft, die Roadmap für Q4/2016 zu erfüllen. Auch wenn erst Ende Q1/2017 geliefert wird.

Zu den angekündigten HANA native DataStore object (NDSO) konnte man leider nicht viel in der BW/4HANA-Hilfe finden. Im HANA 2-Kontext werden sie als Integrationsebene zwischen HANA DW und BW beschrieben, welche typische BW-Funktionalitäten wie Delta und Request-Handling ermöglicht. Das NDSO soll mit den nächsten Release von SAP HANA Data Warehousing Foundation und ab HANA 2 verfügbar gemacht werden. Es ist somit also erstmal ein HANA-Thema, auch wenn es auf der BW/4HANA Roadmap steht. Die HANA Academy auf YouTube hat einige einführende Videos dazu geteilt.

Für Q2/2017 sind folgende Neuerungen geplant:

  • HANA Analysis Process kann BW-gesteuert auf Spark/Hadoop ausgeführt werden.
  • Erweiterte HANA EIM-Integration: Delta und Realtime-Streaming Unterstützung für native HANA-Tabellen
  • HANA-View Generierung für Open ODS-View
  • Parallel-Loads für Stammdaten
  • Weiterer Push-Down von OLAP-Funktionen wie Ausnahmeaggregationen einschließlich Währungs- und Mengeneinheitenumrechnung

Damit kommen aus meiner Sicht die spannenden Themen erst unter dem Stichpunkt „Future Innovation“. Na dann freuen wir uns einfach mal auf zukünftig noch konkretere Information bzgl. BW/4HANA.

SAP & Data Warehouse vs. Data Lake

Ich erinnere mich gut an einige Gespräche mit dem Fachbereich, bei denen mein Gegenüber der Meinung war, Big Data ist, wenn Excel nicht mehr ausreicht. Und dafür hätte man dann ja z. B. SAP BW.

Interessanterweise ist das auch oft das Bild, welches man durchaus bekommen kann. Oft werden Begriffe undifferenziert verwendet und Schlagwörter verwendet wie „wenn wir HANA haben, dann sind alle unsere Probleme gelöst“.

Gut das selbst die SAP mittlerweile erkannt hat, das HANA evtl. doch nicht die Eierlegende Wollmilchsau ist und an der einen oder anderen Stelle auf ergänzende Technologien angewiesen ist. HANA Vora (seit 03/2016 GA) ist so ein Beispiel.

Aber schon zuvor hat sich SAP gemeinsam mit Hortonworks an einer Big Data Reference Architecture versucht. Und wirbt gerne auch direkt bei den CIO’s mit ihrem Angebot, Big Data in den Griff zu bekommen.

Nun, wenn das DWH schon für Big Data steht, wofür benötigt man eigentlich ein HANA Vora oder gar ein Data Lake? Im folgenden möchte ich die beiden Konzepte etwas besser voneinander abgrenzen. Zuvor jedoch soll noch erwähnt sein, dass  DATAVERSITY einen empfehlenswerten Übersichtsartikel zu dem Thema bietet, welcher mich auch dazu inspiriert hat, hier einmal zu schauen, wo SAP sich dabei sieht..

Die erste Erwähnung und Prägung des Begriffs „Data Lake“ stammt wohl vom Chief Technology Officer von Pentaho:

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.

– James Dixon, CTO Pentaho
Quelle: https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

SAP hat aus meiner Sicht hier für kompakte 2 1/2 Minuten gar nicht schlecht ihre Sichtweise für die Bedeutung eines Data Lakes dargestellt.

Wie bekommt man den nun ein Gefühl, wie sich Data Lake tatsächlich von Data Warehouse abgrenzt?

DWHvsDL

Die dargestellten Aspekte zeigen gut, dass ein Data Lake und ein Data Warehouse durchaus sich ergänzenden Ansätze darstellen. Nur weil in den letzten Jahren neue Datenquellen relevanter und verwertbarer geworden sind, sind bisherige Ansätze nicht obsolet. Jedoch muss man auch sehen, dass, obwohl gewisse Ansätze und Zielsetzungen recht ähnlich sind, der Skill und die Herangehensweise doch sehr unterschiedlich sein können.

In ihrer Roadmap zeigt die SAP, dass Sie hier eine gemeinsame technologische Architektur mit einer zentralen HANA-Plattform sieht, in der in einer absehbaren Zukunft auch das SAP BW im HANA Data Warehouse aufgehen wird:

SAP HANA DW-Roadmap

Dabei hat eben auch HANA Vora seinen Platz und wird als verbindender und integrierter Bestandteil zwischen Hadoop und HANA in dieser zukünftigen SAP HANA Data Warehousing Plattform dargestellt:

HANA_DW_Plattform

Die Zeit wird zeigen ob diese doch verschiedenen Ansätze tatsächlich sinnvoll kombiniert werden können und evtl. das eine Konzept in dem anderen aufgeht. Oder ob die Ansätze nur eine theoretische Möglichkeit darstellen, mit welcher man schön Marketing machen kann, welche so jedoch nicht Realität werden wird.

SAP BW 7.5 Sp4

So, bzgl. BW 7.5 habe ich schon eine kleine Tradition und offensichtlich ist dies auch von Interesse.

Bisher gibt es von mir dazu folgende Beiträge:

Nun gibt es seit kurzem Info’s zu SAP BW 7.5 SP4. Wie zu Beginn des Minor-Releases 7.5 liegen die Schwerpunkte nach wie vor auf Simplification, Big Data und die Nutzung HANA-spezifischer Funktionen.

Modelling Tools – Nachdem mit SP1 der Query Designer Feature Complete war und InfoObjects möglich wurden, sind nun folgende Objekte damit modellierbar:

  • DataSource
  • Aggregation Level
  • InfoArea
  • InfoSource
  • Semantic Group (Semantische Partitionierung für ADSO)
  • OpenHub

Als Ausblick und nächste Objekte werden Transformationen und Datenflüsse angedeutet.

Erweiterungen für

  • ADSO (z. B. selektives Löschen über Reverse Image)
  • CompositeProvider (z. B. Temporale Joins -> Feature Complete zu InfoSet)
  • OpenODS-Views (z. B. Navi-Attribute von assoziierten virtuellen InfoObjects)
  • InfoObjects (Transitive Attribute)
  • Prozessketten (Streaming / Real-Time)
  • BW Workspaces (z. B. Übertragung der Daten in ADSO)
  • HANA Transformation (z. B. AMDP für Start-, Feld- und Endroutinen)

Bzgl. Big Data wird vor allem stärker zwischen HOT und WARM data (vgl. Multi Temperatur-Konzept – SAP Help) differenziert und mit Extension Nodes verbesserte Lösungen angeboten. Auch im Bereich NLS mit Sybase iQ und Hadoop tut sich etwas.

SAP BW 7.5, editon for HANA – das kurzzeitig auch mal als B/4 HANA diskutiert wurde, soll ab September 2016 zur Verfügung stehen. Damit ist ein HANA-basiertes BW gemeint, welches:

  • nur die HANA-spezifischen BW-Objekte (ADSO, CompositeProvider, OpenODS-View)
  • Modellierung mit den BW Modelling-Tools in Eclipse
  • BW-Administration auf Basis von UI5-Oberflächen

 

Die zukünftige Roadmap weist klar in Richtung SAP HANA Data Warehouse Strategie:

  • Mixed Szenarios als integrierter Bestandteil
  • BW als Teil des SAP HANA Data Warehouse
  • Integration mit S/4 HANA Analytics

 

SAP HANA DWH

 

openSAP: Big Data with SAP HANA Vora

Und weiter geht es auf openSAP mit einen interessanten Kurs im Bereich Analytics. Am 06. September 2016 startet „Big Data with SAP HANA Vora„.

openSAP_HANAVora.PNG

Sicherlich nicht der erste Kurs zum Thema HANA. Konkret zu Big Data gab es jedoch bisher nur „Driving Business Results with Big Data“ vor einem guten Jahr und vielleicht „Text Analytics with SAP HANA Platform“ vom Januar diesen Jahres. In weniger guter Erinnerung ist mir geblieben, dass es damals bei „Driving Business REsults with Big Data“ ziemlich viel Werbung bzgl. SAP Services und RDS gab. Positiv war die Möglichkeit direkt an einem HANA-System in der Cloud auszuprobieren. Auch der Vortrag von Steve Lukas ist mir sehr gut in Erinnerung geblieben. Damals habe ich sogar ein paar Tweets dazu gemacht.

Nun gut, diesmal geht es über 3 Wochen um das Thema HANA Vora, Spark, Hadoop.

Die SAP Big Data-Lösung, welche erst seit 15.03.2016 allgemein verfügbar ist, zeigt den Willen der SAP auch im Bereich Big Data mitzumischen. War das bisher bei SAP jedoch immer einen HANA-Thema, zeigt SAP mit der Lösung, das HANA alleine eben doch nicht immer ausreicht um wirklich BIG data zu handhaben.

Der Kurs ist auf drei Wochen aufgeteilt:

  • Week 1: Overview: SAP HANA Vora
  • Week 2: SAP HANA Vora Data Modeling Tool
  • Week 3: Development in SAP HANA Vora

und adressiert:

  • Data Scientists
  • Anwendungsentwickler im HANA-Umfeld
  • Technische Business Analysten & Berater

Ein gewisses Wissen über Hadoop und Spark wird zwar vorausgesetzt, und zeigt, dass der Kurs wohl sehr technisch wird. Jedoch denke ich , selbst für den klassischen SAP BW-Berater, der evtl. noch nicht mal auf HANA ist, ist der Kurs einen Blick wert.

Ein guter Start, für den der sich evtl. etwas vorbereiten möchte, findet sich hier im SCN.