SAP HANA – What’s New PAL Journey

Im Folgenden ein Überblick über die Neuerungen (auf Basis der What’s New-Präsentationen) zu SAP HANA Predictive Analysis Library (PAL) von SAP HANA 1.0 SP06 bis SAP HANA 2.0.

PAL wurde bereits mit SPS05 unter dem Framework Application Function Library neben der Business Function Library (BFL) gestartet. Die Bereitstellung erfolgte initial nur über SQL Skript. Die Implementierung erfolgte in C++ als Teil der HANA-Datenbank.

SAP HANA 1.0 SPS06: Mit diesem SPS wurden bereits 28 Algorithmen für Data Preparation und Machine Learning/Data Mining zur Verfügung gestellt. Darunter C4.5, CHAID, diverse Regressionsalgorithmen, Apriori, K-Means oder DBSCAN. Ab hier wurde der Application Function Modeler (AFM) als grafischer Editor zusätzlich verfügbar gemacht.

SAP HANA 1.0 SPS07:  (Ca. 11/2013) Ziel war es, die Implementierung komplexer Algorithmen zu vereinfachen bzw. Alternativen bereitzustellen. Hier kamen neue Uni- und Multivariate statistische Methoden (Mittelwert, Median, Varianz, Schiefe, Chi-Quadrat Test, F-Test, …), die Behandlung von fehlenden Werten und die Partitionierung von Datensets hinzu. Neue Algorithmen waren u. a. Support Vector Machine (SVM), Forecast Smoothing, Agglomeratives hierarchisches Clustering. Auch gab es Optimierungen und Erweiterungen an verschiedenen Algorithmen. Des weiteren wurde die AFM-Unterstützung verbessert.

1
Application Function Library Framework in SAP HANA (SAP, 2013)

SAP HANA 1.0 SPS08: (Ca. 05/2014)  Hier wurden im Schwerpunkt Erweiterungen auf Basis der Priorisierung durch Kunden und anderen Stakeholder gemacht. 8 Algorithmen kamen hinzu (FP-Growth, CART, K-Medoid, ARIMA, Distribution Fit, Cumulative Distribution Function, Quantilfunktion, Random Distribution Sampling). Wieder wurden Erweiterungen wie die automatische Handhabung fehlender Werte durchgeführt.

SAP HANA 1.0 SPS09: (Ca. 11/2014) Ebenfalls 8 neue Algorithmen wie Top K Rule Discovery, Back-Propagation, Croston Method und Principal Component Analysis (PCA) kamen hinzu. An der AFL wurden Änderungen vorgenommen und Berechtigungen erweitert. Der AFM wurde Re-Designed (HANA Studio) und um Funktionen zu flowgraphs erweitert, welche u. a. auch die Integration von R-Scripts ermöglichen.

SAP HANA 1.0 SPS10: (Ca. 06/2015) In den SPS sind 7 neue Algorithmen ergänzt worden. U. a. Confusion Matrix, Gaussian Mixture Model (GMM) und Latent Dirichlet Allocation (LDA). Daneben wurde das Fehlerhandling verbessert und die PAL-Integration mit Seriendaten und Window Funktionen eingeführt. Mit SPS 10 wurde auch der web-basierte Editor (Web-based Development Workbench) eingeführt.

SAP HANA 1.0 SPS11: (Ca. 12/2015) 6 neue Algorithmen werden hier zur Verfügung gestellt, darunter Random Forest, Kaplan-Meier Survival Analysis und Area under curve (AUC). Für Smart Data Streaming wurden Algorithmen wie Adaptive Hoeffding Decision Tree und DenStream eingebettet.

2
Smart Data Streaming in SPS11 – SAP, 2018

SAP HANA 1.0 SPS12: (Ca. 05/2016) In dem SPS kam Auto-ARIMA für Zeitreihenanalyse sowie Erweiterungen zu bestehenden Algorithmen hinzu. Für Scale-out-Szenarien kamen verteilte Berechnungen über den Node Script Server hinzu.

SAP HANA 2.0 SPS00: (Ca. 12/2016) Mit dem SPS wurden 8 Algorithmen auf insgesamt 91 Algorithmen erweitert. Unter den neuen Algorithmen sind Gradient Boosting Decision Trees, Fast Fourier Transform (FFT) und Sequential Pattern Mining. Technisch wurde die parallele Ausführung von Scoring-Funktionen auf partitionierten Daten erweitert.

SAP HANA 2.0 SPS01: (Ca. 04/2017) 6 Algorithmen wurden hier erweitert (u. a. Accelerated K-Means, ANOVA oder T-Test). Als neue Algorithmenklasse kam Recommender Systems mit Factorized Polynomial Regression hinzu. Im Bereich Ausreißeranalysen kam One Class SVM hinzu. Ebenso ist Real Time Scoring hinzugekommen.

SAP HANA 2.0 SPS02: (Ca. 07/2017) 2 Algorithmen im Bereich Data Preparation wurden ergänzt (Factor Analysis und Multi dimensional scaling). Seit diesem SPS kam die Möglichkeit zur Integration von TensorFlow hinzu (External Machine Learning – EML). Auch wird ab hier PAL über die Web IDE supported. Die Schnittstelle zum Aufruf der PAL-Funktionen wurde vereinfacht. Auch Treiber für Python sind ab hier verfügbar. Weitere Funktionen für das im vorherigen SPS eingeführten Real Time Scoring wurden ermöglicht.

3
SAP HANA TensorFlow Integration – SAP, 2017

 

SAP HANA 2.0 SPS03: (Ca. 04/2018) SAP stellt das Machine Learning Portfolio unter dem Namen SAP Leonardo neu auf. Auch kommt das SPS Data Scientists mit Resampling und Hyperparametersuche entgegen. 4 neue Algorithmen kommen hinzu (Hierarchical Forecasting, Alternating Last Squares, Field-aware Factorization Machines und PageRank). Der Python-Zugriff wird durch die Unterstützung von SQLAlchemy verbessert.

4
SAP Leonardo Machine Learning Portfolio – SAP, 2018

SAP HANA 2.0 SPS04: (Ca. 05/2019) Neben Python wird nun auch eine R API für das direkte Arbeiten mit R auf HANA zur Verfügung gestellt. Neue Algorithmen sind u. a. Hybrid Gradient Boosting Tree, Change Point Detection, Conditional Random Fields und Regression Comparison Function. Insgesamt 10 Neue. Die Automated Predictive Library (APL) ist nun Teil von SAP HANA.

Soweit nun die Reise der PAL-Bibliothek bzw. zunehmend auch weiterer Möglichkeiten wie APL, Streaming Analytics, Tensorflow, R und Python.

Viele Technologien rund herum unterstützen die analytischen Fähigkeiten der SAP HANA Platform.

 

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s