BI & Machine Learning

Howard Dresner stellt in seinem aktuellen Blog die Frage „Is Artificial Intelligence the Future of Business Intelligence?

Bei SAP selbst tauchen Begriffe wie Machine Learning (ML) oder Artificial Intelligence (AI) immer wieder auf. So ist Bernd Leukert als SAP Vorstand für Produkte & Innovationen auch Aufsichtsrat des Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Bill McDermott hat in einem vor Kurzem erschienen Interview klar gesagt, dass SAP zukünftig eine führende Rolle in diesem Bereich einnehmen will. Er wird dabei wie folgt zitiert:

“We want to become the world-wide machine learning leader for corporate businesses, hands down,” …

“Our goal is to have the most intelligent business applications and we’re doing everything we can to achieve that.”

Nicht zuletzt hat SAP aktuell auf der MOOC-Plattform OpenSAP einen Kurs mit dem Titel „Enterprise Machine Learning in a Nutshell“ laufen.

Nun, schaue ich mir den OpenSAP-Kurs so an, dann sehe ich kaum Unterschiede zu dem, was ich schon 2006 zu Diplomarbeitszeiten gesehen und gelesen habe und was heute oft unter dem Label Predictive Analytics verkauft wird.

Schaut man sich die aktuellen Tools von SAP an, so findet man immer wieder die Verwendung der Automated Predictive Library (APL) und der Predictive Analysis Library (PAL) sowie der OpenSource Statistik-Bibliothek R, welche sich bei vielen Anbieter großer Beliebtheit erfreut. APL und PAL sind natürlich Teil von HANA selbst. Und im BW ist die Integration mit dem HANA Analysis Process möglich. Dann gibt es auch noch das Werkzeug SAP Predictive Analytics, welche grafische Oberflächen zur Modellierung bietet. Und auch in das noch sehr neue SAP Produkt SAP BusinessObjects Cloud hat Predictive mittlerweile Einzug gehalten.

Begriffe, welche man in dem Zusammenhang neben Künstliche Intelligenz und Maschinellem Lernen immer wieder hört, sind Data Mining, Statistik, Deep Learning und manchmal vielleicht auch noch Data Science.

Gartner beschreibt Maschinelles Lernen/Machine Learning wie folgt:

Advanced machine learning algorithms are composed of many technologies (such as deep learning, neural networks and natural-language processing), used in unsupervised and supervised learning, that operate guided by lessons from existing information. 

Lt. Gartner stellt sich Künstliche Intelligenz/Artificial Intelligence deutlich komplexer dar:

Artificial intelligence is technology that appears to emulate human performance typically by learning, coming to its own conclusions, appearing to understand complex content, engaging in natural dialogs with people, enhancing human cognitive performance (also known as cognitive computing) or replacing people on execution of nonroutine tasks. Applications include autonomous vehicles, automatic speech recognition and generation and detecting novel concepts and abstractions (useful for detecting potential new risks and aiding humans quickly understand very large bodies of ever changing information).

Gerade der hier auftauchende Begriff „Cognitive Computing“ zeigt, dass in dem Bereich aktuell viel Bewegung ist, bei dem IBM mit Watson ein Vorreiter ist. Jedoch beispielsweise auch die deutsche BITKOM das Thema für sich entdeckt hat.

Als ich 2006 meine Diplomarbeit zum Thema Data Mining (DM) schrieb, war die Welt noch etwas einfacher. Daten waren noch nicht so „Big“ oder „Smart“ und die Begriffswelt noch nicht so ausdifferenziert.

Data Mining beschrieb ich neben OLAP und Planung als Analysetechnik welches typischerweise auf einem Data Warehouse basiert:

„Data mining is the process of discovering meaningful new correlations,
patterns and trends by „mining“ large amounts of stored data using pattern
recognition technologies, as well as statistical and mathematical techniques.“
(Ashby, Simms 1998)

Bei der Herkunftsbestimmung aus diversen Büchern fand ich:

  • Statistik
  • Datenbankmanagement
  • Mustererkennung
  • Visualisierung
  • Künstliche Intelligenz – vor allem der Bereich „Maschinelles Lernen“

Viele der Begriffe versucht man heute viel deutlicher voneinander abzugrenzen, als das nach meinem Gefühl vor 10 Jahren der Fall war. Möglicherweise ist das aufgrund der weitergeführten Forschung in den Bereichen, dem technologischen Fortschritt sowie geänderter Rahmenbedingungen (z. B. 3 V’s) auch absolut sinnvoll.

Nehme ich mal die drei aus meiner Sicht am engsten miteinander verbundenen Begriffe und schaue mir mal die Trends bei Google an, zeigt sich folgendes:

ki_ml_dm01

Offensichtlich zeigen AI und DM eine gewisse Korrelation über die Zeit. Machine Learning hat dafür lange vor sich dahingedümpelt, bis die letzten Jahre der Trend doch angezogen hat, so das Machine Learning an den anderen beiden Begriffen vorbeigezogen hat. Interessant auch der Blick auf die weltweite Verteilung:

ki_ml_dm_02_welt

Möglicherweise sind die Begriffe auch noch sehr regional geprägt. Während Data Mining doch recht verbreitet zu sein scheint, ist Machine Learning wohl vor allem in Skandinavien populär.

Gartner hat im Hype Cycle für Advanced Analytics und Data Science, 2015 das Thema Machine Learning auf dem Gipfel der überhöhten Erwartungen gesehen. Direkt vor Predictive Analytics. Der Hype Cycle 2016 hat sich dazu kaum verändert.

Bei den vor Kurzem für 2017 veröffentlichten Technologie-Trends sieht Gartner das Thema AI & ML als Top 1 und meint:

AI and machine learning have reached a critical tipping point and will increasingly augment and extend virtually every technology enabled service, thing or application.

In diesem Sinne folgen an Stelle 2 und 3 auch gleich die Themen „Intelligent Apps“ und „Intelligent Things“, welche letztendlich wieder stark auf AI basieren.

Howard Dresner schließt seinen Blog mit der Überlegung, das AI im BI-Umfeld ein Thema ist, wenn sie die Daten besser analysieren kann, als ein Mensch. Jedoch warnt er auch, dass AI trotz seines Alters (Ursprünge in den 50er-Jahren) heute keine reife Technologie ist und für Fehler sehr wohl anfällig sein kann, wie bspw. Microsoft im Frühjahr 2016 erfahren musste.

Was bedeutet dies nun für den klassischen SAP BI-Berater, der mit SAP BW, BEx und evtl. BusinessObjects BI unterwegs ist? HANA kommt, aber ist eben noch nicht überall angekommen. Bis zur BusinessObjects Cloud ist es für viele vor allem in Deutschland ebenfalls noch ein langer Weg. Und SAP Predictive Analytics ist aus meiner Erfahrung von der Lizenz her recht teuer.

Ich glaube zurück zur SAP BW Data Mining Workbench und zum Analyseprozessdesigner möchte auch niemand unbedingt. Die Automated Analytics-Ansätze richten sich schon an den Business User. Muss man dann evtl. nur noch technisch und bei der Bereitstellung der Daten unterstützen? Oder braucht man gleich die Weiterbildung zum Data Scientist?

Ich denke es sind einfach auch verschiedene Skills, wie auch verschiedene Anforderungen an die IT, die hier im Spiel sind. Trivial zu beantworten ist dies deshalb sicherlich nicht. Jedoch ist aus heutiger Sicht klar, alles, was eine SAP aktuell unter Analytics zusammenfasst, kann sowieso nur im Team abgedeckt werden. Dieses aufzubauen und zu strukturieren ist vielleicht die wahre Herausforderung.

Advertisements

Hans Peter Luhn

Hans Peter Luhn (1896 – 1964) war ein deutscher Informatiker bei IBM.

Er arbeitete seit 1941 bei IBM und leistete wichtige Arbeit im Bereich der Datenverarbeitung. Bekannt wurde sein Name in den letzten Jahren durch den 1958 veröffentlichten Artikel „A Business Intelligence System„, welcher oft als Ursprung des Begriffs „Business Intelligence“ angesehen wird.

Der Artikel beschreibt jedoch eher die Verarbeitung und Extraktion von Informationen aus Dokumenten, weshalb der Bezug zum typischen Verständnis von BI umstritten ist.

Dazu passt es, dass er u. a. als Vater des Information Retrivial genannt wird.

SAP HANA 2

Am 08.11.2016 hat SAP zum Start der SAP TechEd Barcelona das Release 2 der HANA-Datenbank vorgestellt. Geplantes Releasedatum für Kunden ist der 30.11.2016. Kurz darauf soll es auch die HANA 2 Express Edition geben, um Entwicklern einen schnellen Zugriff zu ermöglichen.

Bernd Leukert hat HANA 2 wie folgt angekündigt und beschrieben:

“The first version of SAP HANA is the synonym for real time processing of data. It’s already the backbone of thousands of major companies,” said Leukert. “I’m proud to officially announce today SAP HANA 2, which will be released at end of November. This next generation of SAP HANA is the digital foundation to transform any business, helping IT shift focus to innovation, continuing to evolve data management and application development.”

Wer mag, kann sich hier direkt die Ankündigung anschauen.

Bzgl. Analytics soll HANA 2 folgende Erweiterungen liefern:

„Analytical intelligence: Developers are embedding rich insight into applications with enhanced analytical processing engines for text, spatial, graph and streaming data. For example, new algorithms for classification, association, time series and regression have been added to the predictive analytics library to empower data scientists to discover new patterns and incorporate machine learning into custom applications.“

Wenn auch der Zusammenhang aus den bisherigen Meldungen mir noch nicht ganz klar ist, hat SAP zeitgleich cloudbasierte SAP HANA Microservices im Bereich Analytics angekündigt:

  • TEXT ANALYSIS ENTITY EXTRACTION – Ein Service zum hervorheben wichtiger Informationen in unstrukturierten Daten.
  • TEXT ANALYSIS FACT EXTRACTION – Ein Service zur Sentimentanalyse, bspw. bzgl. eines Produktes oder eines vom Unternehmen angebotenen Services. Ebenso einen Service bzgl. Öffentlicher Veranstaltungen (Public Sector) bspw. zur Risikoabschätzung sowie einen Service zur Analyse von Unternehmensereignissen (Enterprise) wie personelle Veränderungen oder die Neueinführung von Produkten.
  • TEXT ANALYSIS LINGUISTIC ANALYSIS – Ein Service zur Sprachanalyse, bspw. um welche Sprache es sich handelt oder im Weiteren der linguistischen Analyse des geschrieben selbst.
  • Earth Observation Analysis Service – Ein Service zur Auswertung von Satelliteninformationen bzgl. der Erde. Aktuell in der Beta-Version.

SAP verspricht sich von einer Microservices Architektur Folgendes:

  • Independence from the business domain, devices, and environments
  • Nonproprietary environment that offers freedom to choose the programming languages and underlying database technologies as well as gaining portability of services and applications between cloud infrastructures
  • Prebuilt business processes that allows organizations to develop new ways to utilize application data and services easily and flexibly, and scale to changing requirements

Bis zur Veröffentlichung Ende November wird evtl. noch die eine oder andere Information zu neuen Features fließen. Ab 01.12.2016 informiert die SAP dann in 12 Webinaren über die Neuigkeiten.

Bis dahin bietet die aktuelle HANA 2 FAQ Antwort auf wenigstens ein paar Fragen.