HPI – BD19/20 – Benchmarking und Measurement

Als Teil der Lecture Series des HPI hier Teil 4 der Big Data-Vorlesung mit „Benchmarking und Measurement„.

Zuletzt – Teil 4: HPI BD19/20 – Big Data Stack

Warum überhaupt messen?

  • Verfügbarkeit von Webseiten gewährleisten
  • Interaktive Datenanalyse skalierbar machen
  • Realtime-Analytics

 

Überlegungen

  •  Systemperformance muss regelmäßig geprüft werden.
  • Niemals nur einer Messmethode glauben
  • Back-of-the-envelope calculations -> Überschlagsrechnung
    • Grobe erste Berechnung, ob es passt oder nicht
    • Bsp. Berechnung der Performance der Einzelkomponenten (L1/L2-Cache, Hauptspeicher, Festplatte, …)

Im weiteren zeigt die Vorlesung viele Möglichkeiten, statistisch mit Messwerten zu arbeiten um verschiedene Aspekte sinnvoll zu testen und validieren zu können.

 

SAP Analytix-Fazit

Nun, im BI-Umfeld wie überall im Bereich Analytics spielt Performance eine wichtige Rolle und umfasst oft viele Stufen und Optionen.

Im klassischen SAP BW on Any DB dürfte dies z. B. jeder BI-Administrator/-Berater kennen. Lesen auf ein flaches Schema wird tendenziell nicht empfohlen, außer man benötigt wirklich die Detailebene und liest jeden einzelnen Datensatz. Für alles was aggregierte Daten berechnet, macht das Star Schema (InfoCube) mehr Sinn. Darauf aufbauend gibt es klassisch die Aggregate, welche nochmals über mehrere Merkmale verdichtet, eine Teilmenge der Daten auf der Datenbank bereitstellt. In der Pre-HANA Ära gab es dann auch noch den BWA, der die Daten im deutlich schnelleren Hauptspeicher vorgehalten hat. Im optimalen Fall wurden die Daten auch schonmal geladen und liegen im noch schnelleren Cache. All dies kann man designen und bereitstellen um Performance hoch zu halten.

HANA bringt das Thema natürlich nochmal auf ein neues Level. Die Daten sind permanent in Memory, spaltenbasiert quasi schon aggregiert und liefern mit optimierter Hardware auch die entsprechende Performance.

Die Cloud kann und wird evtl. zukünftig hier noch flexiblere Optionen ermöglichen, da hier Ressourcen flexibel zugeschaltet oder wieder zurückgefahren werden können.

Natürlich weiß auch jeder, der sich mit Performancemessungen beschäftigt hat, dass das beschriebene allein evt. noch nicht immer auch beim Anwender ankommt. Die richtige Systemparametrisierung, das Netzwerk und das Frontend selbst bzw. der Rechner auf dem dieses läuft, geben ihr übriges dazu.

In einem SAP BW-System haben Statistiken auch einen lange Historie und können ad-hoc oder im Langzeitvergleich flexibel ausgewertet werden.

 

Nächste Lecture: Benchmarks

 

HPI – BD19/20 – Database Systems Recab

Als Teil der Lecture Series des HPI hier Teil 2 der Big Data-Vorlesung mit „Database System Recab„.

Teil 1 – Introduction

Einführend in dieser Vorlesung eine Zusammenfassung zu den wichtigesten Begriffen der Datenbankvorlesungen.

  • RDBM – Relation DataBase System
  • Client-Server
  • Datenrepresentation
    • Logische Ebene
    • Konzeptionelle Ebene
    • Physische Ebene
  • Relationales Datenmodell
  • ER-Modellierung
  • Normalformen
  • Relationale Algebra
  • SQL
  • Datenintegrität
  • ACID-Prinzip
  • Konkurrierende Zugriffe

 

SAP Analytix-Fazit

Sicherlich gut, auch wenn es dazu schon Vorlesungen gab, nochmal wichtige Grundlagen zu wiederholen. Sicherlich auch für Entwickler und HANA-Modellierer ein Thema. Im klassischen BI-Umfeld kann es ja zusätzlich auch immer noch vorkommen, dass diverse Datenbanken als Quelle integriert werden sollen.

 

Nächste Lecture: RDBMS Internals

HPI – BD19/20 – Introduction

Als Teil der Lecture Series des HPI hier Teil 1 der Big Data-Vorlesung mit „Introduction„.

Grundlegend eine Einführung in Big Data. Woher kommen die Daten (Messages, Tweets, Social Networks, Blogs, Click Stream, Logs, …)

-> Der Wert der Daten nimmt über die Zeit ab (=> niemand benötigt Click Stream-Informationen die 10 Jahre alt sind.)

Es gibt viele Definitionen von Big Data. Generell kann gesagt werden – wenn du die Daten mit klassischen Ansätzen nicht mehr verarbeiten kannst, ist es Big Data.

Big Data wird oft über die 3 Vs definiert: Volume / Velocity / Variety

Big Data hat auch Risiken:

  • Fehler: Falsche Korrelationen, Bias, Simpsons Paradox
  • Manipulation: Fit data to result, biased training, manipulative Visualisierungen
  • Misuse: Diskriminierung, Verletzung von Datenschutz, Spionage
  • Data Monopoly

Der Nutzen von Big Data ist u. a.:

  • Wirtschaft: Predictive Maintenance, Betrugserkennung, Kapazitätsplanung, Prozessoptimierung
  • Automotive: Verkehrsoptimierung, Selbstfahrende Autos, verbesserte Sicherheit
  • Health: Früherkennung, personalisierte Medizin, medizinische Assistenten, Kostenreduktion
  • Science: Evidenzbasierte Forschung, schnelle Datenanalyse und -wiederverwendung

=> Data Science ist der Prozess um aus Big Data nutzen zu ziehen.

Data Science vs. Data Engineering: DS organisiert und analysiert Daten um Probleme zu lösen. DE erstellt die Architektur, betreibt Datenpipelines und bring DS in einen produktiven Kontext.

Ethik: „With great power comes great responsibility.“

 

SAP Analytix-Fazit

Gute Einführung in das Thema. Hier ist sicherlich noch nicht viel zu sagen. SAP treibt das Thema toolmäßig mit SAP Data Hub bzw. SAP Data Intelligence und versucht damit Data Science und Data Engineering zu verbinden.

SAP hat die letzten Jahre viele Initiativen entwickelt, um Big Data zu bewältigen. SAP HANA, Vora, Big Data Service und nicht zuletzt den demnächst startenden HANA Cloud Service, welcher direkt eine Data Lake-Funktionalität mitbringt.

Bleiben wir gespannt, wie es anläuft.

Nächste Lecture: Database Systems Recab