HPI – BD19/20 – Benchmarking und Measurement

Als Teil der Lecture Series des HPI hier Teil 4 der Big Data-Vorlesung mit „Benchmarking und Measurement„.

Zuletzt – Teil 4: HPI BD19/20 – Big Data Stack

Warum überhaupt messen?

  • Verfügbarkeit von Webseiten gewährleisten
  • Interaktive Datenanalyse skalierbar machen
  • Realtime-Analytics

 

Überlegungen

  •  Systemperformance muss regelmäßig geprüft werden.
  • Niemals nur einer Messmethode glauben
  • Back-of-the-envelope calculations -> Überschlagsrechnung
    • Grobe erste Berechnung, ob es passt oder nicht
    • Bsp. Berechnung der Performance der Einzelkomponenten (L1/L2-Cache, Hauptspeicher, Festplatte, …)

Im weiteren zeigt die Vorlesung viele Möglichkeiten, statistisch mit Messwerten zu arbeiten um verschiedene Aspekte sinnvoll zu testen und validieren zu können.

 

SAP Analytix-Fazit

Nun, im BI-Umfeld wie überall im Bereich Analytics spielt Performance eine wichtige Rolle und umfasst oft viele Stufen und Optionen.

Im klassischen SAP BW on Any DB dürfte dies z. B. jeder BI-Administrator/-Berater kennen. Lesen auf ein flaches Schema wird tendenziell nicht empfohlen, außer man benötigt wirklich die Detailebene und liest jeden einzelnen Datensatz. Für alles was aggregierte Daten berechnet, macht das Star Schema (InfoCube) mehr Sinn. Darauf aufbauend gibt es klassisch die Aggregate, welche nochmals über mehrere Merkmale verdichtet, eine Teilmenge der Daten auf der Datenbank bereitstellt. In der Pre-HANA Ära gab es dann auch noch den BWA, der die Daten im deutlich schnelleren Hauptspeicher vorgehalten hat. Im optimalen Fall wurden die Daten auch schonmal geladen und liegen im noch schnelleren Cache. All dies kann man designen und bereitstellen um Performance hoch zu halten.

HANA bringt das Thema natürlich nochmal auf ein neues Level. Die Daten sind permanent in Memory, spaltenbasiert quasi schon aggregiert und liefern mit optimierter Hardware auch die entsprechende Performance.

Die Cloud kann und wird evtl. zukünftig hier noch flexiblere Optionen ermöglichen, da hier Ressourcen flexibel zugeschaltet oder wieder zurückgefahren werden können.

Natürlich weiß auch jeder, der sich mit Performancemessungen beschäftigt hat, dass das beschriebene allein evt. noch nicht immer auch beim Anwender ankommt. Die richtige Systemparametrisierung, das Netzwerk und das Frontend selbst bzw. der Rechner auf dem dieses läuft, geben ihr übriges dazu.

In einem SAP BW-System haben Statistiken auch einen lange Historie und können ad-hoc oder im Langzeitvergleich flexibel ausgewertet werden.

 

Nächste Lecture: Benchmarks

 

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s