HPI – BD19/20 – Big Data Stack

Als Teil der Lecture Series des HPI hier Teil 4 der Big Data-Vorlesung mit „Big Data Stack„.

Zuletzt – Teil 3: HPI BD19/20 – RDBMS Internals

Umfrage vorab – kennt ihr schon:

  • Hybrid Hash Join
  • Log Structured Merge Tree (LSM-Tree)
  • Programmiersprachen (Java, Python, C++, Other)
  • Biggest Programm (LoC)
  • Vorlesung Database Implementation
  • Vorlesung Distributed Data Management

Big Data – Where Traditional Databases are Unsuitable

 

Der Big Data Stack

  • Application/Query Language/Analytics/Visualization
  • Data Processing
  • Scheduling (Yarn, Kubernetes, Mesos)
  • File System
  • Virtualization (Containers, VMs)
  • Storage / Compute
  • Network

 

Big Data Systems

  • Storage: Hadoop, Ceph
  • Analytical Processing: Spark, TEZ, Hive
  • Operational: HBase, Cassandra
  • Stream Processing: Storm, Flink, Spark Streaming, Kafka
  • Graph Processing: Giraph, GraphX, Neo4J
  • Machine Learning: SystemML, TensorFlow, Mahout

 

Paper zum Google File System (2003) -> HDFS

Paper zu Map Reduce (Google, 2004)

Paper zu BigTable (Google, 2006) -> HBase

Paper zu Chubby (Google, 2006) -> Zookeeper

Paper zu Hadoop Distributed Filesystem (Yahoo, 2010)

Paper zu Pregel (Google, 2010) -> Giraph

Paper zu Spanner (Google, 2012)

Paper zu F1 (Google, 2012)

Paper zu Borg (Google, 2015)  -> YARN

Paper zu Porcella (Google, 2019)

 

SAP Analytix-Fazit

Die Schnittstellen hier ist vor allem SAP Vora, welches mittlerweile Bestandteil von SAP Data Hub/Intelligence ist. Komponenten wie Ceph und Docker spielen auch hier eine Rolle. Grundsätzlich bringt auch HANA Smart Data Access ein Hadoop-Adapter mit.

Eine Zeit lang waren das die Komponenten, um im Kontext BW/4HANA das Big Data Warehouse zu propagieren.

Schaut man sich den Big Data Stack an, so sind die Layer natürlich vergleichbar zu einem Data Warehouse. Nur handhabt Big Data natürlich deutlich andere Aspekte (3 Vs) und ist vor allem typischerweise ein verteiltes System um diese Aspekte zu handhaben.

 

Nächste Lecture: Benchmarking und Measurement

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s