Praktikum: Erforschung der nahezu Echtzeit-Datenverarbeitung im großen Maßstab mit Apache Flink und Apache Spark

Elca informatique SA

Pully

Auf einen Blick

Veröffentlicht:28 September 2025
Pensum:100%
Arbeitsort:Pully

Job-Zusammenfassung

Dieses Praktikum bietet eine umfassende Erforschung von Apache Flink und Spark.

Aufgaben

Gestalte und implementiere Echtzeit-Datenpipelines mit Kafka.
Entwickle praktische Anwendungsfälle mit realen Datenquellen.
Vergleiche Flink und Spark hinsichtlich Leistung und Eignung.

Fähigkeiten

Kenntnisse in Datenengineering, SQL und Streaming-Konzepten erforderlich.
Analytisches Denken und Problemlösungsfähigkeiten sind wichtig.
Interesse an Benchmarking und Leistungsbewertung ist von Vorteil.

Ist das hilfreich?

Beschreibung
-Dieses Praktikum bietet eine tiefgehende Erkundung und einen Vergleich von zwei führenden Stream-Processing-Frameworks — Apache Flink und Apache Spark — im Kontext der nahezu Echtzeit-Datenverarbeitung.

Der Praktikant wird praktische Erfahrungen im Entwerfen und Implementieren von nahezu Echtzeit-Datenpipelines sammeln, wobei Apache Kafka als Messaging-Rückgrat verwendet wird und Datenströme sowohl mit Flink als auch mit Spark verarbeitet werden. Das Projekt umfasst die Entwicklung praktischer Anwendungsfälle mit nahezu realen Datenquellen, wie Ereignisströmen aus Datenbanken oder Web-Aktivitätsprotokollen.

Das abschließende Ergebnis wird aus Leistungsbenchmarks, Skalierbarkeitsbewertungen und Empfehlungen bestehen, die die Stärken und Grenzen jedes Frameworks in verschiedenen Datenstreaming-Szenarien aufzeigen.

Ziele

Verstehen der grundlegenden Konzepte von Kafka, Flink und Spark, einschließlich ihrer Architektur und Anwendungsfälle.
Implementierung einer Pipeline zur Verarbeitung von Streaming-Daten aus einer einzigen Quelle mit Kafka und Flink/Spark, Gewinn von Erkenntnissen über die Technologien und Testen von Optimierungen.
Aufbau einer zweiten Pipeline mit einer komplexeren Konfiguration:

Datenbank → Debezium → Kafka → Flink/Spark → Operative und analytische Abfragen.

Verarbeitung mehrerer Tabellen und Implementierung von Watermarking zur Sicherstellung synchronisierter Datenverarbeitung.

Vergleich von Flink und Spark basierend auf Leistung, Benutzerfreundlichkeit und Eignung für spezifische Anwendungsfälle.
Dokumentation der Ergebnisse und Vorschlag von Richtlinien zur Auswahl zwischen den beiden Frameworks.

Unser Angebot
•    Ein dynamisches Arbeits- und Kollaborationsumfeld mit einem hochmotivierten multikulturellen und internationalen Team
•    Die Chance, das Leben der Menschen durch den Aufbau innovativer Lösungen zu verbessern
•    Verschiedene interne Coding-Events (Hackathon, Brownbags), siehe unseren technischen Blog
•    Monatliche After-Work-Veranstaltungen an den Standorten

Erforderliche Fähigkeiten
Kernkompetenzen:

Grundlagen der Datenverarbeitung und verteilter Systeme.
Kenntnisse in SQL und Datenbankkonzepten (z. B. relationale Datenbanken, Transaktionen).
Verständnis von Streaming-Konzepten und Datenpipelines (z. B. Kafka, Flink, Spark).

Technische Fähigkeiten:

Vertrautheit mit Docker und containerisierten Umgebungen.
Kenntnisse über Kafka und Konzepte wie Producer, Consumer, Topics und Partitionen.
Grundlegende Programmierkenntnisse in Python, Java oder Scala.
Verständnis ereignisgesteuerter Architekturen und CDC-Tools (Debezium ist ein Plus).
Erfahrung mit Cloud-Plattformen (z. B. AWS, Azure oder GCP) ist von Vorteil.

Weitere Fähigkeiten: