Stage : Exploration du traitement des données en quasi temps réel à grande échelle avec Apache Flink et Apache Spark
Pully
Infos sur l'emploi
- Date de publication :28 septembre 2025
- Taux d'activité :100%
- Lieu de travail :Pully
Résumé de l'emploi
Ce stage propose une exploration approfondie des frameworks de traitement de flux Apache Flink et Spark. Une occasion unique de travailler dans un environnement dynamique et collaboratif.
Tâches
- Concevoir et mettre en œuvre des pipelines de données en temps réel.
- Comparer les performances et l'utilité de Flink et Spark.
- Documenter les résultats et recommander des solutions optimales.
Compétences
- Connaissance des systèmes distribués et des concepts de base en ingénierie des données.
- Compétences en SQL et compréhension des bases de données.
- Capacité à apprendre rapidement de nouveaux outils et technologies.
Est-ce utile ?
Description
-Ce stage offre une exploration approfondie et une comparaison de deux frameworks de traitement de flux leaders — Apache Flink et Apache Spark — dans le contexte du traitement des données en quasi temps réel.
Le stagiaire acquerra une expérience pratique en concevant et en mettant en œuvre des pipelines de données en quasi temps réel utilisant Apache Kafka comme colonne vertébrale de messagerie, et en traitant les flux de données avec Flink et Spark. Le projet comprendra le développement de cas d'utilisation pratiques impliquant des sources de données proches du monde réel, telles que des flux d'événements provenant de bases de données ou des journaux d'activité web.
Le livrable final consistera en des benchmarks de performance, des évaluations de scalabilité, et des recommandations décrivant les forces et les limites de chaque framework dans différents scénarios de streaming de données.
Objectifs
- Comprendre les concepts fondamentaux de Kafka, Flink et Spark, y compris leur architecture et leurs cas d'utilisation.
- Mettre en œuvre un pipeline pour traiter des données en streaming à partir d'une source unique en utilisant Kafka et Flink/Spark, acquérir des connaissances sur les technologies et tester des optimisations.
- Construire un second pipeline avec une configuration plus complexe :
Base de données → Debezium → Kafka → Flink/Spark → Requêtes opérationnelles et analytiques.
Gérer plusieurs tables et mettre en œuvre le watermarking pour assurer un traitement synchronisé des données.
- Comparer Flink et Spark en fonction des performances, de la facilité d'utilisation et de l'adéquation à des cas d'utilisation spécifiques.
- Documenter les résultats et proposer des lignes directrices pour choisir entre les deux frameworks.
Notre offre
• Un environnement de travail dynamique et collaboratif avec une équipe multiculturelle et internationale très motivée
• La possibilité de faire une différence dans la vie des gens en construisant des solutions innovantes
• Divers événements internes de codage (Hackathon, Brownbags), voir notre blog technique
• After-Works mensuels organisés par site
Compétences requises
Compétences de base :
- Notions de base en ingénierie des données et systèmes distribués.
- Connaissance du SQL et des concepts de base de données (par exemple, bases relationnelles, transactions).
- Compréhension des concepts de streaming et des pipelines de données (ex. Kafka, Flink, Spark).
Compétences techniques :
- Familiarité avec Docker et les environnements conteneurisés.
- Connaissance de Kafka et des concepts tels que producteurs, consommateurs, topics et partitions.
- Compétences de base en programmation en Python, Java ou Scala.
- Compréhension des architectures orientées événements et des outils CDC (Debezium est un plus).
- Exposition aux plateformes cloud (ex. AWS, Azure ou GCP) est un avantage.
Autres compétences :
- Capacités d'analyse et de résolution de problèmes.
- Capacité à apprendre rapidement de nouveaux outils et technologies.
- Intérêt pour le benchmarking et l'évaluation des performances.
Ce stage commence en février 2026.
Les candidatures doivent inclure vos relevés de notes académiques les plus récents ; les candidatures sans relevés ne seront pas prises en compte.
À propos de l'entreprise
Pully