Zürich
Ingénieur Senior Plateforme d'Observabilité (80-100%)
- 04 juillet 2026
- 80 – 100%
- Durée indéterminée
- Zürich
Résumé de l'emploi
Nous recherchons un Senior Observability Platform Engineer à Zurich/Bern. Rejoignez une équipe dynamique offrant un environnement innovant.
Tâches
- Configurer et améliorer nos plateformes d'observabilité comme Clickhouse et Loki.
- Promouvoir l'adoption des meilleures pratiques d'observabilité dans l'organisation.
- Développer des solutions automatisées pour la surveillance et la réponse aux incidents.
Compétences
- Diplôme en informatique ou domaine connexe avec 5 ans d'expérience.
- Expertise en Kubernetes et gestion de ressources sur clusters.
- Connaissance des pratiques GitOps et des outils de CI/CD.
Est-ce utile ?
À propos de cette offre
Ingénieur Senior Plateforme d'Observabilité (80-100%)
Localisation : Zurich / Berne
Nous recherchons un Ingénieur Senior Plateforme d'Observabilité hautement qualifié et expérimenté pour rejoindre notre équipe. Dans ce rôle, vous serez responsable d'assurer la fiabilité, l'évolutivité et l'efficacité de notre infrastructure d'observabilité principale qui soutient nos équipes d'ingénierie et notre portail client. Votre travail inclura l'évolution de ces systèmes et la participation à la promotion des meilleures pratiques d'observabilité au sein de l'organisation.
Responsabilités clés
- Configurer, exploiter et améliorer nos plateformes et cadres d'observabilité (Clickhouse, Thanos, Loki, Tempo, OpenTelemetry Collector + processeurs personnalisés).
- Améliorer continuellement et promouvoir l'adoption à l'échelle de l'organisation des meilleures pratiques d'observabilité, en assurant une surveillance, une journalisation et un traçage complets.
- Développer et maintenir des solutions automatisées pour la surveillance, l'alerte et la réponse aux incidents.
Optimisation du système
- Collaborer avec les équipes d'ingénierie pour comprendre leurs besoins et fournir des solutions robustes et évolutives utilisant la plateforme d'observabilité.
- Optimiser les performances du système et assurer une haute disponibilité grâce à une surveillance et une maintenance proactives.
- Développer et mettre en œuvre des stratégies d'optimisation des coûts, de planification de la capacité et d'ajustement des performances.
Innovation et amélioration
- Se tenir à jour des dernières tendances, outils et technologies de l'industrie pour favoriser l'amélioration continue.
- Expérimenter et mettre en œuvre de nouveaux outils, notamment autour de l'observabilité et de la télémétrie, pour améliorer les capacités de la plateforme.
- Évaluer et intégrer OpenTelemetry Collector lorsque cela est bénéfique pour améliorer la collecte et l'analyse des données de télémétrie.
Compétences et expérience requisesCompétences essentielles/requises
- Plateformes d'observabilité : Expérience avérée dans la gestion d'au moins une des piles d'observabilité suivantes : Thanos, Mimir, Cortex, Tempo, Loki ou Clickhouse ; avec la capacité de configurer, exploiter et améliorer ces systèmes.
- Kubernetes : Compréhension approfondie de l'architecture Kubernetes et expérience pratique dans la gestion des ressources sur des clusters.
- Helm : Expérience dans l'écriture et la maintenance de charts Helm, et compréhension des charts tiers pour déployer et gérer efficacement les ressources Kubernetes.
- GitOps : Expérience dans les pratiques de livraison continue et GitOps (contrôle de version, pipelines CI/CD).
- Développement agentique : Expérience pratique de l'utilisation de workflows IA agentiques (par exemple, GitHub Copilot, Claude Code, Cursor ou similaire) pour accélérer le travail quotidien d'ingénierie.
- Docker : Expertise en conteneurisation, orchestration et optimisation des charges de travail Docker.
Compétences souhaitables
- Expérience en codage : Connaissances en codage en Golang ou dans un langage similaire.
- Open Source : contributeur à un projet open source écrit en Golang ou dans un langage similaire.
- OpenTelemetry Collector : Connaissance de l'OpenTelemetry Collector ou contribution directe au projet.
- IA pour l'observabilité : Intérêt pour l'application de l'IA/ML au domaine de l'observabilité comme la détection d'anomalies sur les métriques et les journaux, l'analyse automatisée des causes profondes, la réduction du bruit des alertes et la corrélation, ainsi que les requêtes en langage naturel sur la télémétrie
Compétences relationnelles
- Apprentissage rapide : Capacité à assimiler rapidement de nouveaux concepts et technologies, en s'adaptant aux besoins évolutifs de l'organisation.
- Communication : Excellentes compétences en communication, avec la capacité de transmettre des concepts techniques complexes à des parties prenantes techniques et non techniques.
- Orientation client : Grande conscience des besoins des clients et de l'impact des opérations de la plateforme sur les équipes d'ingénierie internes et les utilisateurs externes.
- Esprit collaboratif : Forte capacité à travailler en collaboration dans des équipes interfonctionnelles, contribuant à une culture d'amélioration continue et d'innovation.
Formation et expérience
- Bachelor en informatique, technologies de l'information ou domaine connexe (ou expérience équivalente).
- Plus de 5 ans d'expérience en ingénierie de plateforme, ingénierie de fiabilité de site ou rôle similaire.
- Expérience démontrée dans la gestion d'infrastructures à grande échelle et de plateformes d'observabilité (telles que Thanos, Mimir, Cortex, Tempo, Loki, Clickhouse).
- Expertise technique
- Opérations de plateforme d'observabilité
- Vous êtes enthousiasmé par la perspective de gérer plus de 20 To de données de télémétrie par jour, provenant d'une flotte de plus de 10 000 nœuds (y compris des hôtes Linux, des clusters k8s, des machines virtuelles).
Ce que nous offrons :
Vous serez parmi des personnes qui croient en :
Prendre SOIN PASSIONNÉMENT de la sécurité de nos clients – Nous sommes dédiés à résoudre les problèmes. Quoi qu'il en coûte.
Penser de manière NON CONVENTIONNELLE pour rester en avance – Le monde ne cesse de nous surprendre. Alors surprenons-le en premier.
Faire le travail difficile pour rendre les choses SIMPLES – Concevoir et affiner quelque chose qui séduit par sa simplicité.
Travailler COLLABORATIVEMENT pour construire le succès – La puissance de l'équipe nous rendra toujours plus rapides et meilleurs.
En témoignage de cela, Open Systems a été reconnu comme un lieu de travail exceptionnel. Vous serez entouré d'équipes intelligentes qui enrichiront votre expérience et vous offriront les opportunités nécessaires pour développer vos compétences et faire progresser votre carrière.
Nous attendons avec impatience de recevoir votre candidature en ligne (veuillez noter que vous devez compresser votre candidature en deux pièces jointes).
Venez comme vous êtes ! Nous recherchons des personnes formidables de divers horizons, expériences, capacités et perspectives. Open Systems accueille et encourage la diversité sur le lieu de travail, quelle que soit la race, le genre, la religion, l'âge, l'orientation sexuelle, le handicap ou le statut de vétéran.
Seules les candidatures directes seront prises en compte.
À propos d'Open Systems :
Open Systems est un fournisseur international de modèles opérationnels SASE co-gérés, aidant les entreprises et organisations à exploiter en toute sécurité des environnements hybrides et multicloud complexes. Fondée en 1990 et basée en Suisse, la société génère plus de 100 millions USD de chiffre d'affaires annuel et soutient des clients d'entreprise mondiaux avec plus de 60 000 employés répartis dans plus de 180 pays.