Universität St. Gallen
St.Gallen
Assistant de recherche en science des données / Ingénieur Data Lake (h/f/d)
- 06 juin 2026
- 100%
- St.Gallen
À propos de cette offre
L'Université de Saint-Gall est une université de commerce de premier plan avec plus de 10 000 étudiants et 3 700 employés.
L'Institut suisse d'économie internationale et de recherche économique appliquée, ou SIAW-HSG en abrégé, compte environ 40 employés et est l'un des 36 instituts de l'université.
Notre focus porte sur le commerce extérieur, la macroéconomie, la fiscalité et les systèmes sociaux, l'économie publique, l'économie environnementale, l'économie financière et l'assurance.
Nous sommes responsables de la recherche, de l'enseignement et des services dans nos domaines et formons de jeunes talents pour la recherche et l'interface entre la science et la pratique.
La chaire d'économie internationale au SIAW possède une expertise en assurance, banque et risque systémique, avec un accent sur la connexion entre les connaissances académiques et la pratique réglementaire.
Conditions d'emploi- Date de début : 1er août 2026 ou selon accord
- Contrat à durée déterminée de 6 mois, avec possibilité de prolongation pour une autre période déterminée de 6 mois selon les besoins du projet et les performances
- Rémunération : Salaire compétitif conforme aux standards des universités suisses
- Environnement de travail : Le poste est intégré dans un environnement de recherche académique et implique une collaboration étroite avec les professeurs, doctorants, assistants de recherche et partenaires IT/infrastructure de données
Exigences pour la candidature
Pour commencer le processus de candidature, veuillez soumettre :- Une lettre de motivation expliquant votre intérêt pour le poste et votre expérience pertinente en science des données, ingénierie des données ou infrastructure de recherche, avec des exemples concrets des projets sur lesquels vous avez travaillé et vos rôles dans ces projets
- Un CV
- Les relevés de notes académiques, notamment du Master
- Un exemple de travail technique, tel qu'un dépôt GitHub, un projet de codage, un pipeline de données, un mémoire, un travail de séminaire ou un autre échantillon de travail pertinent
- Les noms de jusqu'à deux référents académiques ou professionnels
Les candidatures seront examinées de manière continue jusqu'à ce que le poste soit pourvu.
Vos tâches
Responsabilités et projet
Le poste soutient le développement d'un data lake de recherche pour le travail empirique avec des ensembles de données financières, textuelles, sous licence et partiellement confidentielles à grande échelle. L'objectif est de construire une infrastructure de données robuste, bien documentée et reproductible qui permette aux chercheurs d'ingérer, stocker, traiter, documenter et analyser les données de manière efficace et sécurisée.
Les tâches de recherche et d'infrastructure incluront l'ingénierie des données, le codage, la documentation et la coordination avec les chercheurs et les fournisseurs IT/plateformes. Les tâches principales comprennent, entre autres :
Conception et mise en œuvre du data lake de recherche
- Soutenir la conception d'une architecture de données évolutive pour environ 5 To de données de recherche
- Structurer les données en couches brutes, nettoyées et prêtes à l'analyse
- Développer des conventions de nommage claires, des structures de dossiers, des règles d'accès et des standards de documentation
- Assurer que le data lake supporte la conservation à long terme des données brutes et traitées
Ingestion et intégration des données
- Construire des workflows automatisés pour importer des données de fournisseurs externes, bases de données, API, livraisons de fichiers et sources maintenues par les chercheurs
- Intégrer des ensembles de données financières, textuelles et autres données de recherche sous licence dans une infrastructure cohérente
- Mettre en œuvre des contrôles de validation, journalisation, gestion des erreurs et contrôle de version pour les mises à jour des données
- Documenter la provenance des données, les licences, les fréquences de mise à jour et les restrictions d'utilisation
Automatisation des pipelines de recherche
- Développer des pipelines reproductibles pour nettoyer, transformer et préparer les ensembles de données pour la recherche empirique
- Créer des scripts et modèles réutilisables pour les tâches de données récurrentes
- Soutenir les chercheurs dans la conversion du travail manuel des données en workflows automatisés et documentés
- Contribuer aux pratiques de recherche reproductible via la gestion de code basée sur Git et une documentation claire des pipelines
Gouvernance des données, confidentialité et gestion des accès
- Aider à la mise en œuvre de procédures pour la gestion des ensembles de données sous licence et confidentielles
- Soutenir les concepts d'accès basés sur les rôles, la documentation des permissions de données et la conformité aux accords des fournisseurs
- Préparer des inventaires de données et des fichiers de métadonnées pour rendre les ensembles de données trouvables et utilisables par l'équipe de recherche
- Coordonner avec l'IT interne ou les fournisseurs de plateformes externes si nécessaire
Soutien à la recherche
- Assister les chercheurs dans la préparation des données, les contrôles de qualité, l'analyse exploratoire et le dépannage technique
- Fournir documentation et guides internes courts afin que l'infrastructure puisse être maintenue au-delà de la phase initiale du projet
- Contribuer à d'autres projets de recherche intensifs en données à la Chaire ou à l'Institut lorsque cela est approprié
Le poste convient particulièrement à un candidat souhaitant combiner science des données, ingénierie des données et recherche académique appliquée. Le rôle offre l'opportunité de construire une infrastructure de recherche de A à Z et d'acquérir de l'expérience avec des données de recherche réelles à grande échelle.
Votre profil
- Master en science des données, informatique, statistiques, économétrie, systèmes d'information ou domaine étroitement lié
- Fort intérêt pour l'infrastructure de données de recherche, l'ingénierie des données, l'automatisation des pipelines de recherche empirique et la science reproductible
- Excellentes compétences en programmation, de préférence en Python et SQL ; expérience avec R, Stata ou Matlab est un atout
- Expérience avec des outils et workflows d'ingénierie des données, tels que API, pipelines ETL/ELT, Git, Docker, automatisation des workflows, documentation des métadonnées ou environnements de recherche basés sur le cloud
- Familiarité avec les données structurées et non structurées, y compris les ensembles de données financières, les données textuelles et les systèmes de fichiers à grande échelle
- Bonne compréhension de la gouvernance des données, du contrôle d'accès, de la documentation et de la reproductibilité
- Volonté de travailler avec soin sur des données de recherche sous licence et confidentielles
- Grande motivation et capacité à travailler de manière autonome ainsi qu'en étroite collaboration avec les chercheurs et les fournisseurs d'infrastructure IT/données
- Expérience préalable avec des plateformes de science des données basées sur le cloud est un avantage
"Un lieu où le savoir se crée" - En tant que l'une des principales universités européennes d'économie et de gestion, l'Université de Saint-Gall (HSG), Suisse, s'engage à former plus de 10 000 étudiants. La HSG est l'un des plus grands employeurs de la région et offre un environnement attractif et innovant à plus de 3 500 chercheurs, enseignants et personnels professionnels.