Praktikum: Testen von Datenmigrationen mit synthetischen Daten: KI-gestützter Ansatz

02 Mai 2026
100%
Pully

Job-Zusammenfassung

Wir suchen eine*n Praktikant*in für Datenmigration in einem innovativen Unternehmen. Hier hast du die Möglichkeit, an realen Herausforderungen zu arbeiten und deine Fähigkeiten auszubauen.

Aufgaben

Entwickle ein System zur Generierung synthetischer Testdaten.
Gestalte Strategien für Migrationstests unter Berücksichtigung von Anonymisierung.
Untersuche Multi-Agenten-Architekturen für die Datenpipeline.

Fähigkeiten

Starke Python-Kenntnisse und Verständnis von Datenbanken sind erforderlich.
Erfahrung mit relationalen Datenbanken und SQL.
Problemlösungsfähigkeiten und technische Dokumentation.

Ist das hilfreich?

Über den Job

Beschreibung

Datenplattform-Migrationen sind in Unternehmensumgebungen üblich, bei denen von Altsystemen auf moderne Infrastrukturen umgestellt wird, während die Geschäftslogik erhalten bleibt. Die technische Herausforderung besteht nicht nur in der Syntaxübersetzung, sondern in der Validierung. Wenn Entwickler SQL-Skripte oder Datenpipelines zwischen Plattformen migrieren, stehen sie vor unterschiedlichen Ausführungsumgebungen, geänderten Datenzugriffsrechten und keiner sicheren Möglichkeit, gegen Produktionsdaten zu testen.

Dieses Praktikum beschäftigt sich mit der Generierung synthetischer Daten für das Testen von Migrationsskripten. Sie entwerfen und implementieren ein System, das realistische Testdatensätze erzeugt, die die Struktur und das Verhalten der Produktion widerspiegeln, ohne sensible Informationen preiszugeben. Es gibt verschiedene Ansätze, es könnte ein kleiner Datensatz sein, der in einem Git-Repository lebt, oder ein vollwertiges synthetisches Data Warehouse. Dennoch müssen die Daten realistisch genug sein, um echte Fehler zu erkennen.

Die Herausforderung geht über einfaches Daten-Mocking hinaus. Sie müssen entscheiden, ob Sie aus echten Daten generieren (Risiken der Anonymisierung), nur aus der Abfrageanalyse (erfordert gute Dokumentation) oder hybride Ansätze verwenden. Sollten kategoriale Werte exakt der Produktion entsprechen oder können wir sie ersetzen und die Skripte anpassen? Können wir Unit-Tests auf End-to-End-Tests erweitern und welche Eigenschaften müsste der Datensatz dafür haben?

Ein Teil der Arbeit umfasst die Etablierung einer Evaluierungsmethodik—möglicherweise das Sammeln eines Referenzsatzes von Migrationsskripten und deren erwarteten Verhaltensweisen, um zu messen, wie gut verschiedene synthetische Datenansätze echte Probleme erkennen. Es besteht Potenzial, Multi-Agenten-Architekturen zu erforschen, bei denen spezialisierte Agenten verschiedene Aspekte übernehmen: Schema-Analyse, Einschränkungsextraktion, Datengenerierung, Anonymisierungsprüfung und Testvalidierung. Dies ist angewandte Forschung mit unmittelbarer Produktionsrelevanz.

Ziele

Entwicklung einer Strategie für das Testen von Migrationsskripten, die Realismus, Anonymisierung und praktische Einschränkungen ausbalanciert
Implementierung eines Proof-of-Concept-Systems, das Testdatensätze aus Schemadokumentation, bestehenden Abfragen oder (vorsichtig) gesampelten Produktionsdaten generiert
Definition von Teststrategien: Unit-Tests vs. End-to-End-Tests, minimale Datenmengen usw.
Entwicklung einer Evaluierungsmethodik zur Messung der Effektivität verschiedener Ansätze zur Generierung synthetischer Daten
Erforschung von Multi-Agenten-Architekturen zur Zerlegung der Generierungspipeline in spezialisierte Komponenten (Schema-Analyse, Einschränkungszufriedenheit, Validierung)

Unser Angebot

Ein dynamisches Arbeits- und Kollaborationsumfeld mit einem hochmotivierten multikulturellen und internationalen Standortteam
Die Chance, das Leben von Menschen durch den Aufbau innovativer Lösungen zu verändern
Verschiedene interne Coding-Events (Hackathon, Brownbags), siehe unseren technischen Blog
Monatliche After-Work-Veranstaltungen an den Standorten

Erforderliche Fähigkeiten

Fundierte Python-Programmierung: Datenverarbeitung, Testmuster, CI/CD-Integration
Verständnis relationaler Datenbanken, SQL und Datenmodellierungskonzepte
Erfahrung mit LLMs und agentischen Systemen: Prompting, Werkzeugnutzung, Multi-Agenten-Orchestrierung
Vertrautheit mit Datensicherheit und Konzepten der Datenanonymisierung
Problemlösungsorientierte Denkweise: Umgang mit unklaren Anforderungen und fundierte technische Abwägungen
Klare technische Schreib- und Dokumentationsfähigkeiten

Über das Unternehmen

Elca informatique SA

Pully

Firmenprofil ansehen

Informatik / Telekommunikation

Anzahl der Mitarbeiter unbekannt

46 Jobs

Praktikum: Testen von Datenmigrationen mit synthetischen Daten: KI-gestützter Ansatz

Aufgaben

Fähigkeiten

Über den Job

Über das Unternehmen

Lohnrechner