Pully
Vor 10 Stunden
Praktikum: Testen von Datenmigrationen mit synthetischen Daten: KI-gestützter Ansatz
- 02 Mai 2026
- 100%
- Pully
Job-Zusammenfassung
Wir suchen eine*n Praktikant*in für Datenmigration in einem innovativen Unternehmen. Hier hast du die Möglichkeit, an realen Herausforderungen zu arbeiten und deine Fähigkeiten auszubauen.
Aufgaben
- Entwickle ein System zur Generierung synthetischer Testdaten.
- Gestalte Strategien für Migrationstests unter Berücksichtigung von Anonymisierung.
- Untersuche Multi-Agenten-Architekturen für die Datenpipeline.
Fähigkeiten
- Starke Python-Kenntnisse und Verständnis von Datenbanken sind erforderlich.
- Erfahrung mit relationalen Datenbanken und SQL.
- Problemlösungsfähigkeiten und technische Dokumentation.
Ist das hilfreich?
Über den Job
Beschreibung
Datenplattform-Migrationen sind in Unternehmensumgebungen üblich, bei denen von Altsystemen auf moderne Infrastrukturen umgestellt wird, während die Geschäftslogik erhalten bleibt. Die technische Herausforderung besteht nicht nur in der Syntaxübersetzung, sondern in der Validierung. Wenn Entwickler SQL-Skripte oder Datenpipelines zwischen Plattformen migrieren, stehen sie vor unterschiedlichen Ausführungsumgebungen, geänderten Datenzugriffsrechten und keiner sicheren Möglichkeit, gegen Produktionsdaten zu testen.
Dieses Praktikum beschäftigt sich mit der Generierung synthetischer Daten für das Testen von Migrationsskripten. Sie entwerfen und implementieren ein System, das realistische Testdatensätze erzeugt, die die Struktur und das Verhalten der Produktion widerspiegeln, ohne sensible Informationen preiszugeben. Es gibt verschiedene Ansätze, es könnte ein kleiner Datensatz sein, der in einem Git-Repository lebt, oder ein vollwertiges synthetisches Data Warehouse. Dennoch müssen die Daten realistisch genug sein, um echte Fehler zu erkennen.
Die Herausforderung geht über einfaches Daten-Mocking hinaus. Sie müssen entscheiden, ob Sie aus echten Daten generieren (Risiken der Anonymisierung), nur aus der Abfrageanalyse (erfordert gute Dokumentation) oder hybride Ansätze verwenden. Sollten kategoriale Werte exakt der Produktion entsprechen oder können wir sie ersetzen und die Skripte anpassen? Können wir Unit-Tests auf End-to-End-Tests erweitern und welche Eigenschaften müsste der Datensatz dafür haben?
Ein Teil der Arbeit umfasst die Etablierung einer Evaluierungsmethodik—möglicherweise das Sammeln eines Referenzsatzes von Migrationsskripten und deren erwarteten Verhaltensweisen, um zu messen, wie gut verschiedene synthetische Datenansätze echte Probleme erkennen. Es besteht Potenzial, Multi-Agenten-Architekturen zu erforschen, bei denen spezialisierte Agenten verschiedene Aspekte übernehmen: Schema-Analyse, Einschränkungsextraktion, Datengenerierung, Anonymisierungsprüfung und Testvalidierung. Dies ist angewandte Forschung mit unmittelbarer Produktionsrelevanz.
Ziele
- Entwicklung einer Strategie für das Testen von Migrationsskripten, die Realismus, Anonymisierung und praktische Einschränkungen ausbalanciert
- Implementierung eines Proof-of-Concept-Systems, das Testdatensätze aus Schemadokumentation, bestehenden Abfragen oder (vorsichtig) gesampelten Produktionsdaten generiert
- Definition von Teststrategien: Unit-Tests vs. End-to-End-Tests, minimale Datenmengen usw.
- Entwicklung einer Evaluierungsmethodik zur Messung der Effektivität verschiedener Ansätze zur Generierung synthetischer Daten
- Erforschung von Multi-Agenten-Architekturen zur Zerlegung der Generierungspipeline in spezialisierte Komponenten (Schema-Analyse, Einschränkungszufriedenheit, Validierung)
Unser Angebot
- Ein dynamisches Arbeits- und Kollaborationsumfeld mit einem hochmotivierten multikulturellen und internationalen Standortteam
- Die Chance, das Leben von Menschen durch den Aufbau innovativer Lösungen zu verändern
- Verschiedene interne Coding-Events (Hackathon, Brownbags), siehe unseren technischen Blog
- Monatliche After-Work-Veranstaltungen an den Standorten
Erforderliche Fähigkeiten
- Fundierte Python-Programmierung: Datenverarbeitung, Testmuster, CI/CD-Integration
- Verständnis relationaler Datenbanken, SQL und Datenmodellierungskonzepte
- Erfahrung mit LLMs und agentischen Systemen: Prompting, Werkzeugnutzung, Multi-Agenten-Orchestrierung
- Vertrautheit mit Datensicherheit und Konzepten der Datenanonymisierung
- Problemlösungsorientierte Denkweise: Umgang mit unklaren Anforderungen und fundierte technische Abwägungen
- Klare technische Schreib- und Dokumentationsfähigkeiten
Über das Unternehmen
Pully