Data Engineer Senior Databricks / GCP (H/F)
Ile de France, Meudon (92190)
Mis en ligne le 3 juillet 2026 par Marie Calvert (+ d'offres)
DGTL PerformanceType de contrat :CDI
Métier :Développeur informatique
Expérience :5 ans minimum
Type d'entreprise :Autre type d'entreprise (client final)
Localisation :Ile de France, Meudon (92190)
Télétravail :Pas de télétravail
Poste à pourvoir
Nous recherchons un Data Engineer Senior pour intervenir chez notre client, un acteur de premier plan dans son secteur, dans le cadre d'un projet de data engineering à forte valeur ajoutée s'appuyant sur une stack moderne centrée autour de Databricks et Google Cloud Platform.
Au sein d'une équipe pluridisciplinaire (chefs de projet, architectes, DevOps, Data Engineers), vous prenez en charge la conception, le développement et l'optimisation de pipelines d'intégration de données en modes batch et streaming. Le projet s'inscrit dans un environnement Agile, favorisant la collaboration, le partage de connaissances et l'amélioration continue. Vous contribuez activement à la fiabilité et à la performance de la plateforme data en production, tout en veillant à la bonne gouvernance des données et à la maîtrise des coûts cloud.
La mission se déroule en présentiel partiel (3 jours par semaine sur site à Meudon), pour une durée courant jusqu'au 31 décembre 2026.
Responsabilités :
- Concevoir et développer des pipelines d'intégration de données en PySpark, Spark et Python, en modes streaming et batch sur la plateforme Databricks
- Administrer et optimiser l'environnement Databricks : gestion des catalogues Unity Catalog, tables Delta, optimisation des jobs et des clusters
- Mettre en œuvre et maintenir les chaînes CI/CD (GitHub, Azure DevOps, Databricks Bundles) ainsi que les mécanismes d'orchestration des workflows
- Assurer le data management et la sécurité des données au sein de la plateforme (contrôle d'accès, gouvernance, qualité des données)
- Optimiser l'utilisation des ressources cloud GCP et Databricks dans une logique FinOps, et mettre en place des dashboards de suivi des coûts et de la consommation
- Participer aux astreintes et assurer le support en production de l'application
- Contribuer à la montée en compétences de l'équipe via la formation interne, le partage de bonnes pratiques et la rédaction de documentation technique
Au sein d'une équipe pluridisciplinaire (chefs de projet, architectes, DevOps, Data Engineers), vous prenez en charge la conception, le développement et l'optimisation de pipelines d'intégration de données en modes batch et streaming. Le projet s'inscrit dans un environnement Agile, favorisant la collaboration, le partage de connaissances et l'amélioration continue. Vous contribuez activement à la fiabilité et à la performance de la plateforme data en production, tout en veillant à la bonne gouvernance des données et à la maîtrise des coûts cloud.
La mission se déroule en présentiel partiel (3 jours par semaine sur site à Meudon), pour une durée courant jusqu'au 31 décembre 2026.
Responsabilités :
- Concevoir et développer des pipelines d'intégration de données en PySpark, Spark et Python, en modes streaming et batch sur la plateforme Databricks
- Administrer et optimiser l'environnement Databricks : gestion des catalogues Unity Catalog, tables Delta, optimisation des jobs et des clusters
- Mettre en œuvre et maintenir les chaînes CI/CD (GitHub, Azure DevOps, Databricks Bundles) ainsi que les mécanismes d'orchestration des workflows
- Assurer le data management et la sécurité des données au sein de la plateforme (contrôle d'accès, gouvernance, qualité des données)
- Optimiser l'utilisation des ressources cloud GCP et Databricks dans une logique FinOps, et mettre en place des dashboards de suivi des coûts et de la consommation
- Participer aux astreintes et assurer le support en production de l'application
- Contribuer à la montée en compétences de l'équipe via la formation interne, le partage de bonnes pratiques et la rédaction de documentation technique
Profil recherché
Indispensables :
- Maîtrise avancée de Databricks : administration de la plateforme, gestion des catalogues (Unity Catalog), format Delta Lake, optimisation des jobs et des ressources
- Solide expérience en développement PySpark, Spark et Python pour des traitements de données en batch et en streaming
- Bonne maîtrise de SQL pour la manipulation et la transformation de données à grande échelle
- Pratique de GIT et des outils de versioning dans un contexte de développement collaboratif
- Connaissance de GCP et de ses services clés : Google Cloud Storage (GCS), Pub/Sub, Google Kubernetes Engine (GKE), et les mécanismes d'alerting associés
- Expérience en mise en place de pipelines CI/CD (GitHub Actions, Azure DevOps, Databricks Bundles)
- Capacité à travailler en équipe pluridisciplinaire, excellentes aptitudes à la communication et au partage de connaissances
Fortement appréciés :
- Expérience en orchestration de workflows de données (ex. : Databricks Workflows, Apache Airflow ou équivalent)
- Connaissance des pratiques FinOps appliquées aux environnements cloud (suivi des coûts, optimisation des ressources GCP / Databricks)
- Appétence pour la gouvernance et la qualité des données (data contracts, data quality checks)
- Expérience dans un contexte de support et d'astreinte en production
- Capacité à rédiger une documentation technique claire et à animer des sessions de knowledge sharing
- Intérêt marqué pour les nouvelles évolutions de l'écosystème data (Lakehouse, Delta Sharing, etc.)
- Maîtrise avancée de Databricks : administration de la plateforme, gestion des catalogues (Unity Catalog), format Delta Lake, optimisation des jobs et des ressources
- Solide expérience en développement PySpark, Spark et Python pour des traitements de données en batch et en streaming
- Bonne maîtrise de SQL pour la manipulation et la transformation de données à grande échelle
- Pratique de GIT et des outils de versioning dans un contexte de développement collaboratif
- Connaissance de GCP et de ses services clés : Google Cloud Storage (GCS), Pub/Sub, Google Kubernetes Engine (GKE), et les mécanismes d'alerting associés
- Expérience en mise en place de pipelines CI/CD (GitHub Actions, Azure DevOps, Databricks Bundles)
- Capacité à travailler en équipe pluridisciplinaire, excellentes aptitudes à la communication et au partage de connaissances
Fortement appréciés :
- Expérience en orchestration de workflows de données (ex. : Databricks Workflows, Apache Airflow ou équivalent)
- Connaissance des pratiques FinOps appliquées aux environnements cloud (suivi des coûts, optimisation des ressources GCP / Databricks)
- Appétence pour la gouvernance et la qualité des données (data contracts, data quality checks)
- Expérience dans un contexte de support et d'astreinte en production
- Capacité à rédiger une documentation technique claire et à animer des sessions de knowledge sharing
- Intérêt marqué pour les nouvelles évolutions de l'écosystème data (Lakehouse, Delta Sharing, etc.)
Description de la société
DGTL / Signe + est le facilitateur pour tous les acteurs qui recherchent des ressources ou des missions DATA.
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com