? Data Engineer - Databricks / PySpark / Lakehouse (H/F)
Ile de France, Paris (75000)
Mis en ligne le 26 juin 2026 par Marie Calvert (+ d'offres)
DGTL PerformanceType de contrat :CDI
Métier :Développeur informatique
Expérience :5 ans minimum
Type d'entreprise :Autre type d'entreprise (client final)
Localisation :Ile de France, Paris (75000)
Télétravail :Pas de télétravail
Poste à pourvoir
Dans le cadre d'un projet de transformation data d'envergure au sein d'un grand groupe du secteur de l'énergie, nous recherchons un Data Engineer confirmé pour renforcer une équipe spécialisée dans la modernisation et l'industrialisation de la plateforme de données, articulée autour de Databricks et d'une architecture Lakehouse.
Vous intégrerez une équipe pluridisciplinaire (Data Engineers, Data Analysts, Data Scientists, équipes métier) évoluant dans un environnement Agile, avec des enjeux forts de fiabilité, de performance et de gouvernance des données. La mission couvre à la fois des dimensions d'architecture, de développement de pipelines, d'administration de la plateforme Databricks et de mise en conformité avec les standards de qualité et de sécurité de la donnée. Vous contribuerez activement à la standardisation des pratiques d'ingénierie data, à la documentation des flux et modèles, ainsi qu'à l'accompagnement des utilisateurs dans l'adoption des outils.
Responsabilités :
- Concevoir et développer des pipelines de données robustes sur Databricks (PySpark, Spark SQL, Delta Live Tables)
- Mettre en place et faire évoluer des architectures Lakehouse reposant sur Delta Lake
- Industrialiser les workflows ETL/ELT via Databricks Workflows, en assurant fiabilité, scalabilité et maintenabilité
- Administrer l'espace de travail Databricks : gestion des workspaces, clusters, permissions et accès utilisateurs
- Optimiser les coûts de la plateforme grâce à la configuration fine des clusters, à l'autoscaling et au monitoring
- Implémenter les bonnes pratiques de sécurité et de gouvernance (Unity Catalog, gestion des accès, data lineage)
- Mettre en œuvre des mécanismes de qualité et de validation des données (expectations, tests, contrôles de fraîcheur)
- Documenter les modèles de données et les flux au sein de la plateforme
- Collaborer étroitement avec les équipes Data Analytics, Data Science et métier pour comprendre et répondre aux besoins fonctionnels
- Participer aux revues de code, à la définition des standards et au partage des bonnes pratiques au sein de l'équipe
- Accompagner les utilisateurs dans la montée en compétences et l'adoption de l'environnement Databricks
Vous intégrerez une équipe pluridisciplinaire (Data Engineers, Data Analysts, Data Scientists, équipes métier) évoluant dans un environnement Agile, avec des enjeux forts de fiabilité, de performance et de gouvernance des données. La mission couvre à la fois des dimensions d'architecture, de développement de pipelines, d'administration de la plateforme Databricks et de mise en conformité avec les standards de qualité et de sécurité de la donnée. Vous contribuerez activement à la standardisation des pratiques d'ingénierie data, à la documentation des flux et modèles, ainsi qu'à l'accompagnement des utilisateurs dans l'adoption des outils.
Responsabilités :
- Concevoir et développer des pipelines de données robustes sur Databricks (PySpark, Spark SQL, Delta Live Tables)
- Mettre en place et faire évoluer des architectures Lakehouse reposant sur Delta Lake
- Industrialiser les workflows ETL/ELT via Databricks Workflows, en assurant fiabilité, scalabilité et maintenabilité
- Administrer l'espace de travail Databricks : gestion des workspaces, clusters, permissions et accès utilisateurs
- Optimiser les coûts de la plateforme grâce à la configuration fine des clusters, à l'autoscaling et au monitoring
- Implémenter les bonnes pratiques de sécurité et de gouvernance (Unity Catalog, gestion des accès, data lineage)
- Mettre en œuvre des mécanismes de qualité et de validation des données (expectations, tests, contrôles de fraîcheur)
- Documenter les modèles de données et les flux au sein de la plateforme
- Collaborer étroitement avec les équipes Data Analytics, Data Science et métier pour comprendre et répondre aux besoins fonctionnels
- Participer aux revues de code, à la définition des standards et au partage des bonnes pratiques au sein de l'équipe
- Accompagner les utilisateurs dans la montée en compétences et l'adoption de l'environnement Databricks
Profil recherché
Indispensables :
- Maîtrise de PySpark et/ou Spark SQL pour le développement de pipelines de données à grande échelle
- Expérience significative sur la plateforme Databricks : pipelines, clusters, notebooks, Unity Catalog
- Bonne connaissance des architectures Lakehouse et du format Delta Lake
- Solides compétences en ETL/ELT, data modeling et ingestion de données (batch et streaming)
- Connaissance d'au moins un environnement cloud : Azure, AWS ou GCP
- Maîtrise de Git et des pratiques CI/CD (Azure DevOps, GitHub Actions ou équivalent)
- Formation Bac+5 en informatique, data ou domaine équivalent
- Expérience de 2 à 5 ans en data engineering ou sur des missions centrées sur la plateforme Databricks
- Capacité à travailler en équipe transverse, sens aigu de la documentation et autonomie dans la gestion des tâches
Fortement appréciés :
- Connaissances en MLflow, orchestration de modèles et pratiques MLOps
- Notions en DataOps, optimisation des coûts cloud et mise en place de dispositifs de monitoring
- Expérience en exploitation et intégration d'APIs REST dans des pipelines de données
- Pratique de l'ingestion de données en temps réel, notamment via Apache Kafka ou des technologies équivalentes
- Appétence pour la veille technologique et la contribution à l'amélioration continue des pratiques d'ingénierie data
- Maîtrise de PySpark et/ou Spark SQL pour le développement de pipelines de données à grande échelle
- Expérience significative sur la plateforme Databricks : pipelines, clusters, notebooks, Unity Catalog
- Bonne connaissance des architectures Lakehouse et du format Delta Lake
- Solides compétences en ETL/ELT, data modeling et ingestion de données (batch et streaming)
- Connaissance d'au moins un environnement cloud : Azure, AWS ou GCP
- Maîtrise de Git et des pratiques CI/CD (Azure DevOps, GitHub Actions ou équivalent)
- Formation Bac+5 en informatique, data ou domaine équivalent
- Expérience de 2 à 5 ans en data engineering ou sur des missions centrées sur la plateforme Databricks
- Capacité à travailler en équipe transverse, sens aigu de la documentation et autonomie dans la gestion des tâches
Fortement appréciés :
- Connaissances en MLflow, orchestration de modèles et pratiques MLOps
- Notions en DataOps, optimisation des coûts cloud et mise en place de dispositifs de monitoring
- Expérience en exploitation et intégration d'APIs REST dans des pipelines de données
- Pratique de l'ingestion de données en temps réel, notamment via Apache Kafka ou des technologies équivalentes
- Appétence pour la veille technologique et la contribution à l'amélioration continue des pratiques d'ingénierie data
Description de la société
DGTL / Signe + est le facilitateur pour tous les acteurs qui recherchent des ressources ou des missions DATA.
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com