Concepteur Développeur Big Data
Ile de France, Paris (75000)
Mis en ligne le 4 décembre 2025 par Marie Calvert (+ d'offres)
DGTL PerformanceType de contrat :CDI
Métier :Développeur informatique
Expérience :Débutant accepté
Type d'entreprise :Autre type d'entreprise (client final)
Localisation :Ile de France, Paris (75000)
Télétravail :Pas de télétravail
Poste à pourvoir
Analyse des besoins et des cas d'usages :
Participer aux réunions de lancement de projet pour comprendre les objectifs business organisés par les solutions manager RH et Finance
Analyser et formaliser les besoins fonctionnels et techniques en collaboration avec les architectes et les chefs de projet
Rédiger les spécifications techniques liées à la solution à implémenter.
Conception et développement des pipelines de données :
Concevoir des solutions de traitement de données en utilisant les technologies adaptées : Apache Spark, Hadoop, Databricks et Snowflake.
Implémenter des pipelines ETL/ELT performants et évolutifs pour le traitement et le stockage des données.
Intégrer les sources de données, les API, et autres systèmes externes.
Garantir la qualité des données à travers des mécanismes de validation et de contrôle de qualité.
Déploiement et configuration des environnements de traitement :
Configurer et déployer les environnements nécessaires sur des infrastructures cloud (AWS, Azure, GCP) ou sur des clusters Hadoop/Spark.
Utiliser Databricks pour optimiser les workflows et automatiser les processus de traitement des données.
Gérer les accès aux systèmes et assurer la sécurité des données traitées.
Optimisation des performances :
Analyser les performances des solutions développées et proposer des axes d'optimisation.
Ajuster les configurations des clusters et des environnements (ex. ajustement des ressources pour Spark).
Appliquer les bonnes pratiques de partitionnement, de parallélisme et de gestion des ressources pour améliorer les temps de réponse.
Assurance qualité et tests :
Mettre en place des tests unitaires et des tests d'intégration pour garantir la qualité des pipelines de données.
Assurer un suivi des erreurs et des alertes sur les traitements de données.
Réaliser des revues de code régulières et veiller à la documentation des développements.
Maintenance évolutive et support :
Assurer la maintenance des solutions en production et intervenir pour résoudre les incidents de données.
Implémenter les évolutions demandées par les utilisateurs ou en fonction des nouvelles technologies disponibles.
Assurer une veille technologique pour adapter les solutions aux nouvelles versions des outils utilisés.
Documentation
Spécifications techniques : Un document détaillant la conception technique des pipelines de données et des processus d'intégration, incluant des diagrammes d'architecture et des flux de données.
Code source et scripts : Le code source des solutions développées dans les technologies utilisées (Spark, Hadoop, Databricks, Snowflake...
Scripts de configuration et d'automatisation des tâches de traitement (déploiement, intégration, tests).
Tests et validation : Une couverture de tests (unitaires et d'intégration) permettant de valider la qualité du code et le bon fonctionnement des cas d'usages.
Un rapport de tests avec les résultats des différents tests effectués sur les pipelines de données.
Documentation technique et d'exploitation : Documentation détaillée sur le fonctionnement des solutions déployées, incluant des procédures de mise à jour et de maintenance. Manuel utilisateur ou guide d'exploitation des pipelines, décrivant les interfaces de données et les processus métiers.
Rapport de performance : Un rapport d'analyse des performances des pipelines de données, avec des recommandations d'optimisation, des temps de traitement avant et après optimisation, etc.
Suivi des incidents et des corrections : Un suivi détaillé des incidents rencontrés en production, des actions correctives mises en place, et des évolutions apportées.
Livraison et mise en production : Livraison des solutions de données testées, validées et prêtes à être mises en production.
Mise en place d'un plan de déploiement avec une procédure de rollback en cas de problème
Participer aux réunions de lancement de projet pour comprendre les objectifs business organisés par les solutions manager RH et Finance
Analyser et formaliser les besoins fonctionnels et techniques en collaboration avec les architectes et les chefs de projet
Rédiger les spécifications techniques liées à la solution à implémenter.
Conception et développement des pipelines de données :
Concevoir des solutions de traitement de données en utilisant les technologies adaptées : Apache Spark, Hadoop, Databricks et Snowflake.
Implémenter des pipelines ETL/ELT performants et évolutifs pour le traitement et le stockage des données.
Intégrer les sources de données, les API, et autres systèmes externes.
Garantir la qualité des données à travers des mécanismes de validation et de contrôle de qualité.
Déploiement et configuration des environnements de traitement :
Configurer et déployer les environnements nécessaires sur des infrastructures cloud (AWS, Azure, GCP) ou sur des clusters Hadoop/Spark.
Utiliser Databricks pour optimiser les workflows et automatiser les processus de traitement des données.
Gérer les accès aux systèmes et assurer la sécurité des données traitées.
Optimisation des performances :
Analyser les performances des solutions développées et proposer des axes d'optimisation.
Ajuster les configurations des clusters et des environnements (ex. ajustement des ressources pour Spark).
Appliquer les bonnes pratiques de partitionnement, de parallélisme et de gestion des ressources pour améliorer les temps de réponse.
Assurance qualité et tests :
Mettre en place des tests unitaires et des tests d'intégration pour garantir la qualité des pipelines de données.
Assurer un suivi des erreurs et des alertes sur les traitements de données.
Réaliser des revues de code régulières et veiller à la documentation des développements.
Maintenance évolutive et support :
Assurer la maintenance des solutions en production et intervenir pour résoudre les incidents de données.
Implémenter les évolutions demandées par les utilisateurs ou en fonction des nouvelles technologies disponibles.
Assurer une veille technologique pour adapter les solutions aux nouvelles versions des outils utilisés.
Documentation
Spécifications techniques : Un document détaillant la conception technique des pipelines de données et des processus d'intégration, incluant des diagrammes d'architecture et des flux de données.
Code source et scripts : Le code source des solutions développées dans les technologies utilisées (Spark, Hadoop, Databricks, Snowflake...
Scripts de configuration et d'automatisation des tâches de traitement (déploiement, intégration, tests).
Tests et validation : Une couverture de tests (unitaires et d'intégration) permettant de valider la qualité du code et le bon fonctionnement des cas d'usages.
Un rapport de tests avec les résultats des différents tests effectués sur les pipelines de données.
Documentation technique et d'exploitation : Documentation détaillée sur le fonctionnement des solutions déployées, incluant des procédures de mise à jour et de maintenance. Manuel utilisateur ou guide d'exploitation des pipelines, décrivant les interfaces de données et les processus métiers.
Rapport de performance : Un rapport d'analyse des performances des pipelines de données, avec des recommandations d'optimisation, des temps de traitement avant et après optimisation, etc.
Suivi des incidents et des corrections : Un suivi détaillé des incidents rencontrés en production, des actions correctives mises en place, et des évolutions apportées.
Livraison et mise en production : Livraison des solutions de données testées, validées et prêtes à être mises en production.
Mise en place d'un plan de déploiement avec une procédure de rollback en cas de problème
Profil recherché
Compétences requises :
Big data,
Hadoop database,
Spark ,
Python,
PostGreSQL,databricks
Big data,
Hadoop database,
Spark ,
Python,
PostGreSQL,databricks
Description de la société
DGTL / Signe + est le facilitateur pour tous les acteurs qui recherchent des ressources ou des missions DATA.
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com
Spécialiste du marché Data et BI, nous intervenons dans toute la France comme à l'étranger ; en sous-traitance, pré-embauche, recrutement, portage commercial, portage salarial, etc.
Depuis 2018, nous accompagnons nos clients avec proximité, juste prix et préoccupation éthique de tous les instants.
https://www.dgtl-performance.com