Health Data Hub Is Hiring!

Référent données / data engineer H/F

À propos

Comment améliorer les dépistages et faire en sorte que les patients soient pris en charge le plus tôt possible ?
Comment leur proposer les meilleurs traitements sur le long cours ?
Comment appuyer les professionnels de santé dans un contexte clinique qui se complexifie ou en cas de crise sanitaire ?

L’Intelligence Artificielle et les données de santé font partie de la réponse. Elles sont incontournables pour la recherche et l’innovation en santé. Par exemple, pour prévenir des insuffisances cardiaques à partir de données issues d’appareils connectés, ou pour accélérer le dépistage du cancer du sein à partir d’analyses automatiques des examens de mammographies. Ou même pour réunir assez d’informations afin d’améliorer la prise en charge des maladies rares.

Et pour ça, la France a la chance de disposer de bases de données extrêmement riches !

Mais ces données sont souvent sous exploitées car dispersées. Grâce à des solutions innovantes telles que l’IA, l'objectif du Health Data Hub est justement de permettre d'accéder de manière facilitée; unifiée, transparente et sécurisée à un catalogue de bases de données de santé françaises.

Comment ?
Le Health Data Hub a mis en place une plateforme technologique qui met à disposition des porteurs de projets d’intérêt public, dans un environnement technologique sécurisé et à l’état de l’art, les données de santé pseudonymisées des français. Ces porteurs de projets vont mobiliser des sources de données très volumineuses, les croiser entre elles, et utiliser une puissance de calcul pour faire tourner des algorithmes de recherche complexes. Il s’agit par exemple de projets de start-up pour améliorer des logiciels d’aide au professionnel de santé, de projets permettant d’améliorer la prise en charge des patients en comparant l’efficacité de prise en charge, de projets portés par les administrations pour éclairer les politiques publiques.
Notre offre technologique, en constante évolution, peut être consultée ici.
Les défis sont de taille pour traiter ces données de santé sensibles, volumineuses de natures et formats variables. La plateforme doit être un levier d'innovation dans l'écosystème de la donnée de santé français.

En résumé, avec le Hub, nous accompagnons des porteurs de projets innovants qui contribuent à trouver les solutions de demain pour améliorer la santé de tous les citoyens.

Descriptif du poste

Direction des données : Pour mener à bien les missions qui lui ont été confiées, le Health Data Hub a formé la direction des données dont les objectifs principaux sont de :

  • Définir des stratégies novatrices sur la gestion, l’exploitation et le partage de données de santé, permettant de réaliser la vision du HDH ;

  • Partager et mutualiser les outils et les connaissances nécessaires à l’analyse des données de santé, dans le cadre d’une démarche open source.

  • Gérer et mettre à disposition les données qui lui sont confiées aux porteurs de projet au sein de la plateforme technologique du Health Data Hub ;

  • Soutenir les projets d’intérêt public que le HDH accompagne, aussi bien sur la compréhension des données de santé que sur leur exploitation via des experts des données de santé, des data scientists et des data engineers.

Pôle “Gestion des données” :

Pour répondre à la troisième mission qui lui a été conférée et définir une approche claire pour l’écosystème de la santé, la direction des données s’est dotée d’un pôle “Gestion des données”. Ce pôle est responsable de l’intégralité du cycle de vie des données, et se structure autour des chantiers suivants :

  • Traitement des données de santé massives et diverses transmises par les porteurs de projet à la plateforme technologique du Health Data Hub ;

  • Gestion et mise en qualité des données de santé stockées dans la plateforme technologique du Health Data Hub ;

  • Développement de librairies en Python ou R pour faciliter, automatiser et systématiser les traitements des données cités précédemment ;

  • Analyses exploratoires de nouvelles fonctionnalités et applications (e.g., cluster spark, lecteur d’images spécifiques au secteur de la santé) à intégrer à la plateforme technologique du Health Data Hub.

Ces missions sont essentielles pour garantir la fiabilité des recherches menées sur la plateforme technologique et présentent d’importants défis au regard du caractère hétérogène des données manipulées (e.g., données médico-administratives, imagerie médicale, compte-rendus médicaux) et des efforts nécessaires pour les rendre utilisables.

Activités du poste : En tant que data engineer ayant le rôle de “référent des données”, au sein du pôle “Gestion des données”, vous aurez pour missions de : réaliser les traitements nécessaires pour la bonne gestion du parcours des données présentes sur la plateforme technologique du Health Data Hub :

  • collaborer conjointement avec la Direction Projets et Services utilisateurs et prendre connaissance du protocole scientifique et des buts premiers de chacun des projets accompagner. Cette phase s’accompagne d’une découverte du ou des jeu(x) de données complet(s) tant au niveau fonctionnel qu’au niveau technique;

  • documenter et définir les conditions d’import des données sur la plateforme, en relation avec des acteurs externes (producteurs de données, porteurs de projets de recherche) ;

  • travailler dans la plateforme technologique du Health Data Hub ;

  • utiliser les librairies existantes et les compléter pour développer des scripts Python et PySpark permettant de manipuler des grande quantite de données (~To) sous différentes formats (e.g., tabulaires, texte libre, images, JSON) reçues sur la plateforme technologique.

  • vérifier l’intégrité, confidentialité et conformité à certains critères de qualité définis en amont ainsi que de de les préparer pour leur mise à disposition (e.g., reformatage, jointure, transformation) ;

  • contribuer à la documentation de ces opérations.

  • développer et gérer les outils logiciels internes à la direction des données : définir l’architecture des librairies logicielles servant à automatiser les étapes de traitement des données ;

développer, documenter, tester et maintenir ces librairies ;

  • optimiser le traitement de jeux de données de grande taille (plusieurs téraoctets) pour minimiser les coûts et délais de traitement ;

  • adapter les librairies pour permettre de traitement de données diverses (comptes-rendus médicaux, images d’IRM, bases hospitalières, bases nationales) ;

  • collaborer avec le reste du pôle en suivant la méthodologie Agile-scrum (gestion d'un backlog, rituels scrum, etc.) en s’appuyant sur des pratiques de développement à l’état de l’art (notamment, intégration continue via GitLab).

développer et gérer les outils à destination des utilisateurs de la plateforme

  • accompagner l’équipe produit dans l’identification ou l’étude de nouvelles fonctionnalités à intégrer à la plateforme technologique auprès des utilisateurs (e.g., producteurs de données, porteurs de projets, équipe des référents des données) pour garantir un service adapté, et inscrire les demandes de nouveaux développements ou rapports de bugs dans le backlog produit ;

  • tester, via le développement de prototypes, de nouvelles technologies à intégrer à l’offre technologique de la plateforme pour répondre aux mieux aux besoins des utilisateurs, en collaboration avec les équipes Produit et Plateforme du Health Data Hub ;

  • configurer, une fois le prototype validé, la technologie avant son intégration dans la plateforme technologique par la Direction technique du Health Data Hub.

La tech stack (pile de technologies) utilisée pour ces missions sera principalement :

  • Python comme langage de programmation généraliste notebooks Jupyter pour accéder à la plateforme et organiser la documentation d’utilisation (tutoriels) pandas pour l’analyse des données CSV de petite taille et Spark / pyspark pour les données volumineuses pytest pour les tests de librairies

  • Gitlab pour la gestion du développement et l’intégration continue

  • Microsoft Azure pour le stockage et le requêtage de données volumineuses

  • Suite Google pour la bureautique (Google Docs, Google Sheets, etc.)

Pour les besoins des utilisateurs externes, certaines librairies sont également développées et maintenues en R / sparklyR.

Dans le cadre des projets d’accompagnement du HDH auprès de nos partenaires, vous pourrez être amené(e) à vous rendre disponible et vous mettre à disposition selon les besoins auprès d’institutions du domaine de la recherche médicale en région parisienne.

Profil recherché

Compétences indispensables
Excellente maîtrise du langage Python
Bonne maîtrise de SQL et de gestion de bases de données
Bonne maîtrise des librairies de traitement de données (e.g., pandas, dask, dplyr)
Connaissance des différents paradigmes de développement de librairies et applicatif (e.g., orienté objet, fonctionnel)
Connaissance des outils en ligne de travail collaboratif type Git (GitHub ou GitLab)
Capacités rédactionnelles
Bon relationnel : capacité à interagir avec les partenaires externes du HDH (startups, institutions publiques, etc.)

Compétences additionnelles recherchées
Maîtrise des frameworks de calcul distribué (Spark)
Maîtrise de R
Maîtrise d’environnements cloud (notamment Azure)
Expérience avec des formats de données complexes (par exemple : images DICOM, JSON complexes, CSV de très grande taille etc.)
Connaissance des approches de développement (notamment CI/CD et DevOps)
Connaissance de la méthodologie Agile/scrum

Une expérience dans le domaine de la recherche médicale est un plus.

POURQUOI CHOISIR LE HEALTH DATA HUB ?
Vous êtes motivé(e) à rejoindre une équipe impliquée dans un projet ambitieux, qui a du sens et une finalité d’intérêt public ? Rejoignez-nous !
Notre récente structure a besoin de talents créatifs, autonomes et proactifs pour continuer de grandir !
Ensemble, nous nous sommes engagés à :
Accompagner les porteurs de projet visant à analyser les données de santé pour le bien commun.
Construire et opérer une plateforme technologique pour leur offrir les meilleurs outils avec un très haut niveau de sécurité à respecter.
Réunir et mettre en forme les données au plus grand potentiel pour la recherche et l’innovation.
Promouvoir le partage des connaissances, des expertises et du savoir et diffuser une culture de la donnée de santé auprès de tous.

Bon à savoir:
💪 Rejoindre le HDH c’est surtout participer à un projet enrichissant humainement qui a du sens, avec un fort impact sociétal
🏆 Au HDH on favorise la prise d’initiative, dans une ambiance de challenge perpétuel
😎 Ici la bonne humeur et l’esprit d’équipe règnent

Process de recrutement

Après avoir postulé, voilà comment se déroulera le recrutement:

  • Un premier entretien avec un membre de l'équipe
  • Une mise en situation à préparer chez soi
  • Un entretien technique, basé sur la mise en situation, avec un membre de l’équipe et le Directeur Data
  • Un entretien avec la directrice du Health Data Hub
  • Un entretien de formalité RH

Informations complémentaires

  • Type de contrat : CDI
  • Lieu : Paris
  • Niveau d'études : Bac +5 / Master
  • Expérience : > 3 ans
  • Télétravail partiel possible

Vous êtes intéressé par cette offre ?