DUBOIS Clément

Docteur en Biologie ● Data Scientist ● Data Analyst

Suite à mon Doctorat en Biologie, j’ai décidé de me reconvertir dans le monde fascinant de la Data Science. J’ai acquis une base solide en statistiques et modélisation lors de mon cursus universitaire, renforcée ensuite par une formation de Data Analyst et de Data Scientist. Mon expertise est maintenant d’explorer des données, d’en extraire des informations pertinentes et statistiques, de les représenter graphiquement ainsi que d’effectuer des prédictions aussi précises que possible. Vous trouverez sur ce site portfolio les codes de différents projets réalisés durant mon parcours.

Contact

Téléphone
06 08 81 16 25
Email
clement.dubois.92@gmail.com
LinkedIn
LinkedIn
GitHub
GitHub

Compétences principales

Data Science:
Python, R, Machine Learning, Apprenstissage Supervisé & non supervisé, Deep Learning, Computer vision, NLP, Big Data (pySpark), cloud computing (AWS, AZURE)

Data Analyst:
Python, R, SQL, analyse exploratoire, analyses statistiques, représentation graphiques, Tableau

Biologie:
Techniques courantes de laboratoire (Extraction d'ADN-ARN, (q-)PCR...), analyses génomiques, analyses statistiques (R), communication, gestion de projet

Data Science

  • 8 Projets totaux

  • Terminée en 6 mois au lieu de 9

  • Titre RNCP Niveau 7 (bac+5)

Vous trouverez ici les répertoires GitHub de mes différents projets
issus de la formation Data Scientist d'OpenClassrooms en partenariat avec CentraleSupélec.

  • Résultat majeur du projet

    1) Analyse des données de systèmes éducatifs

    OBJECTIF : Déterminer des pays à fort potentiel pour l’installation d'une entreprise d'enseignement à distance.

    PYTHON ● ANALYSE EXPLORATOIRE ● DATA VIZ

  • Résultat majeur du projet

    2) Conception d' une application au service de la santé publique

    OBJECTIF : Analyse de la valeur nutritionelle des biens de consommation afin de trouver des produits plus sains et plus responsables.

    ANALYSE EXPLORATOIRE ● APPRENTISSAGE SUPERVISE (REGRESSION) ● REDUCTION DE DIMENSION (ACP)

  • Résultat majeur du projet

    3) Anticipez les besoins en consommation de bâtiments

    OBJECTIF : Prédire les émissions de GES et la consommation d'électricité de bâtiments

    ANALYSE EXPLORATOIRE ● APPRENTISSAGE SUPERVISE (REGRESSION) ● INTERPRETATION DE MODELE (SHAP)

  • Résultat majeur du projet

    4) Segmentation des clients d'un site de e-commerce

    OBJECTIF : Segmenter et décrire les groupes de clients d'une entreprise de e-commerce.

    CLASSIFICATION NON SUPERVISEE (KMEANS, CAH, DBSCAN) ●REDUCTION DE DIMENSION (ACP, TSNE)

  • Résultat majeur du projet

    5) Classification automatique des biens de consommation

    OBJECTIF : Réaliser une segmentation sur des données textuelles (descriptions...) et visuelles (photo de produit).

    DEAP LEARNING ● NLP ● COMPUTER VISION ● CLASSIFICATION NON SUPERVISEE

  • Résultat majeur du projet

    6) Mise en oeuvre d'un outil de prédiction de remboursement de crédit

    OBJECTIF : Prédire la capacité d'un client à rembourser son prêt, déployer le modèle sous forme d'API et générer un dashboard dans le cloud

    MLOPS : MLFLOW TRACKING ● DEPLOIEMENT DE MODELE (HEROKU) ● DASHBOARD (STREAMLIT) ● DOCKER

  • Résultat majeur du projet

    7) Déploiement d'un modèle dans le cloud

    OBJECTIF : Utiliser un environnement cloud AWS pour extraire les caractéristiques d'images dans un contexte de Big Data

    CLOUD COMPUTING AWS ● SPARK ● TRANSFERT LEARNING

Data Analyst

  • 10 Projets totaux

  • Terminée en 6 mois au lieu de 12

  • Titre RNCP Niveau 6 (bac+3)

Vous trouverez ici les répertoires GitHub de mes différents projets
issus de la formation Data Analyst d'OpenClassrooms en partenariat avec l’ENSAE.

  • Résultat majeur du projet

    1) Etude de santé publique

    OBJECTIF : Analyse de la répartition de la sous-alimentation mondiale, de la capacité de production alimentaire et détermination de causes possibles de sous-nutrition

    R ● PYTHON ● REPRESENTATIONS GRAPHIQUES

  • Résultat majeur du projet

    2) Optimisation de la gestion des données d'une boutique

    OBJECTIF : Organiser les données (jointures) et analyser les ventes d'un marchand de vin

    PYTHON ● ANALYSE EXPLORATOIRE ● REPRESENTATIONS GRAPHIQUES

  • Résultat majeur du projet

    3) Analyse des ventes en ligne

    OBJECTIF : Analyser le chiffre d'affaires et le comportement des clients d'une boutique de vente de livre en ligne

    ANALYSE EXPLORATOIRE ● ANALYSES STATISTIQUES ● REPRESENTATIONS GRAPHIQUES

  • Résultat majeur du projet

    4) Etude de marché

    OBJECTIF : Effectuer une étude de marché afin de déterminer les meilleurs pays pour y exporter du poulet.

    RECOLTE DE DONNEES ●REDUCTION DE DIMENSION (ACP) ● CLASSIFICATION NON SUPERVISEE (kmeans,CAH)

  • Résultat majeur du projet

    5) Détection de faux billets

    OBJECTIF : Utiliser des algorithmes de classification supervisée afin de prédire la véracité d'un billet à partir de ses dimensions.

    MACHINE LEARNING ● STATISTIQUES ● CLASSIFICATION SUPERVISEE ● APPLICATION PYTHON

Autres Projets :

Nom Objectif Compétences
Analyse de ventes pour un e-commerce Utiliser les fonctionnalités avancées d'Excel pour analyser les données de clients EXCEL ● DATA VIZ
Création d'une base de données Créer et utiliser une base de données immobilière avec SQL SQL● MYSQL WORKBENCH ● SCHEMA RELATIONELLE ● REQUETES
Analyse des indicateurs de l'égalité femme-homme Réaliser un workflow KNIME avec graphiques et statistiques du diagnostique KNIME ● STATISTIQUES ● RGPD ● DATA VIZ
Etude sur l'eau potable Réaliser un dashboard sur l'analyse de l'eau potable dans le monde Lien Tableau DATA VIZ ● TABLEAU (software)

Thèse de biologie

Évolution de la position finale du neuroblaste QR.pax et de l’expression de mig-1 chez C. elegans

Réalisée à l'Institut de Biologie de l'ENS, Université PSL/ENS, sous la direction de Marie-Anne Félix

MIGRATION CELLULAIRE ●ROBUSTESSE ● EVOLUTION ● ANALYSE GENOMIQUE (QTL,GWAS) ●BIOLOGIE DU DEVELOPMENT

La migration cellulaire est un processus clé au cours du développement et tout au long de la vie des individus. Un défaut dans l’arrêt de la migration et du position finale d’une cellule ou d’un groupe de cellules peut entraîner des anomalies dans la formation d’un tissu ou d’un organe. Tandis que la majorité des études interrogent le mécanisme de migration ou sa direction, en utilisant souvent des mutations génétiques induites en laboratoire, peu étudient la position finale de la cellule et l'effet d’autres perturbations (environnementales, expression génique stochastique). Le degré de sensibilité ou résistance d’un système à des perturbations, aussi appelé robustesse, est une caractéristique fondamentale des systèmes biologiques. Une perturbation peut affecter la moyenne ou la variance d’un phénotype, ici la position des cellules. Au cours de ma thèse je me suis intéressé à la robustesse et à l'évolution de la position finale d’une cellule, en m’intéressant à son mécanisme de positionnement particulier. Le neuroblaste QR est une cellule qui migre durant le premier stade larvaire de C. elegans, tout en effectuant deux cycles de division cellulaire. Les cellules filles de QR.pa, QR.paa et QR.pap (appelées par la suite QR.pax), terminent leur migration dans la région antérieure de l'animal et acquièrent une identité neuronale. L’arrêt de la migration de QR.pax est sous le contrôle de l'expression du récepteur Wnt MIG-1, orthologue du récepteur Wnt Frizzled 4 chez les mammifères. La particularité de l'expression de mig-1 dans le neuroblaste QR est qu'elle n’est pas induite par la position de la cellule dans l’organisme mais par une régulation temporelle indépendante de sa localisation.

Au cours de ma thèse, j’ai démontré que :
1) La position finale de QR.pax est sensible à diverses perturbations environnementales et à la taille de l’animal.
2) Il y a une grande variabilité naturelle entre souches sauvages de C. elegans.
3) Une analyse sur 200 lignées consanguines recombinantes provenant de deux souches sauvages a mis en évidence une région chromosomique associée à une différence de position finale.
4) La position finale de QR.pax évolue peu au sein des Caenorhabditis mais beaucoup au sein des Oscheius.

Lien vers le manuscrit de thèse

Articles Scientifiques :

  1. Dubois C, Félix M-A : A QTL on chromosome IV explains a natural variation of QR.pap final position in Caenorhabditis elegans. microPublication Biology, 2023

  2. Schild E, Gupta S, Dubois C, Fernandes P.E. E, Félix M-A, Mugler A, Korswagen H : Precise temporal control of neuroblast migration through combined regulation and feedback of a Wnt receptor. eLife, 2023

  3. Dubois C, Gupta S, Mugler A, Félix M-A : Temporally regulated cell migration is sensitive to variation in body size. Development,2021

  4. Besnard F, Picao-Osorio J, Dubois C, Félix M-A : A broad mutational target explains a fast rate of phenotypic evolution. eLife, 2020

Communication Scientifiques :