Data Science - Gestion améliorée de la qualité de données par génération automatique de prédicats (Stage de Pré-embauche)
Entreprise
The Blockchain Group est une société spécialisée dans les prestations de services intégrés. Elle permet aux entreprises d'exploiter la puissance de l'énergie décentralisée.
Notre entité TRIMANE est spécialisée en Data Intelligence (BI et Big Data, Data Science, Cloud), évoluant dans environnement très innovant. Pure-player et acteur majeur du marché depuis plus de 15 ans, sa mission est de créer de la valeur à partir des données disponibles dans les entreprises, en s’appuyant sur des approches algorithmiques innovantes, des méthodologies spécifiques et de nombreuses technologies.
Forte de son Datalab le CBI², le pôle Recherche, Développement et Innovation de Trimane souhaite consolider et éprouver son savoir-faire dans le traitement massif de données, les process de traitement et analyse des données et l’architecture cloud.
Trimane est basée à Paris et à Toulouse.
Présentation du sujet
Contexte
Le stage proposé porte sur un projet lancé en interne ayant pour vocation d’améliorer l’offre de service de Trimane. Dans le cadre de ses activités de mise en place de systèmes décisionnels, Trimane accompagne fréquemment ses clients vers une maturité accrue quant à la gestion de leurs données. Cette transition requiert généralement un assainissement des jeux de données en place, ce qui nécessite d’identifier des règles à même de détecter les données à corriger. Ces règles sont décidées conjointement avec les services concernés (producteur et utilisateur des données) mais leur découverte relève en majorité de l’empirisme, après une analyse préliminaire des données fournies.
Descriptif
L’objectif de ce stage est de s’appuyer sur les techniques d’apprentissage automatique afin d’améliorer cette étape d’identification et de la rendre plus exhaustive. Plus formellement, le but est de parvenir à définir une liste de prédicats permettant de déterminer les points de données jugés anormaux à partir d’un jeu de données arbitraire. Une étape préliminaire cruciale consistera à expliciter formellement ce que constitue le caractère anormal selon le type de donnée géré (relationnelle, tabulaire, temporelle, image, …). Le stagiaire pourra notamment s’inspirer du framework Snorkel qui permet approximativement la fonction inverse (définir manuellement une liste de prédicats et laisser le framework générer des données respectant la forme du jeu de donnée initial). Des techniques de détection d’anomalies basées sur la variation de densité locale peuvent également être envisagées.
Le stagiaire pourra s’appuyer sur un ensemble de jeux de données réels et des règles de nettoyage associées venant de l’historique des réalisations de Trimane. Ces jeux d’entraînement pourront éventuellement être complétés avec des exemples de nettoyage de données fournis librement ici et là sur Internet, dans le respect des licences de réutilisation.
Pendant la durée de stage, ce sujet peut faire l’objet d’évolutions pour s’adapter aux contraintes de la société Trimane. En cas de modification importante, il sera soumis à l’approbation des parties signataires de la convention.
Attendu
Le stage étant principalement une mission de recherche et d’analyse, l’attendu demandé est un prototype jouant le rôle de preuve de concept et permettant de tester la technologie développée. Une visualisation graphique des résultats par un outil de restitution sera également valorisée et soutenue. Une mise en production au sein d’outils internes et déployés pourra être envisagée selon le niveau de maturité du prototype.
Environnement technique
L’environnement technique de développement est laissé assez libre. Une préférence est toutefois émise quant à l’utilisation de composants libres et gratuits pour le développement de la solution.
Références
Framework Snorkel : https://www.snorkel.org/
Travaux de Chris Ré : https://cs.stanford.edu/people/chrismre/
Détection d’anomalies : https://fr.wikipedia.org/wiki/D%C3%A9tection_d%27anomalies
Librairie Great Expectations : https://greatexpectations.io/
Offre Trifacta : https://www.trifacta.com/
Compétences demandées
De solides connaissances en analyse de données et conception de modèles issus du Machine Learning sont requises pour ce stage. Une preuve de concept étant à développer à l’issue de ce stage, la maîtrise d’un langage de programmation, – idéalement Python – est également demandée. Une connaissance des techniques de développement au sein d’un milieu DevOps (versioning avec Git, gestion de conteneurs, création d’image Docker, intégration continue, …) sera en outre valorisée.
Le profil idéal est rigoureux, organisé, créatif techniquement, et capable d’autonomie.
Modalités
Le/la stagiaire sera encadré(e) tout à long du stage sur l’ensemble des aspects techniques (phases d’analyse, de conception et de développement).
La durée prévue du stage est de 6 mois, il se déroulera en idéalement dans les locaux de Trimane à Paris ou Toulouse. Cependant télétravail est envisageable.
La date de début du stage est prévue courant Avril 2022. Il s’agit d’un stage de pré-embauche rémunéré
Type d'emploi : Temps plein, Stage
Salaire : 1 200,00€ à 2 000,00€ par mois
Avantages :
Participation au TransportTitre-restaurantHoraires :
Du Lundi au VendrediRepos le Week-endTélétravail:
Temporairement en raison du COVID-19Le secteur de la cybersécurité souffre d'une pénurie de talents face aux menaces actuelles. La formation dans le domaine reste la réponse...
User Experience Designer, expert en Millennial, YouTuber ou encore chauffeur de VTC ; les dix ans de technologie que nous venons de vivre...
Nous vivons dans un monde hyper connecté, où de plus en plus d'entreprises fournissent des ordinateurs portables et des smartphones dans...
Si les algorithmes régissent notre vie virtuelle, ils peuvent également être de véritables atouts pour gagner en performance et en...
Inscrivez-vous pour accéder à l'annonce
Stage Data Scientist H/FEn cliquant ci-dessus sur « S'inscrire » vous accepter nos conditions générales et notre politique de confidentialité
1er Site de recherche d'emplois dédié aux professionnels du marketing de la communication et du digital, Jobibou.com a pour objectif de vous offrir le meilleur outil de recherche pour vous accompagner, au mieux, dans votre démarche de recherche d'emploi
Inscrivez-vous pour accéder à l'annonce
Stage Data Scientist H/FMerci de bien vouloir remplir le formulaire pour profiter de l’ensemble des fonctionnalités Jobibou !
Déjà inscrit ? Se connecter