Selon Wikipédia, "la science est une entreprise systématique qui construit et organise la connaissance sous la forme d'explications et de prédictions testables". Si nous revenons au sens premier du terme, un Data Scientist est quelqu'un qui expérimente avec des données, une sorte de chercheur érudit qui étudie les phénomènes fondamentaux, soit des données, soit grâce aux données. Si l'on ajoute une touche de pragmatisme, la science des données peut être décrite comme un vaste domaine scientifique qui extrait des connaissances à l'aide d'une série de manipulations à partir d'un ensemble de données donné afin de résoudre des problèmes spécifiques.Cela nous amène à notre prochaine question : qui sont ces Data Scientists dont tout le monde parle ?
De nombreuses universités proposent aujourd'hui des cours sur le site data science , ce qui semble être un "must" pour l'enseignement supérieur. Bien qu'elles aient évolué, la plupart de ces formations transforment les étudiants en apprentis-machines. Elles leur apprennent les derniers algorithmes et comment maîtriser Kaggle, en se concentrant principalement sur la modélisation de la grande chaîne de valeur de data science.L'apprentissage automatiqueapparu dans les années 1950, est un ensemble d'outils créés pour permettre aux ordinateurs d'accomplir des tâches de plus en plus rapidement et précisément. Le contexte commercial, la réalité des données et leur interprétabilité sont parfois négligés pour se concentrer sur l'optimisation de métriques difficilement utilisables en entreprise.Revenons à Kaggle pour illustrer ce propos : les utilisateurs de cette plateforme doivent appliquer des techniques très sophistiquées à des ensembles de données facilement disponibles, dont l'origine n'est pas toujours connue, leur but ultime étant d'atteindre le score le plus élevé sur l'échelle de prédiction. Le célèbre défi Netflix en est un exemple.Bien que les connaissances en Machine Learning, à la fois théoriques et pratiques, soient essentielles pour résoudre un problème, elles ne sont généralement pas suffisantes dans un environnement professionnel où la clé de la résolution d'un problème est la connaissance et la compréhension du contexte de l'entreprise, la disponibilité de données qualifiées et des outils d'interprétation appropriés pour exploiter les résultats.Ceci explique ce qui distingue les spécialistes en Machine Learning des Data Scientists et pourquoi il est si important pour les entreprises de savoir quel professionnel choisir pour mener à bien leurs projets en matière de données. Rappelons également que 50% des projets data science échouent, en partie à cause des difficultés d'accès aux bonnes compétences (étude IDC).Mais nous n'avons toujours pas dit précisément qui sont ces Data Scientists....
En 2012, la Harvard Business Review affirmait que les Data Scientists avaient le "métier le plus sexy du 21e siècle", sans donner beaucoup de détails. Il est difficile d'être précis quand on sait qu'ils font des choses très différentes selon qu'ils sont Data Scientist chez Airbnb, JPMorgan Chase ou General Motors. Mais, quelles que soient leurs différences, ils ont tous un point commun : ils se concentrent sur l'entreprise. En effet, l'objectif de data science est d'utiliser les données pour résoudre les problèmes d'une entreprise, tels que la maintenance prédictive, la détection des fraudes, les parcours d'achat personnalisés ou les recommandations de contenu, pour n'en citer que quelques-uns.De tels projets nécessitent un large éventail de compétences et d'expertise, à savoir :
... et de mesurer les résultats pour améliorer constamment les techniques !
Et si le terme "Data Scientist" était en fait une erreur d'appellation ? Et si data science était le travail de toute une équipe, avec plusieurs compétences différentes ?
En réalité, data science ne peut pas être la responsabilité d'une seule personne dans une entreprise. Pour remplir ce rôle, il faut plusieurs profils différents :
Il est crucial pour une entreprise de clarifier les différents rôles de chacun de ces "Data Scientists". Cela facilitera le processus de recrutement, évitera tout malentendu sur le rôle, favorisera l'épanouissement de l'équipe et assurera le succès des projets axés sur les données.Chez fifty-five, nous utilisons ces principes pour adapter nos stratégies aux compétences et aux ressources disponibles de nos clients, afin de leur permettre d'atteindre leurs objectifs. C'est pourquoi nous avons les différents profils décrits ci-dessus :
L'objectif n'est pas de trouver un scientifique des données capable de tout faire, mais d'identifier les besoins et les points forts de chacun afin de créer une équipe data science fonctionnelle et épanouie, et d'utiliser pleinement les compétences de chacun. En fin de compte, la clé est... lagouvernance!
Découvrez les dernières actualités, articles, replays de webinars et événements fifty-five dans notre newsletter mensuelle Tea O’Clock.