Marcin DetynieckiResponsable de la Recherche et Group Chief Data Scientist à AXA Group Operations
2 novembre 2016
Pour la deuxième année consécutive, les meilleurs aspirants data scientists du monde se sont affrontés, le temps d’un week-end, au cours d’un hackathon.
8 minutes
Il est 14h ce vendredi 9 septembre et les 20 équipes finalistes du Data Science Game finissent de s’engouffrer dans les locaux du siège de Microsoft France, à Issy-les-Moulineaux aux portes de Paris. En cet après-midi d’ouverture, chemises, cravates, vestes de costard, tailleurs ou robes sont au rendez-vous mais il en sera tout autrement dans quelques heures. Et si les mines sont déjà tendues, les visages fermés, c’est parce que pendant plus de 30 heures non-stop, ces 80 étudiants en sciences des données, venus des plus grandes écoles et universités du monde, vont s’affronter au cours d’un hackathon.
Contraction de hack
et de marathon, cet exercice de programmation collaborative en continu s’adresse aux virtuoses de la data : A ce jour, la finale du Data Science Game est notre objectif ultime. La principale difficulté concerne le temps imparti pour traiter les données fournies. Il va falloir être rapide et efficace
, détaille l’équipe de l’Institut de Management de Calcutta.
C’est AXA, via son Data Innovation Lab, l’un des trois principaux sponsors de l’événement avec Capgemini et Microsoft, qui a imaginé l’exercice : élaborer à partir de données structurées un modèle capable de déterminer si un client potentiel va souscrire à un contrat d’assurance qui lui est présenté.
Pour épauler les concurrents dans cette aventure, AXA a dépêché des experts maison. Marcin Detyniecki, responsable de la recherche au Data Innovation Lab d’AXA, est dans son élément. Son énergie est communicative. Alors qu’il commente les premières étapes de la compétition pour trois personnes à la fois – et pas dans la même langue –, il ne manque pas d’expliquer que l’équipe française de l’université Pierre et Marie Curie (UPMC), en pole position après la phase de sélection, est issue du labo par lequel lui aussi est passé au début de sa carrière. Ce sont mes favoris, c’est sûr, mais il faut faire attention aux Russes. Ce sont eux qui ont gagné l’année dernière, et je vous le dis clairement : ils sont très, très forts…
.
Mais si Marcin est là ce n’est pas uniquement pour livrer ses pronostics. Antoine Ly, président de l’association Data Science Game, explique : le Data Science Game permet aux entreprises de rencontrer le monde étudiant plus facilement, sans avoir besoin de démarcher chaque université. Il centralise le contact. Les étudiants, eux, peuvent échanger directement, et physiquement, avec la profession.
Entre les différentes tables rondes et le cocktail d’accueil organisé en cet après-midi d’inauguration de l’événement chez Microsoft, les participants ne manquent pas l’opportunité de parler recherches, financements, partenariats et recrutement.
Samedi, 6h45. Les petits-fours sont déjà loin, les tenues d’apparat remballées. C’est dans un cadre un peu atypique – le château Les Fontaines à une petite heure de route de Paris – que le coup d’envoi du hackathon est sur le point d’être donné. Eric Lebigot, Chief Data Scientist du Groupe AXA, l’a rappelé aux étudiants : Il va falloir faire preuve d’innovation, de créativité.
Chaque équipe a pris ses quartiers. Vissés sur des sièges qu’ils ne quitteront quasiment plus au cours des 32 heures qui vont suivre, les étudiants jettent à peine un regard aux deux photographes qui passent entre les rangs pour immortaliser le moment. Antoine explique : Le premier jour c’est toujours un peu délicat. Demain, ils seront peut-être un peu plus enclins à partager leur avancée et leurs premières impressions.
Les mentors AXA sont justement là pour ça. Carlos Dalla Stella est Data Scientist au Data Innovation Lab d’AXA. N’importe quel groupe peut faire appel à lui pendant la compétition : J’ai l’habitude de travailler sur des données réelles. Mon rôle consiste notamment à partager cette expérience-là. Je peux aussi donner de petites astuces…
Eric Lebigot précise : Nos mentors sont capables de répondre à certaines questions techniques plus particulièrement liées à notre business. Ils peuvent contribuer à débloquer certaines situations. Ils ouvrent aussi des possibilités d’exploration. Un conseil donné à une équipe peut servir à une autre. Le mentor va agir comme un accélérateur.
Être un accélérateur, c’est une des missions principales du Data Innovation Lab chez AXA, et de ses data scientists. D’une manière générale, l’enjeu pour nos data scientists est de trouver l’information utile dans un volume considérable de données
, explique Eric Lebigot. Les données que nous avons à traiter sont comme une réserve de pétrole que nous décidons d’utiliser ou non.
Mais au-delà des réponses que la data science peut apporter, ce sont aussi les questions qu’elle pose qui sont intéressantes. Quelles données peut-on exploiter ? Sont-elles utiles et pourquoi ? La donnée permet d’optimiser le produit et le service, et donc de bénéficier à AXA comme à ses clients. Mais pour vendre une assurance moins chère, il faut avoir une idée précise des conséquences, des bienfaits ou des risques
, précise Eric.
Les heures tournent, rythmées par les mises à jour en temps réel du leader board qui présente le classement provisoire. Plus la marge d’erreur des solutions soumises par les différentes équipes, et passées au crible d’un algorithme, se rapproche de zéro, plus elles remontent dans le classement. Pour ne pas stresser, il ne faut pas ou peu regarder le leader board, confie Rémi Cadène de l’UPMC. On a vu des équipes qui ont trouvé des features (variables) très expressives, avec une marge d’erreur de zéro. Mais on ne peut pas savoir quel modèle elles ont utilisé, si c’est une erreur ou un bug. Il ne faut pas perdre de temps à regarder un tableau qui pourrait nous décourager, ou nous donner trop confiance si on est leader.
Il ne reste plus que quelques heures de hackathon lorsque Rémi, qui participe à sa deuxième édition du Data Science Game, accepte de s’arrêter quelques minutes dans son travail. Tout au long de la conversation, il ne cessera de jeter des coups d’œil vers son ordinateur, pressé de se replonger dans l’effervescence de la compétition.
Il fait partie de l’équipe française de l’université Pierre et Marie Curie (UMPC), où il a découvert la Data Science en troisième année de licence. Le Data Science Game ? C’est l’un de mes professeurs qui nous en a parlé. L’année dernière, on est arrivé huitième
. Aujourd’hui, Rémi vient de terminer son master et va débuter un doctorat sur le deep learning (apprentissage profond) appliqué à l’image. Un thème qui collait parfaitement avec la problématique de la phase de qualification du Data Science Game. Ça nous a permis de développer des modèles spécialisés et donc d’atteindre une bonne première place. Durant la finale, les données sont beaucoup plus structurées. Cet autre aspect m’intéresse, car justement ce n’est pas ma spécialité… Du moins pas autant que d’autres personnes qui travaillent chez AXA !
, lâche-t-il dans un sourire.
Pour le concours, son plan d’attaque est bien ficelé : son équipe et lui sont passés par plusieurs phases de réflexions itératives : Tout part d’une intuition. Plus on travaille les données, plus on étudie statistiquement les modèles que l’on trouve, plus cette intuition s’affine. On va maintenant pouvoir commencer à entraîner des modèles plus statistiques, plus machine learning. On verra ce que ça donne.
A quatre heures de la fin du temps imparti, c’est l’équipe de Cambridge qui est en tête, suivie par les Italiens de l’Université de Padoue . L’équipe française de l’UMPC complète le trio de tête. Costas, membre de l’équipe de Cambridge, se montre néanmoins prudent : Certes on est premier pour l’instant, mais on veut garder la tête froide, d’autant qu’on a peut-être adapté un peu trop nos algorithmes pour qu’ils soient acceptés par le jury du concours.
Une surprise de dernière minute, orchestrée par les organisateurs du Data Science Game, va leur permettre d’obtenir quelques réponses. Alors qu’il ne reste aux concurrents qu’une heure et demie, un lot de données inédites leur est soumis. C’est maintenant qu’on va voir si les algorithmes mis au point sont robustes, s’ils fonctionnent avec de nouvelles données. Ils vont devoir les affiner, apporter peut-être certaines modifications. C’est un dernier gros coup de stress pour les équipes
, explique Eric Lebigot.
Dernier coup d’œil au leader board. Et second coup de théâtre. L’équipe russe de l’Institut de physique et technologie de Moscou, qui a attendu le dernier moment pour partager ses résultats provisoires, vient d’y faire son entrée… directement en 1ère place. Cambridge passe 2ème.
Nous allons maintenant évaluer les concurrents sur leur méthode. Leur score de prédiction sera pris en compte, mais aussi le caractère innovant de leur approche. On favorisera les équipes qui auront essayé de faire quelque chose qui sort un peu de l’ordinaire, avec une prédiction qui ne sera pas forcément la meilleure, mais qui peut avoir une application pratique
, explique Antoine Ly. Chaque équipe a en effet trois minutes pour défendre sa solution devant le jury, et tenter de remonter dans le classement.
Ce sera notamment le cas pour les Russes de l’université Skoltech de Moscou qui parviendront finalement à ravir la 3ème place aux Data Ninjas de Singapour, rétrogradés à la porte du top 5, et pour les Français de l’UPMC qui passeront en 4ème place, devant les Italiens de Padoue. Pas de changement en revanche dans le duo de tête.
Les Russes de l’Institut de physique et technologie de Moscou l’emportent donc pour la deuxième année consécutive. A l’issue de la remise des prix, Stanislas glisse : Nous étions très confiants dans nos chances de victoire. Nous sommes très souvent parfaitement placés pendant les compétitions. Ce résultat au Data Science Game le confirme une fois de plus.
Alors que les sponsors se pressent pour féliciter les gagnants, les finalistes du Data Science Game savent que, quel que soit leur classement à l’arrivée, ils disposent d’un savoir-faire prisé. Les meilleurs data scientists de demain sont parmi eux.
D’un point de vue marque employeur et recrutement, cette compétition a un avantage indéniable. Nous sommes face à des jeunes en master et doctorat, ou tout récemment embauchés pour quelques-uns. Le Data Science Game permet de nouer un dialogue avec ces jeunes qui non seulement nous intéressent mais peuvent également être séduits par ce que nous faisons chez AXA. Ici se rassemble vraiment la Data Science de demain et sponsoriser cette compétition met en avant la volonté d’AXA de recruter dans tous les pays.
Le data scientist est quelqu’un qui doit être capable d’extraire d’une base de données une information ciblée, concrète, compréhensible et surtout exploitable. Il doit également être capable d’appréhender les usages attendus autour des données qu’il traite, c’est-à-dire d’avoir une compréhension des attentes business de l’entreprise et de faire profiter le business de ses connaissances scientifiques. A partir de là, il va pouvoir définir des modèles permettant de généraliser les données. Par exemple, dans le cadre d’une campagne, il peut nous être utile de déterminer si un client serait probablement tenté par un deuxième produit AXA après une première souscription. Nos data scientists sont capables de créer des modèles permettant de répondre à ce genre de question. Un data scientist AXA doit aussi être sensible à la mise en production des modèles qu’il élabore. Il doit savoir programmer si nécessaire une solution clés en main, un site web intuitif par exemple, afin de s’assurer que des tierces personnes pourront utiliser et s’approprier les algorithmes.
Les data scientists peuvent venir chez AXA sans expérience business. Ils peuvent apprendre au travers de la pratique. Il n’empêche pas qu’avoir une certaine connaissance de l’actuariat par exemple est apprécié, mais il y a vraiment une place pour les jeunes experts de la data science qui sont intéressés par ses applications concrètes. De toute façon, où qu’ils aillent, ils devront apprendre et se construire leur propre expérience. Quitte à apprendre quelque part, autant qu’ils le fassent chez AXA, qui propose un environnement réellement attractif en la matière, qu’il s’agisse du Data Innovation Lab bien sûr, mais aussi de nos filiales en France et à l’étranger. Surtout quand ils sont aussi compétents que ceux qui participent au Data Science Game.