DotAI 2024, en quelques mots !

Les 17 et 18 octobre a eu lieu la DotAI 2024 aux Folies Bergères, à Paris.
Durant cet évènement, divers experts ont partagé leurs réflexions sur l’état actuel de l’intelligence artificielle et ses perspectives futures.

Parmi les différents sujets abordés figuraient notamment l’optimisation des modèles de langage, le rôle des agents « Edge », l’infrastructure des IA ou encore l’importance d’une supervision humaine.

Cet article présente un résumé des discussions passionnantes qui ont eu lieu durant ces 2 jours et qui m’ont le plus marqués.

LLMs reasoning and agentic capabilities over time

Stanislas Polu a discuté du rôle de game-changer de l’IA dans la société, en faisant un parallèle entre l’évolution des modèles de deep learning (d’AlexNet à GPT-4) et le passage d’une société pré-IA à une société post-IA.

Il a questionné l’efficacité des LLMs actuels, en suggérant que des modèles capables de raisonner plus profondément sont nécessaires.

Il a présenté la plateforme DUST, qui permet de créer des assistants IA sur mesure pour améliorer la productivité dans les environnements professionnels.
Il a insisté sur l’importance du développement produit et infrastructure pour permettre à l’IA de libérer son plein potentiel.

Points clés :
– Collaborations Humain-IA : Il est essentiel de maintenir une supervision humaine pour équilibrer l’automatisation et la responsabilité.
– Call-to-Action : Investir dans le développement de produits et d’infrastructures est crucial pour exploiter pleinement les capacités des IA.

Le speaker : Stanislas Polu

Après avoir étudié à Polytechnique et à Stanford, Stanislas a créé une entreprise en France qui a été rachetée par Stripe en 2015. Il a passé 5 ans chez Stripe à travailler sur l’API et l’infrastructure autour des méthodes de paiement sans carte. Après Stripe, il a fait de la recherche pendant 3 ans à OpenAI sur les capacités de raisonnement mathématique des grands modèles de langage. Il est maintenant cofondateur de Dust, qui construit l’OS de l’entreprise pour les équipes intelligentes.

Reality is not an end-to-end prediction problem: Applied NLP in the age of Generative AI

Ines Montani a exploré l’évolution des méthodes d’instruction des machines, de systèmes basés sur des règles aux modèles d’apprentissage profond, et plus récemment aux grands modèles de langage (LLM).

Ces LLM, comme GPT-4, offrent des avantages pour le prototypage rapide, mais posent aussi des problèmes d’efficacité et de confidentialité.

Elle a présenté spaCy LLM, une extension modulaire permettant un développement indépendant et un déploiement dans des environnements privés, garantissant à la fois performance et sécurité des données.

Elle a souligné l’importance des systèmes human-in-the-loop pour maintenir la précision des modèles et a illustré des cas d’usage industriels chez S&P Global et GitLab.

Points clés :
– Modèles Modulaires : La modularité dans les modèles permet une meilleure gestion de l’efficacité et de la confidentialité.
– Confidentialité des Données : Les composants modulaires permettent d’assurer la confidentialité des données sensibles.
– Call-to-Action : Elle appelle les développeurs à refactoriser leurs applications pour les adapter à l’utilisation de l’IA générative.

Le speaker: Ines Montani

Ines Montani est une développeuse spécialisée dans les outils pour l’IA et la technologie NLP. Elle est cofondatrice et PDG d’Explosion.ai et développeuse principale de spaCy, une bibliothèque open-source populaire pour le traitement du langage naturel en Python, et de Prodigy, un outil d’annotation moderne pour la création de données d’entraînement pour les modèles d’apprentissage automatique.

Serverless Inferencing: an infrastructure point of view

Yann Léger a mis en évidence les défis liés aux infrastructures IA, en particulier la sous-utilisation des GPU et l’inefficacité des déploiements d’inférence.
Alors que la consommation d’énergie liée à l’infrastructure IA devrait augmenter de 500 % au cours des quatre prochaines années, il a plaidé pour des solutions d’optimisation matérielle et logicielle pour une meilleure gestion des ressources.

Il a également proposé le paradigme serverless comme un modèle d’avenir pour les appareils IA natifs, permettant une mise à l’échelle automatique des ressources et réduisant les coûts liés à l’inférence.

Points clés :
– Optimisation des Infrastructures : Nécessité d’optimiser les infrastructures pour une meilleure utilisation des GPU et une réduction de la consommation d’énergie.
– Paradigme Serverless :
Ce modèle pourrait devenir un pilier central des conceptions d’appareils IA dans les prochaines années.

Le speaker: Yann Léger

Yann Léger est l’un des cofondateurs de Koyeb, une plateforme serverless pour les charges de travail d’IA, et a passé les 12 dernières années à construire des fournisseurs de services cloud à grande échelle à partir de zéro. Passionné par le cloud computing, il a une compréhension approfondie de l’infrastructure sous-jacente, des centres de données à la pile logicielle fonctionnant sur les hyperviseurs. Après avoir construit Scaleway, à l’origine avec des serveurs ARM bare metal, Yann a décidé de passer au serverless avec des puces alternatives pour l’IA.

The future of Edge Agents

Pierre Stock a abordé le développement de modèles d’IA spécifiques aux appareils edge, mettant en avant leur importance pour garantir la confidentialité des données et l’efficacité sur des tâches spécifiques.
Il a cité des modèles comme Mistral et Ministral 3B, optimisés pour fonctionner dans des environnements contraints en mémoire.

Les techniques de quantification sont essentielles pour adapter ces modèles aux appareils edge tout en maintenant la précision.
Pour lui, les agents capables d’appeler des fonctions de manière native sont considérés comme la prochaine étape importante.

Points clés :
– Modèles Edge : Les dispositifs edge continueront de jouer un rôle central dans le déploiement des modèles d’IA, en raison de leur ubiquité et de leur capacité à préserver la confidentialité des données.
– Quantification et Optimisation : Les techniques de quantification permettent d’adapter les modèles aux contraintes des appareils edge tout en assurant la performance.

Le speaker: Pierre Stock

Pierre Stock est chercheur et le premier employé de Mistral AI. Il se concentre principalement sur les modèles Code and Edge et leur déploiement efficace en production. Auparavant, il était chercheur chez Meta et a développé des techniques d’apprentissage automatique liées à la protection de la vie privée, telles que l’apprentissage fédéré et la protection différentielle de la vie privée, spécifiquement pour les LLM.

More empathy and health data protection in AI : announcing a primary care revolution

Lors de ce talk, les 2 intervenants nous ont présenté le nouvel assistant de consultation développé par Doctolib.

Par le biais d’une démo, ils nous ont montré la pertinence de déléguer la prise de note pour enrichir le dossier médical des patients à une IA dédiée.

De plus, ils ont montré le processus d’interaction avec l’assistant afin d’anonymiser les données et de ne conserver que les pertinentes, garantissant ainsi la confidentialité.

Une application de l’IA des plus pertinentes dans ce contexte !

Les speakers: Laure Seugé et Arthur Talpaert

Le docteur Laure Seugé est pédiatre spécialisée en néphrologie et rhumatologie. Elle est également Expert Médical chez Doctolib pour conseiller les équipes de développement dans l’innovation et la co-construction du produit. Arthur Talpaert est chef de produit IA de l’assistant de consultation chez Doctolib. Il gère la conception, la construction et le lancement de ce produit en 2024, et conseille le comité exécutif sur la transformation de Doctolib en matière d’IA et de données.

Building with OpenAI: What's Ahead

Romain Huet et Katia Gil Guzman ont présenté les derniers développements d’OpenAI, en mettant en lumière l’ouverture d’un nouveau bureau à Paris, avec pour objectif de soutenir l’intelligence générale artificielle (AGI) tout en collaborant avec les développeurs.

Ils ont introduit des améliorations significatives à GPT-4, notamment en matière de multimodalité.

Le point central de leur présentation a été l’API en temps réel d’OpenAI (Realtime API), offrant une latence ultra-faible, permettant des interactions naturelles de type speech-to-speech.
L’API est déjà disponible en Europe et permet le développement d’applications IA multimodales simplifiées.

Points clés :
– API en temps réel : Permet de créer des expériences IA naturelles, avec une intégration simple et rapide dans les applications.
– Sécurité et Responsabilité : OpenAI met un accent fort sur la sécurité et les bonnes pratiques pour prévenir tout usage abusif de sa technologie.

Les speakers : Romain Huet et Katia Gil Guzman

Romain dirige actuellement l’équipe Developer Experience chez OpenAI, inspirant et soutenant les fondateurs et les constructeurs à intégrer l’IA dans leurs applications, et dirigeant la création d’outils élégants et puissants pour tous les développeurs. Auparavant, Romain a passé 5 ans chez Stripe, où il a dirigé la gestion des produits pour la plateforme des développeurs et a supervisé les relations avec les développeurs au niveau mondial. Avant Stripe, il a participé à la relance de la plateforme développeur de Twitter et a cofondé Jolicloud à Paris, où il a développé un système d’exploitation basé sur le cloud. Katia Gil Guzman est une experte en data science et entrepreneuse. Elle s’intéresse particulièrement à l’analyse de données pour le développement durable et les impacts sociaux. Elle a travaillé sur des projets innovants liant IA et enjeux environnementaux.

Multimodal Language models

Neil Zeghidour a fait sensation avec son talk durant lequel il a présenté le fruit du laboratoire de recherche Kyutai, Moshi.

Le modèle Moshi représente une avancée en matière de conversations en duplex intégral en temps réel, atteignant une latence théorique de 160 à 200 ms, ce qui permet de parler et d’écouter simultanément.

Les développeurs de Moshi ont également introduit des techniques de quantification pour assurer une qualité audio optimale tout en rendant le modèle plus léger.

Points clés :
– Inner Monologue : Moshi prédit des jetons textuels avant les jetons audio, améliorant la qualité linguistique du discours généré.
– Quantification : La compression du modèle a permis une meilleure efficacité tout en maintenant une bonne qualité audio.

Le speaker: Neil Zeghidour

Neil Zeghidour est cofondateur et directeur de la modélisation du laboratoire de recherche à but non lucratif Kyutai. Il travaillait auparavant chez Google DeepMind, où il a dirigé une équipe sur l’audio génératif, avec des contributions telles que la première API texte-musique de Google et le premier codec audio neuronal qui surpasse les codecs audio à usage général. Avant cela, Neil a passé trois ans chez Facebook AI Research, où il a travaillé sur la reconnaissance automatique de la parole et la compréhension audio.

Training a foundation image model and deploying it to millions of users

Eliot Andres est intervenu pour nous présenter le positionnement de Photoroom dans l’ecosystème IA actuel.

Contrairement à beaucoup des entreprises faisant de l’IA, Photoroom, plutôt que de partir d’un modèle existant, a développé son propre modèle de calcul répondant à leurs besoins et contraintes de manière plus précise.

Ainsi, il évoque la dimension « coût », notamment énergétique et matérielle, d’un tel chantier pour une entreprise. Et comme on pouvait l’imaginer, ceux-ci sont importants.

Il fait aussi le parallèle avec les gains que cela apporte malgré tout.
La précision, la pertinence, la rapidité et la liberté sont les principaux avantages qui ressortent de son discours.

Le speaker: Eliot Andres

Eliot Andres a cofondé Photoroom pour démocratiser l’édition d’images grâce à l’IA. En tant que CTO, il s’appuie sur 9 ans d’expérience en apprentissage profond et en vision par ordinateur pour mettre des algorithmes de pointe entre les mains de millions d’utilisateurs. Il se concentre actuellement sur la formation d’un modèle de base GenAI pour la génération d’images et la mise à disposition des capacités à d’autres entreprises par le biais d’une puissante API.

Skrub: Less data wrangling, more machine learning

Gaël Varoquaux a mis en évidence l’importance des données tabulaires dans les entreprises, soulignant que, malgré les avancées en matière d’IA dans d’autres domaines, les données tabulaires restent au cœur de nombreuses organisations.
Il a souligné que 80 % du temps des data scientists est consacré à la préparation des données, une tâche souvent laborieuse et répétitive.

Le projet skrub vise à faciliter ce processus en réduisant la charge liée au « data wrangling » et en permettant aux data scientists de se concentrer davantage sur l’analyse et la modélisation des données.

Points clés :
– Contexte des Données : Il est crucial de comprendre le contexte dans lequel les données sont générées pour en tirer des insights significatifs.
– Skrub : Ce projet réduit les efforts nécessaires à la préparation des données tabulaires, libérant du temps pour les analyses plus complexes.

Le speaker: Gaël Varoquaux

Gaël Varoquaux est directeur de recherche en science des données à l’Inria où il dirige l’équipe Soda. Il est également cofondateur et conseiller scientifique de Probabl. Ses recherches portent sur les fondements de l’IA, l’apprentissage statistique, le NLP, l’inférence causale, ainsi que sur les applications dans le domaine de la santé. Il a également cofondé scikit-learn, l’une des boîtes à outils de référence pour l’apprentissage automatique, et a participé à la création de divers outils centraux pour l’analyse des données en Python.

Getting LLMs to do what you want: Output Controllers

Dans son intervention, Meryem Arik a mis en avant le besoin d’assurer la structure dans les sorties des modèles de langage.

Bien que la créativité de ces modèles soit valorisé, la fiabilité des sorties structurées (ex: JSON) est cruciale pour des applications « industrielles ».

Le « Prompt Engineering », bien que largement utilisé, connaît bien des limites dans certains cas où des résultats plus fiables/robustes sont nécessaires.

La « constrained generation » a donc été présentée comme une solution puissante pour garantir la structure des résultats.
Cette technique permet de filtrer les tokens « illégaux », s’assurant que les sorties adhèrent à une structure prédéfinie.

Points clés :
– Exactitude à 100% : Dans les environnements où des workflows dépendent de données structurées, toute inexactitude peut perturber les processus.
– Flexibilité et adaptabilité : Les ajustements peuvent être faits en tems réel, permettant plus de souplesse dans le contrôle du comportement des modèles.

Le speaker: Meryem Arik

Meryem Arik a cofondé TitanML afin de créer une infrastructure transparente et sécurisée pour les déploiements LLM en entreprise. Elle a étudié la physique théorique et la philosophie à l’Université d’Oxford et a été nommée par Forbes 30 Under 30. Au-delà de son rôle quotidien, Meryem se consacre à la conception d’un avenir éthique pour l’IA et à l’amélioration de la diversité dans l’espace de l’IA.

ZML: ML framework for Zig

Durant ce talk, Steeve Morin a présenté ZML, un framework de ML développé en Zig.
Ce projet a pour but de simplifier la gestion et l’exécution des modèles de ML.
Il offre une manière plus efficace et optimisée d’exécuter des modèles d’inférence, tout en s’appuyant sur la puissance et la flexibilité du langage Zig.

ZML se distingue par son approche modulaire et sa capacité à s’adapter aux besoins des développeurs de systèmes d’IA haute performance.
De plus, il fournit une vaste gamme de chips comme target final, permettant aux équipes de se concentrer en priorité sur l’innovation plutôt que sur les détails techniques de l’infrastructure et leurs limitations.

Le speaker: Steeve Morin

Steeve Morin est ingénieur logiciel et co-fondateur de ZML, une stack d’inférence d’IA hautes performances conçue pour la production, offrant des performances optimales sur une large gamme de puces. Il est l’auteur de LegiGPT, l’assistant juridique d’IA, boot2docker et a été vice-président de l’ingénierie chez Zenly, acquis par Snap Inc.

AI is your personal co-founder

Marjolaine Grondin a illustré l’usage de l’IA dans ses activités professionnelles et personnelles.
Elle a mis en avant un agent IA personnalisé, qu’elle appelle son « co-fondateur personnel », capable de lui donner des recommandations adaptées et de challenger ses idées.
Elle a souligné que l’IA ne doit pas remplacer l’intelligence humaine, mais plutôt nous pousser à être plus intelligents et à évoluer.
L’IA nous permet, d’après elle, de comprendre mieux ce que veulent les gens, de pouvoir rapidement remettre en questions nos idées ou encore de travailler plus rapidement.
Elle souhaite également des cycles fail-fast afin de tirer des leçons rapidement et de rester proche des besoins.

Elle a également mis en lumière les préoccupations environnementales liées à l’IA, tout en insistant sur la nécessité de rendre ces technologies plus matures, sûres et réalistes à l’avenir.

Le speaker: Marjolaine Grondin

Marjolaine Grondin est la cofondatrice de Jam, le chatbot francophone pionnier récemment acquis par June Marketing. Après avoir étudié à Sciences Po, elle s’est découvert une passion pour l’entrepreneuriat à UC Berkeley et a complété sa formation à HEC Paris. Présente dans le classement Forbes 30 Under 30 et MIT Top Innovators Under 35, Marjolaine est également la première femme entrepreneur à intervenir à la conférence F8 de Meta.

Improving Open Language Models at a Practical Size

Armand Joulin a mis l’accent sur le projet Gemma, qui vise à rendre les outils IA accessibles et pratiques pour les développeurs.

Le projet propose des modèles de différentes tailles (2B, 9B, 27B), adaptés aux appareils mobiles, ordinateurs portables et GPU haut de gamme.

Une innovation clé dans ce projet est l’utilisation du modèle enseignant, un modèle plus grand qui guide un modèle étudiant plus petit lors de la phase de pré-entraînement, améliorant ainsi l’efficacité et la capacité d’apprentissage du modèle plus petit.

Points clés :
– Accessibilité et Praticité : Gemma priorise des outils faciles à utiliser pour les développeurs, tout en garantissant des modèles adaptés aux différents supports.
– Modèle Enseignant : Cette approche permet de mieux guider l’apprentissage des petits modèles en utilisant des connaissances tirées de modèles plus larges.

Le speaker: Armand Joulin

Armand Joulin est directeur de recherche chez Google DeepMind, en charge de la version ouverte de Gemini appelée Gemma. Auparavant, il était directeur de recherche chez Meta, en charge de la région EMEA, où il a supervisé plusieurs projets ouverts clés tels que LLaMA, DINO ou fasttext.

Pour conclure

La DotAI 2024 a mis en lumière un large éventail de sujets, du contrôle et de la modularité des grands modèles de langage à l’importance des infrastructures et de la confidentialité des données.
Les discussions ont souligné la nécessité pour les entreprises de s’adapter à ces avancées en investissant dans des infrastructures plus efficaces, en développant des systèmes modulaires et en assurant une meilleure gestion de la sécurité et de la transparence.

Les différentes innovations comme celles de spacy LLM, Moshi, Dust ou encore Skrun montrent que l’avenir de l’IA réside dans des systèmes plus collaboratifs et responsables, capables de s’adapter aux besoins spécifiques des utilisateurs tout en garantissant la sécurité des données et l’efficacité des performances.
Alors que l’infrastructure serverless et les modèles edge continuent de se développer, il est clair que la facon dont nous interagissons avec l’IA est en pleine transformation.

🤫 Nous savons d'ores et déjà que la 
prochaine DotAI aura lieu le 6 novembre 2025!

À propos de l'auteur.
Nicolas REMISE est TechLead JS/TS
au sein de l'Usine Digitale Données de DARVA.
Passionné par les technos web,
il aime partager les nouveautés
qu'il met en œuvre au quotidien.