L’organisation à but non lucratif Wikimedia Deutschland a récemment annoncé le lancement d’un nouveau projet visant à rendre les données de Wikipédia plus accessibles aux modèles d’intelligence artificielle (IA). Ce projet, appelé Wikidata Embedding Project, utilise une technique de recherche sémantique vectorielle pour aider les ordinateurs à comprendre le sens et les relations entre les mots. Cela permettra aux développeurs de créer des modèles d’IA plus sophistiqués et plus précis.
Le Fonctionnement du Wikidata Embedding Project
Le Wikidata Embedding Project combine les données existantes de Wikipédia et de ses plateformes sœurs, qui comptent près de 120 millions d’entrées, avec une nouvelle prise en charge du protocole de contexte de modèle (MCP). Ce protocole est une norme qui aide les systèmes d’IA à communiquer avec les sources de données. Le projet a été réalisé en collaboration avec la société de recherche neuronale Jina.AI et DataStax, une entreprise de formation de données en temps réel appartenant à IBM. Les données sont maintenant accessibles via des requêtes de langage naturel, ce qui permet aux développeurs de créer des modèles d’IA plus précis et plus fiables.
Les Avantages du Wikidata Embedding Project
Le Wikidata Embedding Project offre plusieurs avantages par rapport aux outils existants. Les développeurs peuvent maintenant utiliser des requêtes de langage naturel pour accéder aux données, ce qui facilite la création de modèles d’IA plus sophistiqués. Le projet fournit également un contexte sémantique crucial, ce qui permet aux modèles d’IA de mieux comprendre les relations entre les mots et les concepts. Par exemple, une requête pour le mot « scientifique » produira des listes de scientifiques nucléaires éminents, ainsi que des scientifiques qui ont travaillé à Bell Labs, des traductions du mot « scientifique » dans différentes langues, une image de scientifiques au travail et des extrapolations à des concepts liés comme « chercheur » et « érudit ». Les données sont également structurées pour fournir un contexte sémantique essentiel.
Les Implications du Wikidata Embedding Project
Le lancement du Wikidata Embedding Project intervient à un moment où les développeurs d’IA sont à la recherche de sources de données de haute qualité pour affiner leurs modèles. Les systèmes de formation ont évolué pour devenir plus sophistiqués, mais ils requièrent toujours des données soigneusement ciblées pour fonctionner correctement. Le besoin de données fiables est particulièrement urgent pour les déploiements qui nécessitent une grande précision. Le projet de Wikimedia offre une solution ouverte et collaborative pour répondre à ce besoin, indépendante des grands laboratoires d’IA ou des grandes entreprises technologiques. Selon Philippe Saadé, gestionnaire de projet d’IA de Wikidata, « ce projet montre que l’IA puissante n’a pas à être contrôlée par un petit nombre de sociétés. Elle peut être ouverte, collaborative et conçue pour servir tout le monde. » Le Wikidata Embedding Project est désormais accessible au public sur Toolforge, et une conférence en ligne est prévue pour les développeurs intéressés le 9 octobre.