Le monde de l’intelligence artificielle (IA) vient de connaître un tournant important avec l’annonce du premier vainqueur du K Prize, un défi de codage IA lancé par Databricks et le cofondateur de Perplexity, Andy Konwinski. Le gagnant, Eduardo Rocha de Andrade, un ingénieur de prompt brésilien, a remporté le prix de 50 000 dollars avec un score de seulement 7,5 % de réponses correctes.
Le défi du K Prize : un benchmark plus dur
Le K Prize est conçu pour être un défi plus difficile que les benchmarks existants, tels que SWE-Bench, qui permettent aux modèles d’apprendre à partir des problèmes existants. Au lieu de cela, le K Prize utilise un système d’entrée chronométré pour garantir que les modèles ne sont pas entraînés sur des problèmes spécifiques. Les organisateurs du K Prize ont construit le test en utilisant uniquement les problèmes de GitHub signalés après la date de dépôt des modèles, ce qui signifie que les modèles doivent être capables de résoudre des problèmes réels et non entraînés.
Un nouveau standard pour les ingénieurs logiciels
Le score de 7,5 % du vainqueur peut sembler faible, mais il soulève une question importante sur l’état actuel de l’évaluation de l’IA. Les benchmarks existants, tels que SWE-Bench, montrent des scores beaucoup plus élevés, mais ces scores peuvent être influencés par la contamination, c’est-à-dire que les modèles s’entraînent sur les problèmes du benchmark. Le K Prize vise à résoudre ce problème en créant un benchmark plus difficile et plus représentatif des problèmes réels. Andy Konwinski a même promis de verser 1 million de dollars à la première modèle open source qui parviendra à scorer plus de 90 % sur le test.
Le futur de l’évaluation de l’IA
Le K Prize est un appel à l’action pour l’industrie de l’IA, qui doit développer des benchmarks plus difficiles et plus représentatifs pour évaluer les capacités des modèles. Selon Andy Konwinski, « si nous ne pouvons même pas obtenir plus de 10 % sur un benchmark SWE-Bench exempt de contamination, c’est la réalité que nous devons affronter ». Le K Prize est un pas important dans cette direction et nous devrions attendre avec impatience les résultats des prochaines éditions.