L’utilisation de l’intelligence artificielle (IA) par les entreprises technologiques est devenue une pratique courante ces dernières années. Cependant, cela peut parfois entraîner des problèmes juridiques, notamment lorsqu’il s’agit d’utilisation de données protégées par des droits d’auteur pour entraîner les modèles d’IA. C’est le cas d’Adobe, qui est actuellement au cœur d’une nouvelle vague de litiges liés à l’utilisation de livres piratés pour entraîner ses modèles d’IA.
L’utilisation de livres piratés pour entraîner les modèles d’IA
Adobe a lancé plusieurs services d’IA ces dernières années, dont Firefly, une suite de génération de médias alimentée par l’IA. Cependant, la société est maintenant confrontée à des poursuites judiciaires pour avoir utilisé des livres piratés pour entraîner l’un de ses modèles d’IA, appelé SlimLM. Ce modèle est décrit comme une série de modèles de langage de petite taille qui peuvent être optimisés pour des tâches d’assistance documentaire sur les appareils mobiles. Selon les informations, le modèle SlimLM a été entraîné sur un jeu de données appelé SlimPajama-627B, qui est un jeu de données dédupliqué, multi-corpora et open-source publié par Cerebras en juin 2023. Cependant, un auteur de l’Oregon, Elizabeth Lyon, affirme que certains de ses ouvrages ont été inclus dans le jeu de données utilisé pour entraîner le modèle SlimLM.
Les conséquences juridiques de l’utilisation de données protégées par des droits d’auteur
La poursuite judiciaire intentée contre Adobe est une nouvelle illustration des problèmes juridiques que peuvent poser l’utilisation de données protégées par des droits d’auteur pour entraîner les modèles d’IA. Le jeu de données Books3, qui contient 191 000 livres, a déjà été au cœur de plusieurs affaires judiciaires. En septembre, une poursuite judiciaire a été intentée contre Apple pour avoir utilisé des matériaux protégés par des droits d’auteur pour entraîner son modèle d’IA Apple Intelligence. De même, en octobre, une poursuite judiciaire a été intentée contre Salesforce pour avoir utilisé le jeu de données RedPajama pour entraîner son modèle d’IA. Ces affaires montrent que les entreprises technologiques doivent être prudentes lorsqu’elles utilisent des données pour entraîner leurs modèles d’IA, car cela peut entraîner des conséquences juridiques graves.
Les implications pour l’industrie technologique
Les poursuites judiciaires contre Adobe et d’autres entreprises technologiques pour l’utilisation de données protégées par des droits d’auteur pour entraîner les modèles d’IA ont des implications importantes pour l’industrie technologique. Les entreprises doivent être conscientes des risques juridiques associés à l’utilisation de données protégées par des droits d’auteur et prendre des mesures pour s’assurer que leurs modèles d’IA sont entraînés sur des données licites. Cela peut nécessiter la mise en place de processus de vérification et de validation des données, ainsi que la conclusion d’accords de licence avec les propriétaires des droits d’auteur. Les entreprises qui ne prennent pas ces précautions risquent de faire face à des poursuites judiciaires coûteuses et à des dommages à leur réputation. En fin de compte, il est essentiel pour les entreprises technologiques de trouver un équilibre entre l’utilisation de l’IA pour améliorer leurs produits et services, et le respect des droits d’auteur et des lois sur la propriété intellectuelle.