La plupart des gens pensent que l’IA générative va continuer à s’améliorer. Après tout, c’est la tendance qui prévaut jusqu’à présent. Et c’est peut-être le cas. Mais ce que certains ne réalisent pas, c’est que les modèles d’IA générative ne sont bons que dans la mesure où ils sont formés à partir d’énormes ensembles de données, et que ces ensembles de données ne sont pas construits à partir de données propriétaires appartenant à des sociétés d’IA de premier plan comme OpenAI et Anthropic. Au lieu de cela, ils sont constitués de données publiques qui ont été créées par nous tous – quiconque a déjà écrit un article de blog, publié une vidéo, commenté un fil de discussion sur Reddit ou fait n’importe quoi d’autre en ligne.
Un nouveau rapport de la Data Provenance Initiative, un collectif de chercheurs bénévoles en IA, met en lumière ce qui se passe avec toutes ces données. Le rapport, intitulé « Consent in Crisis: The Rapid Decline of the AI Data Commons », souligne qu’un nombre important d’organisations qui se sentent menacées par l’IA générative prennent des mesures pour protéger leurs données. Spectre IEEE s’est entretenu avec Shayne Longpre, chercheur principal de la Data Provenance Initiative, à propos du rapport et de ses implications pour les entreprises d’IA.
Shayne Longpre sur :
La technologie utilisée par les sites Web pour empêcher les robots d’exploration Web d’accéder au site n’est pas nouvelle : il s’agit du protocole d’exclusion des robots. a été introduit en 1995. Pouvez-vous expliquer ce que c’est et pourquoi c’est soudainement devenu si pertinent à l’ère de l’IA générative ?
Shayne Longpré
Shayne Longpré : Le fichier robots.txt est un fichier lisible par machine que les robots d’exploration (des robots qui naviguent sur le Web et enregistrent ce qu’ils voient) utilisent pour déterminer s’il faut ou non explorer certaines parties d’un site Web. Il est devenu la norme de facto à une époque où les sites Web l’utilisaient principalement pour orienter la recherche sur le Web. Pensez à Bing ou à Google Search : ils voulaient enregistrer ces informations afin d’améliorer l’expérience de navigation des utilisateurs sur le Web. Il s’agissait d’une relation très symbiotique, car la recherche sur le Web fonctionne en envoyant du trafic vers des sites Web et les sites Web le souhaitent. En règle générale, la plupart des sites Web fonctionnaient bien avec la plupart des robots d’exploration.
Permettez-moi de parler ensuite d’une chaîne d’affirmations qu’il est important de comprendre. Les modèles d’IA à usage général et leurs capacités très impressionnantes reposent sur l’échelle des données et des calculs qui ont été utilisés pour les entraîner. L’échelle et les données comptent vraiment, et il existe très peu de sources qui fournissent une échelle publique comme le fait le Web. De nombreux modèles de base ont été formés sur [data sets composed of] Les crawls du Web. Ces ensembles de données populaires et importants ne comprennent essentiellement que les sites Web et l’infrastructure de crawl utilisée pour collecter, regrouper et traiter ces données. Notre étude ne porte pas uniquement sur les ensembles de données, mais également sur les signaux de préférence provenant des sites Web sous-jacents. Il s’agit de la chaîne d’approvisionnement des données elles-mêmes.
Mais depuis un an, de nombreux sites Internet ont commencé à utiliser le fichier robots.txt pour restreindre les robots, en particulier les sites monétisés par la publicité et les paywalls, comme les sites d’actualité et les artistes. Ils craignent particulièrement, et peut-être à juste titre, que l’IA générative ne vienne perturber leurs moyens de subsistance. Ils prennent donc des mesures pour protéger leurs données.
Lorsqu’un site met en place des restrictions concernant le fichier robots.txt, c’est comme mettre en place un panneau d’interdiction d’accès, n’est-ce pas ? Ce n’est pas exécutoire. Vous devez faire confiance aux robots pour qu’ils le respectent.
Longpré: Le drame, c’est que le fichier robots.txt est lisible par machine, mais ne semble pas juridiquement applicable. En revanche, les conditions d’utilisation peuvent être juridiquement applicables, mais ne sont pas lisibles par machine. Dans les conditions d’utilisation, les utilisateurs peuvent exprimer en langage naturel leurs préférences quant à l’utilisation des données. Ils peuvent ainsi dire : « Vous pouvez utiliser ces données, mais pas à des fins commerciales. » Mais dans un fichier robots.txt, vous devez spécifier individuellement les robots d’exploration, puis indiquer les parties du site Web que vous autorisez ou non pour eux. Cela impose aux sites Web une charge excessive pour déterminer, parmi des milliers de robots d’exploration différents, ceux qui correspondent aux utilisations qu’ils souhaitent et ceux qu’ils ne souhaitent pas.
Savons-nous si les robots d’exploration respectent généralement les restrictions du fichier robots.txt ?
Longpré: De nombreuses grandes entreprises disposent d’une documentation qui indique explicitement quelles sont leurs règles ou procédures. Dans le cas, par exemple, d’Anthropic, elles affirment respecter le fichier robots.txt de ClaudeBot. Cependant, bon nombre de ces entreprises ont également fait la une des journaux ces derniers temps parce qu’elles ont été accusées de pas Il est difficile de comprendre pourquoi les entreprises d’IA ne respectent pas le fichier robots.txt et les sites Web qu’elles explorent. De l’extérieur, il n’est pas évident de comprendre pourquoi il existe une telle divergence entre ce que les entreprises d’IA disent faire et ce dont elles sont accusées. Mais de nombreux groupes pro-sociaux qui utilisent le crawling (petites startups, universitaires, organisations à but non lucratif, journalistes) ont tendance à respecter le fichier robots.txt. Ils ne sont pas la cible visée par ces restrictions, mais ils sont bloqués par elles.
Retour en haut de la page
Dans le rapport, vous avez examiné trois ensembles de données de formation qui sont souvent utilisés pour former des systèmes d’IA génératifs, qui ont tous été créés à partir d’explorations Web au cours des années passées. Vous avez constaté qu’entre 2023 et 2024, il y a eu une augmentation très significative du nombre de domaines explorés qui ont depuis été restreints. Pouvez-vous nous parler de ces conclusions ?
Longpré: Nous avons constaté que si vous examinez un ensemble de données particulier, prenons C4, qui est très populaire, créé en 2019, en moins d’un an, environ 5 % de ses données ont été révoquées si vous respectez ou adhérez aux préférences des sites Web sous-jacents. 5 % ne semble pas beaucoup, mais c’est le cas lorsque vous réalisez que cette partie des données correspond principalement aux données de la plus haute qualité, les mieux entretenues et les plus récentes. Lorsque nous avons examiné les 2 000 premiers sites Web de cet ensemble de données C4 (il s’agit des 2 000 premiers par taille, et il s’agit principalement d’actualités, de grands sites universitaires, de médias sociaux et de sites Web de haute qualité bien organisés), 25 % des données de ces 2 000 premiers ont depuis été révoquées. Cela signifie que la distribution des données d’entraînement pour les modèles qui respectent le fichier robots.txt s’éloigne rapidement des actualités de haute qualité, des sites Web universitaires, des forums et des médias sociaux vers des sites Web plus organisationnels et personnels, ainsi que des sites de commerce électronique et des blogs.
Cela semble être un problème si nous demandons à une future version de ChatGPT ou de Perplexity de répondre à des questions compliquées et qu’elle récupère les informations à partir de blogs personnels et de sites commerciaux.
Longpré: Exactement. Il est difficile de mesurer l’impact de cette situation sur les modèles, mais nous pensons qu’il y aura un écart entre les performances des modèles qui respectent le fichier robots.txt et celles des modèles qui ont déjà sécurisé ces données et qui sont prêts à s’entraîner dessus de toute façon.
Mais les anciens ensembles de données sont toujours intacts. Les entreprises d’IA peuvent-elles simplement utiliser les anciens ensembles de données ? Quel est l’inconvénient de cette situation ?
Longpré: Eh bien, la fraîcheur continue des données est vraiment importante. Il n’est pas non plus certain que le fichier robots.txt puisse s’appliquer rétroactivement. Les éditeurs diraient probablement que c’est le cas. Cela dépend donc de votre appétit pour les poursuites judiciaires ou de la direction que vous pensez que les tendances pourraient prendre, en particulier aux États-Unis, avec les poursuites en cours concernant l’utilisation équitable des données. Le meilleur exemple est évidemment Le New York Times contre OpenAI et Microsoft, mais il existe désormais de nombreuses variantes. Il y a beaucoup d’incertitudes quant à la direction que cela prendra.
Le rapport s’intitule « Le consentement en crise ». Pourquoi considérez-vous qu’il s’agit d’une crise ?
Longpré: Je pense que c’est une crise pour les créateurs de données, en raison de la difficulté à exprimer ce qu’ils veulent avec les protocoles existants. Et aussi pour certains développeurs qui ne sont pas des entreprises commerciales et qui ne sont peut-être même pas liés à l’IA – les universitaires et les chercheurs – qui constatent que ces données deviennent de plus en plus difficiles d’accès. Et je pense que c’est aussi une crise parce que c’est un tel désordre. L’infrastructure n’a pas été conçue pour s’adapter à tous ces cas d’utilisation différents en même temps. Et cela devient finalement un problème à cause de ces énormes industries qui entrent en collision, avec l’IA générative contre les créateurs de nouvelles et d’autres.
Que peuvent faire les entreprises d’IA si cette situation perdure et que de plus en plus de données sont restreintes ? Quelles mesures prendront-elles pour continuer à former des modèles gigantesques ?
Longpré: Les grandes entreprises vont directement les concéder sous licence. Ce ne serait peut-être pas une mauvaise chose pour certaines d’entre elles si une grande partie de ces données était saisie ou difficile à collecter, mais cela créerait simplement un besoin de capital plus important pour entrer sur le marché. Je pense que les grandes entreprises investiront davantage dans le pipeline de collecte de données et dans l’accès continu à des sources de données précieuses générées par les utilisateurs, comme YouTube, GitHub et Reddit. Acquérir un accès exclusif à ces sites est probablement une stratégie de marché intelligente, mais problématique du point de vue de la concurrence. Je suis particulièrement préoccupé par les relations d’acquisition de données exclusives qui pourraient en résulter.
Retour en haut de la page
Pensez-vous que les données synthétiques peuvent combler cette lacune ?
Longpré: Les grandes entreprises utilisent déjà des données synthétiques en grande quantité. Les données synthétiques suscitent à la fois des craintes et des opportunités. D’un côté, une série de travaux ont démontré le risque d’effondrement des modèles, c’est-à-dire la dégradation d’un modèle due à un entraînement sur des données synthétiques de mauvaise qualité qui peuvent apparaître plus souvent sur le Web à mesure que de plus en plus de robots génératifs sont lâchés. Cependant, je pense qu’il est peu probable que les grands modèles soient gênés car ils disposent de filtres de qualité, ce qui permet d’éliminer les éléments de mauvaise qualité ou répétitifs. Et les opportunités des données synthétiques se présentent lorsqu’elles sont créées dans un environnement de laboratoire pour être de très haute qualité et qu’elles ciblent particulièrement des domaines sous-développés.
Croyez-vous que nous ayons atteint un pic de production de données ? Ou pensez-vous qu’il s’agit là d’une inquiétude exagérée ?
Longpré: Il existe de nombreuses données inexploitées. Mais curieusement, une grande partie de ces données se cache derrière les fichiers PDF. Il faut donc faire appel à la reconnaissance optique de caractères (OCR). [optical character recognition]. De nombreuses données sont stockées dans des systèmes gouvernementaux, dans des canaux propriétaires, dans des formats non structurés ou difficiles à extraire comme les PDF. Je pense que les investissements pour trouver comment extraire ces données seront bien plus importants. Je pense qu’en termes de données facilement disponibles, de nombreuses entreprises commencent à se heurter à des obstacles et à se tourner vers les données synthétiques.
Quelle est la tendance ici ? Pensez-vous que davantage de sites Web mettront en place des restrictions sur le fichier robots.txt dans les années à venir ?
Longpré: Nous nous attendons à ce que les restrictions augmentent, à la fois dans le fichier robots.txt et en termes de service. Ces tendances sont très claires dans notre travail, mais elles pourraient être affectées par des facteurs externes tels que la législation, les changements de politique des entreprises elles-mêmes, l’issue des procès, ainsi que la pression de la communauté des syndicats d’écrivains et d’autres choses de ce genre. Et je m’attends à ce que la marchandisation accrue des données crée un champ de bataille plus vaste dans ce domaine.
Que souhaiteriez-vous voir se produire en termes de normalisation au sein de l’industrie pour permettre aux sites Web d’exprimer plus facilement leurs préférences en matière d’exploration ?
Longpré: À la Data Province Initiative, nous espérons vraiment que de nouvelles normes émergeront et seront adoptées pour permettre aux créateurs d’exprimer leurs préférences de manière plus détaillée concernant l’utilisation de leurs données. Cela leur faciliterait grandement la tâche. Je pense que c’est une évidence et que tout le monde y gagne. Mais on ne sait pas clairement à qui revient la tâche de créer ou de faire respecter ces normes. Ce serait formidable si les [AI] Les entreprises elles-mêmes pourraient en arriver à cette conclusion et le faire. Mais le concepteur de la norme aura presque inévitablement un parti pris quant à son propre usage, surtout s’il s’agit d’une entité commerciale.
Il est également vrai que les préférences ne doivent pas être respectées dans tous les cas. Par exemple, je ne pense pas que les universitaires ou les journalistes qui font de la recherche prosociale devraient nécessairement être empêchés d’accéder à des données avec des machines qui sont déjà publiques, sur des sites Web que n’importe qui pourrait consulter lui-même. Toutes les données ne sont pas égales et toutes les utilisations ne sont pas égales.
Retour en haut de la page
Articles de votre site
Articles connexes sur le Web