Reddit bloque les archives et, à la surprise de quiconque, la faute est AI

Reddit bloque les archives et, à la surprise de quiconque, la faute est AI

Reddit continue de prendre des mesures pour empêcher les sociétés d’IA d’accéder à leur contenu sans consentement pour former leurs modèles linguistiques. À cette occasion, la plate-forme a décidé de bloquer les archives Internet afin que, précisément, il ne puisse plus déposer ses pages via la machine Wayback.

Selon les publications Le vergeLa société considère que les entreprises profitent d’une zone grise pour continuer à accéder aux publications de ses utilisateurs. Reddit pense qu’ils utilisent les versions archivées via la machine Wayback pour Caresser Vos informations. C’est pourquoi les responsables ont choisi de restreindre l’accès à l’Internet des archives.

À partir de maintenant, Reddit permettra à Internet d’archiver indexer la page principale de sa version Web. À partir de maintenant, la machine Wayback ne pourra plus accéder aux détails des publications, des commentaires ou des informations de profil. De cette façon, la société dirigée par Steve Huffman commence un nouvel assaut contre les sociétés qui accèdent à leur contenu sans autorisation.

Ce n’est pas la première fois que Reddit met des sociétés d’intelligence artificielle sous les projecteurs. Au milieu de l’année dernière, le site a annoncé qu’il modifierait le protocole robots.txt pour bloquer le Grattage automatisé. À cette époque, il a été dit que les archives Internet ne seraient pas affectées par la décision, mais il est évident que cela a maintenant changé.

« Internet Archive fournit un service Web ouvert, mais nous avons été avertis des cas où les entreprises violent les politiques des plateformes, y compris la nôtre, pour extraire les données de la machine Wayback », a déclaré un porte-parole de Reddit Le verge.

Reddit bloque la machine Wayback à partir des archives Internet

Crédit: Ralf Muehlen

La machine Archive Wayback est un outil extrêmement utile qui permet d’archiver les sites Web dans une bibliothèque numérique complète. Cela joue un rôle fondamental pour les efforts de préservation du contenu en ligne, en particulier en ce qui concerne les matériaux assez anciens ou qui appartiennent à des portails qui n’existent plus. Mais il sert également à maintenir un contrôle assez fort sur les modifications apportées sur certains sites Web; Surtout lorsqu’ils sont spécifiés sous le radar.

Avec Reddit bloquant la possibilité d’archiver son contenu, leur disponibilité sur la plate-forme Internet Archive diminuera considérablement. Il est important de se rappeler que la société a des accords avec Google et Openai pour former leur IA en utilisant leur contenu. Tandis qu’il y a longtemps, il a poursuivi Anthropic pour avoir prétendument extrait ses données sans autorisation, même après que les responsables de Claude ont déclaré qu’ils ne l’avaient plus fait.

Internet Archive a été une nouvelle à la fin de l’année dernière pour un piratage à Wayback Machine. L’incident a provoqué la filtration de données de millions d’utilisateurs et a laissé la bibliothèque hors service pendant plusieurs jours. Pour le moment, ni la plate-forme ni Brewster Kahle, son fondateur, n’ont parlé du bloc Reddit.

A lire également