Tech

I prossimi cambiamenti di Reddit cercano di proteggere la piattaforma contro i crawler AI

Tempo americano Saturday, July 20 2024

Reddit ha annunciato martedì che sta aggiornando il suo Protocollo di Esclusione dei Robot (file robots.txt), che dice ai bot web automatizzati se sono autorizzati a eseguire lo scraping di un sito.

Storicamente, il file robots.txt veniva utilizzato per consentire ai motori di ricerca di eseguire lo scraping di un sito e quindi indirizzare le persone verso i contenuti. Tuttavia, con la crescita dell'AI, i siti web vengono sottoposti a scraping e utilizzati per addestrare modelli senza riconoscere la fonte effettiva dei contenuti.

Oltre al file robots.txt aggiornato, Reddit continuerà a limitare la velocità e a bloccare i bot e i crawler sconosciuti dall'accesso alla piattaforma. L'azienda ha detto a TechCrunch che i bot e i crawler verranno limitati in base alla velocità o bloccati se non rispettano la Politica dei Contenuti Pubblici di Reddit e non hanno un accordo con la piattaforma.

Reddit afferma che l'aggiornamento non dovrebbe interessare la maggior parte degli utenti o degli attori di buona fede, come ricercatori e organizzazioni, come l'Internet Archive. Invece, l'aggiornamento è progettato per scoraggiare le aziende AI dall'addestrare i propri grandi modelli di lingua sui contenuti di Reddit. Naturalmente, i crawler AI potrebbero ignorare il file robots.txt di Reddit.

L'annuncio arriva pochi giorni dopo che un'indagine di Wired ha scoperto che la start-up di ricerca alimentata dall'AI Perplexity ha rubato e fatto scraping di contenuti. Wired ha scoperto che Perplexity sembra ignorare le richieste di non eseguire lo scraping del proprio sito web, anche se ha bloccato la start-up nel suo file robots.txt. Il CEO di Perplexity, Aravind Srinivas, ha risposto alle accuse dicendo che il file robots.txt non è un quadro legale.

I prossimi cambiamenti di Reddit non influiranno sulle aziende con cui ha un accordo. Ad esempio, Reddit ha un accordo da 60 milioni di dollari con Google che permette al gigante della ricerca di addestrare i propri modelli AI sui contenuti della piattaforma sociale. Con questi cambiamenti, Reddit sta segnalando ad altre aziende che vogliono usare i dati di Reddit per l'addestramento dell'IA che dovranno pagare.

“Chiunque acceda ai contenuti di Reddit deve rispettare le nostre politiche, comprese quelle in atto per proteggere i redditers,” ha detto Reddit in un post sul blog. “Siamo selettivi riguardo a chi lavoriamo e a chi affidiamo un accesso su larga scala ai contenuti di Reddit.”

L'annuncio non sorprende, poiché Reddit ha rilasciato una nuova politica qualche settimana fa progettata per guidare come i dati di Reddit vengono accessi e utilizzati da entità commerciali e altri partner.

Tempo americano 3 weeks ago