Web scraping e LLM: al via le nuove linee guida del Garante

di Giovanni Di Stefano e Andrea Antonio Sessa
Uno dei temi più controversi e dibattuti nell’ambito delle intelligenze artificiali è l’utilizzo della pratica del web scraping per addestrare le IA c.d. Large Language Model (LLM). Questa attività risale all’introduzione dello standard http/1.1 e consiste nella raccolta di informazioni, in maniera massiva e sistematica tramite operazioni manuali o automatizzate (con l’ausilio di bot crowler), e nella loro successiva conservazione presso delle banche dati ad hoc. Il web scraping può essere diretto o indiretto, rispettivamente utilizzando bot per la creazione di nuove banche dati o accedendo a delle ulteriori già esistenti. Risulta complessa la circoscrizione del perimento di lic. . .