Web scraping e addestramento dei sistemi di AI: il Garante Privacy avvia un’indagine sulle misure di sicurezza dei siti web

29 Novembre 2023

In data 22 novembre 2023, l’Autorità Garante per la protezione dei dati personali (il “Garante Privacy”) ha comunicato di aver aperto un’indagine conoscitiva sulla raccolta di dati personali online per addestrare gli algoritmi alla base dei sistemi di intelligenza artificiale. In particolare, l’indagine riguarderà siti internet pubblici e privati per verificare l’adozione da parte degli stessi di idonee misure di sicurezza adeguate a impedire la raccolta massiva (c.d. “web scraping”) di dati personali a fini di addestramento degli algoritmi di intelligenza artificiale (IA) da parte di soggetti terzi.

Mettendo a disposizione dati personali online, i siti internet, infatti, in qualità di titolari del trattamento, sono tenuti a garantire che vengano adottare idonee misure di sicurezza affinché tali dati non vengano utilizzati illecitamente da soggetti terzi, ad esempio, per finalità diverse da quelle per le quali sono stati originariamente raccolti. Come è noto, infatti, alla base delle attività di addestramento dei sistemi di intelligenza artificiale vi è proprio un’opera di raccolta massiva di informazioni e dati personali disponibili online per finalità specifiche (quali, cronaca, trasparenza amministrativa, diffusione sui social media) riutilizzate per addestrare e alimentare tali sistemi e, quindi, consentire loro di rigenerare, ricreare, rielaborare e riutilizzare le informazioni per svariate finalità non rese note al momento della raccolta dei dati.

L’indagine, inoltre, è volta a raccogliere commenti e contributi da parte di diversi operatori del mercato, quali associazioni di categoria, associazioni di consumatori, esperti e rappresentanti del mondo accademico al fine di individuare misure di sicurezza adottate e adottabili contro la raccolta massiva di dati.

Ma cosa sappiamo del web scraping?

Il termine "web scraping" (noto anche come "data scraping") si riferisce a una tecnica o a una procedura informatica utilizzata per raccogliere dati con mezzi automatici, senza autorizzazione, da un sito web o da un'applicazione. Questa raccolta di dati online viene tipicamente eseguita utilizzando un programma o uno script specializzati che simulano l'attività di navigazione di utenti reali, con l'obiettivo di analizzare ed estrarre automaticamente informazioni specifiche da domini pubblici o privati. Inoltre, esistono numerosi software in grado di elaborare i dati per crearne database nonché di rielaborare i contenuti analizzati, ad esempio, in formati strutturati, solitamente come dati tabellari o testuali, facilmente riutilizzabili dai sistemi soggetti terzi che se ne avvalgono per loro proprie finalità.

Infatti, il web scraping è un metodo di raccolta dei dati molto utilizzato dai siti web che offrono agli utenti un servizio di confronto delle informazioni provenienti da vari siti. Ad esempio, le piattaforme online che confrontano i prezzi di beni e servizi mirano a fornire agli utenti la possibilità di acquistare al prezzo più conveniente oppure le tecniche utilizzate dai motori di ricerca (c.d. spider) che analizzano il contenuto di siti web per classificarli.

La pratica in sé non è intrinsecamente considerata illegale, ma può presentare profili legali rilevanti in ragione della tipologia di informazioni e dati personali che vengono estratti con tale tecnica e in ragione delle finalità per le quali vengono poi successivamente utilizzati e, pertanto, presentare diversi profili di criticità dal punto di vista legale.

Quali sono i profili legali connessi e derivanti dalle attività di web scraping?

Anche in ragione dell’indagine conoscitiva avviata dal Garante Privacy, sono ben noti i profili legali in materia di trattamento e protezione dei dati personali che questa tecnica solleva; vi sono, inoltre, profili in materia di tutela della proprietà intellettuale qualora le informazioni estratte e utilizzate siano protette dal copyright e vengano utilizzate per scopi non autorizzati, fino ad arrivare a temi di sicurezza informatica derivanti da un accesso non autorizzato ai server di un sito web e a profili di concorrenza sleale qualora dalle attività di web scraping possa derivare l’utilizzo di informazioni competitive per l’ottenimento di uno specifico vantaggio commerciale.

Soffermandosi sui profili in materia di protezione dei dati personali, anche il Garante Privacy, è più volte intervenuto con provvedimenti sanzionatori per arginare l’utilizzo di tali tecniche in violazione della normativa di riferimento, da ultimo con un provvedimento del 17 maggio 2023, con il quale veniva sanzionata una società proprietaria di un portale che aveva creato elenchi telefonici estraendo e un’ingente quantità di nomi, indirizzi e numeri di telefono da utenze online e pubblicandoli.

L’utilizzo di dati personali estratti attraverso tecniche di web scraping può, infatti, comportare un trattamento per finalità diverse da quelle per i quali i dati erano stati precedentemente raccolti dall’interessato, ad esempio, per una successiva loro pubblicazione, diffusione o utilizzo per finalità di marketing e profilazione senza l’individuazione di un’idonea base giuridica e, soprattutto, senza un libero, valido e informato consenso dell’interessato sia al momento dell’effettiva raccolta sia successivamente in sede di loro riutilizzo e, quindi, in violazione delle disposizioni in materia di protezione dei dati personali vigenti.

Come più volte ribadito, infatti, occorre ricordare che il fatto che i dati personali siano pubblici, perché pubblicati, ad esempio, in albi ed elenchi, e che quindi siano per definizione conoscibili da chiunque non significa che essi siano utilizzabili liberamente, cioè senza dover applicare le disposizioni del Regolamento UE 2016/679 e, pertanto, l’utilizzo di tali tecniche può determinare un illecito trattamento di dati personali anche qualora le informazioni siano raccolte da database pubblici.

Allo stesso modo, l’utilizzo di dati personali per addestrare sistemi di intelligenza artificiale, pensiamo, ad esempio, ChatGPT, può comportare un illecito trattamento di dati personali qualora gli stessi siano successivamente utilizzati in assenza di un’idonea base giuridica e in violazione delle disposizioni in materia di protezione dei dati personali vigenti.

Inoltre, l’utilizzo di tecniche di web scraping per addestrare i sistemi di intelligenza artificiale presenta profili di attenzione anche in tema di proprietà intellettuale e il rispetto delle disposizioni in materia di diritto d’autore è oggetto di attenzione da parte del legislatore europeo anche nell’ambito dell’adozione dell’attuale testo di AI Act. Occorre, infatti, considerare che uno dei profili più rilevanti riguarda l’utilizzo di opere protette da copyright/diritto d’autore per creare i database di informazioni e dati che vengono utilizzati per la formazione e l’apprendimento dei sistemi di AI (dati disponibili e accessibili online e ottenuti tramite meccanismi di web scraping). Qualora queste opere siano protette da copyright, la loro utilizzazione – da intendersi quindi come la loro riproduzione, elaborazione, modificazione, distribuzione, etc. – senza autorizzazione potrebbe portare a violazioni dei diritti di privativa spettanti agli autori delle opere.

In considerazione dell’attualità delle tematiche, si sta altresì discutendo se l’attività di analisi condotta dai sistemi di AI per addestrarsi possa essere considerata come una riproduzione, anche se solo temporanea, dei dati e delle fonti utilizzate, incluse le eventuali opere protette o intere porzioni dei database impiegati e, quindi, rientrare in una delle due ipotesi di eccezione alla violazione del copyright in relazione all’attività di “text and data mining” previste dalla Direttiva europea 790/2019 e dal D.lgs. 177/2021, che ha recepito la direttiva. Tuttavia, occorre precisare che l’attività di estrazione da opere ed altri materiali contenuti in reti o in banche di dati, anche per scopi di lucro è consentita a condizione che:

  1. si abbia legittimamente accesso al contenuto ai fini dell’estrazione di testo e di dati;
  2. il titolare del diritto d’autore e dei diritti connessi e/o il titolare del database non abbiano espressamente riservato l’estrazione di testo e di dati (c.d. meccanismo di opt out) “in modo appropriato, ad esempio attraverso strumenti che consentano una lettura automatizzata in caso di contenuti resi pubblicamente disponibili online”, così richiamando tali attività di estrazione al loro controllo esclusivo.

Quali potrebbero essere le misure di sicurezza da adottare?

In attesa di conoscere l’esito dell’indagine conoscitiva del Garante Privacy che sicuramente contribuirà a rendere più chiare e definite le misure di sicurezza che l’Autorità stessa ritiene idonee al fine di consentire ai siti web, in qualità di titolari del trattamento, di arginare la raccolta massiva di dati personali attraverso l’utilizzo di tecniche di web scraping, è possibile individuare alcune misure tecniche che i gestori possono adottare per difendersi da intrusioni “indesiderate” e per evitare l’estrapolazione di informazioni e dati.

Partendo da tecniche quali l’utilizzo di servizi anti-bot, file robots.txt, il blocco degli indirizzi IP dei bot o l’utilizzo di test di verifica come i captcha, per alcuni siti web, ove possibile, la creazione di aree riservate alle quali entrare tramite una procedura di autenticazione consente di rendere le informazioni accessibili tramite più livelli. Inoltre, dal punto di vista legale, risulta essenziale adottare specifici termini di utilizzo del sito che prevedano un divieto assoluto di utilizzare tecniche di web scraping per il recupero sistematico di dati e informazioni. In tal modo, può diventare più agevole intraprendere azioni legali per salvaguardare i propri diritti in caso di violazioni dei termini contrattuali, con l'obiettivo di ottenere un ordine restrittivo e, eventualmente, il risarcimento dei danni subiti.

2024 - Morri Rossetti

I contenuti pubblicati nel presente sito sono protetti da diritto di autore, in base alle disposizioni nazionali e delle convenzioni internazionali, e sono di titolarità esclusiva di Morri Rossetti e Associati.
È vietato utilizzare qualsiasi tipo di tecnica di web scraping, estrazione di dati o qualsiasi altro mezzo automatizzato per raccogliere informazioni da questo sito senza il nostro esplicito consenso scritto.
Ogni comunicazione e diffusione al pubblico e ogni riproduzione parziale o integrale, se non effettuata a scopo meramente personale, dei contenuti presenti nel sito richiede la preventiva autorizzazione di Morri Rossetti e Associati.

cross