Ziff Davis ha condotto uno studio per analizzare la correlazione tra Domain Authority (DA) e le preferenze dei Large Language Models (LLM) nell'addestramento sui dati web. L'obiettivo era comprendere quali contenuti vengono privilegiati e come questo influisce sull'intelligenza artificiale.

Principali risultati dello studio

  • Gli LLM danno più peso ai dataset curati e di alta qualità rispetto ai dati grezzi del web.
  • I contenuti di editori con alta DA dominano questi dataset curati.
  • Dataset come OpenWebText e OpenWebText2 contengono una percentuale molto più alta di contenuti autorevoli rispetto a dataset non filtrati come Common Crawl.
  • Gli sviluppatori di LLM preferiscono i contenuti di grandi editori per garantire qualità e credibilità.

Dataset analizzati

Lo studio ha esaminato quattro dataset chiave utilizzati per addestrare gli LLM:

  • Common Crawl: raccolta non filtrata di contenuti web.
  • C4: versione pulita di Common Crawl con rimozione di contenuti duplicati o di bassa qualità.
  • OpenWebText: replica del dataset WebText di OpenAI, focalizzato su contenuti di qualità linkati da Reddit.
  • OpenWebText2: aggiornamento di OpenWebText con un dataset più ampio e selezionato.

Metodo di selezione degli editori

Gli editori analizzati sono stati selezionati utilizzando i dati di traffico web di Comscore (agosto 2020), concentrandosi sui 15 principali editori nel settore dei media e escludendo aziende tecnologiche e piattaforme di contenuti generati dagli utenti.

Ruolo del Domain Authority (DA)

Il Domain Authority di Moz è stato utilizzato per misurare l'influenza e la qualità dei contenuti nei dataset di addestramento degli LLM.

  • I dataset non curati contengono prevalentemente siti con bassa DA.
  • I dataset curati privilegiano i contenuti di alta DA, dimostrando una chiara correlazione tra l’autorevolezza del sito e la probabilità di essere incluso nei modelli AI.

Implicazioni per la SEO

  • Il contenuto di qualità rimane un fattore chiave per la visibilità online.
  • I backlink da fonti autorevoli sono fondamentali sia per la SEO che per la visibilità nei motori di ricerca basati su AI.
  • La costruzione di un brand forte è altrettanto importante quanto il DA. Il 57,9% degli editori analizzati aveva un punteggio elevato di Brand Authority, segnalando un vantaggio competitivo.
  • Le aziende AI stanno stringendo accordi con grandi editori per l’uso dei contenuti, ma la presenza nei dataset non è garantita solo dalla licenza.

Gli LLM favoriscono i contenuti di alta qualità da fonti autorevoli. Per ottimizzare la visibilità nella ricerca generativa, i professionisti SEO devono concentrarsi sulla produzione di contenuti di valore, ottenere backlink da siti affidabili e rafforzare il proprio brand online.

Il ruolo dei contenuti editoriali nel processo di addestramento degli LLM

I modelli linguistici di grandi dimensioni (LLM) funzionano prevedendo il testo successivo in base al contesto precedente. Per raggiungere livelli avanzati di elaborazione del linguaggio, i loro sviluppatori li addestrano utilizzando enormi quantità di dati testuali.

L'efficacia di un LLM dipende in gran parte dalla vastità e dalla qualità del corpus di addestramento. Per costruire questi modelli, le aziende copiano e acquisiscono grandi volumi di testo disponibile sul web. Tuttavia, non tutti i testi presenti in rete hanno lo stesso valore agli occhi degli sviluppatori di LLM.

Questo articolo esamina i dati di addestramento pubblicati dai principali team di ricerca sulle IA e analizza i dataset utilizzati. L’analisi mostra che i dataset chiave per l'addestramento degli LLM sono composti in modo sproporzionato da contenuti di alta qualità prodotti da editori commerciali, in particolare quelli del settore dell’informazione e dei media. I colossi dell’intelligenza artificiale hanno dato priorità a questi contenuti sin dall'inizio dello sviluppo dei loro modelli.

Man mano che gli LLM sono passati dall'essere semplici progetti di ricerca ad asset intellettuali di valore inestimabile, le aziende che li sviluppano hanno smesso di pubblicare dettagli sui dati di addestramento, mentre gli editori hanno avviato azioni legali nei loro confronti. Giudici e legislatori stanno ora affrontando importanti questioni legate ai diritti di proprietà intellettuale e all’innovazione tecnologica.

L’obiettivo di questo articolo è fornire una panoramica basata su dati concreti per comprendere meglio il ruolo fondamentale dei contenuti editoriali nel processo di addestramento degli LLM, contribuendo così a una discussione pubblica più informata.

Dataset analizzati

Abbiamo analizzato quattro dataset principali utilizzati nell’addestramento degli LLM:

  • Common Crawl
  • Colossal Clean Crawled Corpus (C4)
  • OpenWebText
  • OpenWebText2

Ognuno di questi dataset è un corpus di testi raccolti dal web e successivamente elaborati con diversi livelli di filtraggio e pulizia. Si distinguono tra loro per il grado di elaborazione applicato: si passa dalla semplice estrazione di testo grezzo alla rimozione di contenuti di bassa qualità, fino alla selezione più accurata dei dati.

Abbiamo scelto di concentrarci su questi dataset perché sono tra i più utilizzati nell’addestramento di LLM commerciali che hanno rappresentato una svolta nel settore. Inoltre, ci sono prove che suggeriscono che continuano a influenzare i modelli di ultima generazione.

Common crawl

La versione di Common Crawl da noi analizzata contiene 3,15 miliardi di pagine web.

Common Crawl è un’organizzazione no-profit che gestisce un archivio pubblico di dati raccolti dal web. Il sistema esegue una scansione dell'intera rete circa una volta al mese e rende disponibili i dataset risultanti. Questi dati vengono utilizzati per addestrare modelli di intelligenza artificiale e per altre applicazioni.

Ogni versione di Common Crawl include l'intero testo grezzo delle pagine web raccolte, insieme a metadati ed estratti di testo. Per l’addestramento degli LLM, viene solitamente utilizzato solo il testo estratto, che funge da riferimento per valutare l'effetto della pulizia e della selezione dei contenuti.

C4

Il dataset Colossal Clean Crawled Corpus (C4), invece, contiene 365 milioni di pagine web ed è una versione ripulita di Common Crawl.

C4 è stato sviluppato con un processo di pulizia che ha eliminato:

  • testi non in inglese
  • contenuti privi di senso
  • menu di navigazione e boilerplate
  • frammenti di codice
  • testi offensivi o eccessivamente brevi
  • duplicati

Google ha creato il dataset C4 e lo ha usato per addestrare i modelli T5 e LaMDA. Anche Meta ha impiegato C4 per addestrare LLaMA.

Openwebtext

Il dataset OpenWebText, che contiene 23 milioni di pagine web, è stato creato come alternativa open-source al dataset WebText utilizzato da OpenAI per addestrare GPT-2.

Il dataset WebText di OpenAI si basava su una selezione manuale dei contenuti effettuata dagli utenti di Reddit: venivano estratti solo i testi collegati da post e commenti che avevano ricevuto almeno tre upvote. L’idea alla base di questa scelta era che il numero di upvote fosse un indicatore del valore informativo, educativo o umoristico della pagina.

Il dataset OpenWebText è stato creato replicando i passaggi dichiarati da OpenAI nella documentazione su GPT-2. Sebbene non sia una copia esatta, ha una sostanziale sovrapposizione con il WebText originale ed è considerato un suo valido sostituto.

Openwebtext2

Il dataset OpenWebText2, con 17 milioni di pagine web, è stato sviluppato come versione aggiornata di OpenWebText per replicare il dataset WebText2 di OpenAI, utilizzato per addestrare GPT-3.

WebText2 è stato menzionato in uno studio di OpenAI del 2020 come un’espansione di WebText, creata raccogliendo dati da Reddit su un periodo più lungo.

L’organizzazione EleutherAI ha sviluppato OpenWebText2 raccogliendo contenuti dai link presenti su Reddit con almeno tre upvote, coprendo un arco temporale dal 2005 fino ad aprile 2020, vicino alla data di cutoff del training di GPT-3. Il dataset è stato poi rilasciato con licenza open-source MIT.

Utilizzo nell'addestramento di modelli rivoluzionari

CC, C4, WebText e WebText2 sono stati utilizzati per addestrare i modelli LLM rivoluzionari che hanno gettato le basi per le principali aziende commerciali di LLM di oggi.

Ecco gli LLM che sono stati addestrati su questi dataset, insieme ad altre fonti di dati di addestramento note:

DatasetGPT-2GPT-3T5LaMDALLaMA
Common Crawl✓ (filtered)✓ (filtered)
C4
Other web
"Public forums"
WebText
WebText2
Wikipedia
Books corpora

Degno di nota è il fatto che WebText2 ha ricevuto un peso del 22% nell'addestramento di GPT-3, nonostante rappresentasse solo il 3,8% dei token, secondo quanto rivelato da OpenAI nel suo articolo su GPT-3.

Fonte: Brown et al., p. 9

DatasetQuantity (tokens)Weight in training mixEpochs elapsed when training for 300B tokens
Common Crawl (filtered)410 billion60%0.44
WebText219 billion22%2.9
Books112 billion8%1.9
Books255 billion8%0.43
Wikipedia3 billion3%3.4

Nel loro articolo, gli autori di OpenAI hanno inoltre affermato:

«Durante l'addestramento, i dataset non vengono campionati in proporzione alla loro dimensione, ma piuttosto i dataset che consideriamo di qualità superiore vengono campionati più frequentemente, in modo tale che i dataset CommonCrawl e Books2 vengano campionati meno di una volta durante l'addestramento, mentre gli altri dataset vengono campionati 2-3 volte», con WebText2 campionato 2,9 volte (in "epoche"), come mostrato sopra.

L'oversampling e il sovrappeso attribuiti da OpenAI a WebText2 dimostrano che ha dato priorità ai dataset di testo web di alta qualità in un momento cruciale della sua storia aziendale e dello sviluppo dei suoi prodotti. Come vedremo, l'elevata qualità di WebText2 è determinata dalla sua composizione sproporzionata di contenuti multimediali web prodotti commercialmente.

Meta ha trovato un altro modo per enfatizzare i testi web curati.

Fonte: Touvron et al., p. 2

DatasetSampling prop.EpochsDisk size
CommonCrawl67.0%1.103.3 TB
C415.0%1.06783 GB
Github4.5%0.64328 GB
Wikipedia4.5%2.4583 GB
Books4.5%2.2385 GB
ArXiv2.5%1.0692 GB
StackExchange2.0%1.0378 GB

Sebbene apparentemente si limiti a campionare Common Crawl e C4 senza un peso sproporzionato o campionamenti frequenti (come mostrato nella figura del documento su LLaMA sopra), Meta ha delegato la curazione di Common Crawl agli scrittori umani di Wikipedia. Ha inizialmente utilizzato un algoritmo esistente per deduplicare i dati di Common Crawl, rimuovere le pagine non in inglese e eliminare i contenuti di bassa qualità. Successivamente, ha addestrato e utilizzato un modello di classificazione del testo per individuare le pagine nel set di dati filtrato di Common Crawl che vengono utilizzate come citazioni di riferimento negli articoli di Wikipedia scritti da esseri umani e scartare quelle che non lo sono.

Il “Common Crawl” risultante è stato quindi sia filtrato che curato per la qualità, in modo simile a WebText e WebText2 (ma delegando a Wikipedia invece che a Reddit).

Oltre a fungere da proxy per WebText e WebText2, OpenWebText e OpenWebText2 sono stati utilizzati dai principali sviluppatori di LLM per addestrare modelli di ricerca e modelli commerciali. Anthropic ha addestrato un LLM su OpenWebText.

Apple, Nvidia e Salesforce hanno utilizzato OpenWebText2 come parte di una raccolta di dataset di addestramento chiamata The Pile, rilasciata da EleutherAI, per addestrare LLM:

  • Apple ha addestrato il suo LLM OpenELM su The Pile, insieme ad altri dataset.
  • Nvidia ha addestrato il suo LLM NeMo Megatron-GPT 20B su The Pile.
  • Salesforce ha addestrato il suo LLM CodeGen su The Pile, tra altri tre dataset.
  • BloombergGPT è stato addestrato su The Pile (che include OpenWebText2), C4 e un dataset proprietario che costituisce la maggior parte del FinPile di Bloomberg.
  • Databricks ha addestrato il suo LLM Dolly v2 su The Pile.

Relazione con i Modelli di Frontiera

Questi modelli fondamentali sono i predecessori dei modelli di frontiera di oggi. Sebbene i dati di addestramento di questi ultimi siano mantenuti segreti, ci sono prove che i vecchi dataset pubblici continuino a influenzare i nuovi modelli.

1. OpenAI

  • GPT-2 e GPT-3 hanno preceduto direttamente GPT-3.5, il modello originale dietro ChatGPT, che ha avuto un ruolo fondamentale nella rapida ascesa dell'AI generativa e nell'aumento della valutazione delle aziende di LLM.
  • GPT-4 e GPT-4o sono seguiti a GPT-3/3.5.
  • OpenAI ha rifiutato di divulgare i dati di addestramento di GPT-4 e GPT-4o.
  • GPT-4o è ora considerato il modello LLM più avanzato. OpenAI è stata recentemente valutata oltre 80 miliardi di dollari.

2. Google

  • LaMDA è stato il modello alla base del primo rilascio del chatbot Bard di Google e del prodotto di ricerca Search Generative Experience.
  • La famiglia di modelli LaMDA ha preceduto la famiglia di modelli PaLM di Google, seguita successivamente dalla famiglia di modelli di frontiera Gemini.

La capitalizzazione di mercato di Alphabet è attualmente di 2.000 miliardi di dollari. Il CEO di Google DeepMind, Demis Hassabis, ha recentemente dichiarato che Google spenderà oltre 100 miliardi di dollari nello sviluppo della tecnologia AI.

3. Meta

La famiglia di modelli LLaMA di Meta si è sviluppata rapidamente dalla sua prima versione. Meta ha rilasciato tre versioni di LLaMA sotto una licenza personalizzata, nominalmente open-source. Tuttavia, non divulga più in dettaglio i dati di addestramento di LLaMA, affermando che LLaMA 2 e LLaMA 3 sono stati addestrati su “una nuova combinazione di dati online pubblicamente disponibili”.

  • LLaMA 3 viene utilizzato per alimentare un chatbot multimodale di generative AI chiamato Meta AI, disponibile come prodotto autonomo e integrato nelle principali piattaforme social di Meta: Facebook, Instagram, WhatsApp e Messenger.
  • La capitalizzazione di mercato di Meta è attualmente di 1.500 miliardi di dollari.
    • Nel comunicato sugli utili del primo trimestre 2024, Meta ha dichiarato di aver aumentato le spese in conto capitale annuali previste per il 2024 a 35-40 miliardi di dollari (da 30-37 miliardi) per investimenti nell'infrastruttura AI.
    • Meta prevede ulteriori aumenti di spese in conto capitale nel 2024 “investendo in modo aggressivo per supportare le nostre ambiziose attività di ricerca e sviluppo AI”.

4. Tendenze attuali nella divulgazione

I principali sviluppatori di LLM non divulgano più i dati di addestramento come facevano in passato. Sono ora più commerciali e meno trasparenti.

  • OpenAI e Google non hanno divulgato i dati di addestramento per i loro ultimi modelli di frontiera, e lo stesso vale per Meta, Anthropic, Cohere e Mistral.
  • Quando commentano i dati di addestramento, queste aziende enfatizzano l'uso di dati “pubblicamente disponibili” online, ma omettono i dettagli.

Esempi:

  • OpenAI dichiara di aver addestrato GPT-4 su “dati pubblicamente disponibili (come dati da internet) e dati concessi in licenza da fornitori terzi.”
  • Anthropic, che non ha mai pubblicato dettagli sull'addestramento, afferma che i modelli Claude sono addestrati su “una combinazione proprietaria di informazioni pubblicamente disponibili da internet, dataset concessi in licenza da aziende terze e dati condivisi esplicitamente dagli utenti o forniti dai lavoratori in crowdsourcing.”
  • Meta ha fatto una dichiarazione simile, come citato sopra nella sottosezione iii.

Nonostante questa mancanza di trasparenza, i modelli attuali hanno più che un semplice legame "ereditato" con i precedenti dataset dichiarati, contenenti contenuti web curati di alta qualità. Quel tipo di contenuto sembra essere indispensabile per costruire un LLM. È stato fondamentale per l'addestramento di GPT-3, LLaMA e altri modelli rivoluzionari, e non siamo a conoscenza di alcun cambiamento architettonico fondamentale che possa rendere ciò non più necessario.

In effetti, le dichiarazioni delle aziende di LLM fatte nell'ultimo anno riguardo agli accordi di licenza con editori web commerciali indicano che il bisogno di dati di alta qualità per l'addestramento è diventato ancora più urgente man mano che i developer competono per scalare i loro modelli.

Esempi di accordi di licenza:

  • Brad Lightcap, COO di OpenAI, sull'accordo con Associated Press:
    • “L’accesso all'archivio di testo di alta qualità e fattuale dell'AP…aiuterà a migliorare le capacità e l'utilità dei sistemi di OpenAI.”
  • Comunicato congiunto sull'accordo di licenza con Axel Springer:
    • “L’iniziativa arricchirà l’esperienza degli utenti di ChatGPT aggiungendo contenuti recenti e autorevoli su un'ampia gamma di argomenti, valorizzando esplicitamente il ruolo degli editori nel contribuire ai prodotti di OpenAI.”
  • Comunicato congiunto sull'accordo di licenza con News Corp:
    • “Uniremo le forze con News Corp per…arricchire i nostri prodotti con il suo giornalismo premium…Grazie a questa partnership, OpenAI ha il permesso di migliorare i propri prodotti, con l’obiettivo finale di fornire alle persone la possibilità di fare scelte informate basate su informazioni e fonti di notizie affidabili.”

Inoltre, un recente modello e prodotto AI sono direttamente collegati a uno dei dataset che abbiamo analizzato.

Un'analisi accademica approfondita di OpenAI (come azienda leader nel settore degli LLM) rivela un legame diretto tra WebText2 e GPT-3.5/ChatGPT. Tra il modello originale GPT-3, addestrato su WebText2, e GPT-3.5, che è alla base di ChatGPT, OpenAI ha creato numerosi modelli intermedi senza divulgare completamente le relazioni tra essi.

Si tratta di una struttura complessa, ma un’analisi dettagliata condotta da uno studioso dell’Allen Institute for AI ha trovato che il pre-addestramento fondamentale dell’intera famiglia di modelli GPT-3/3.5 ha avuto luogo nella fase iniziale di GPT-3/WebText2.

GPT-3 Series

  1. GPT-3 Initial: Addestramento su larga scala su dati di linguaggio generale. Modello noto come Davinci.
  2. Diramazioni dalla base di GPT-3:
    • Codex Initial: Addestramento aggiuntivo su codice, portando ai modelli:
      • Code-davinci-001
      • Code-cushman-001
    • InstructGPT Initial: Messa a punto per seguire istruzioni, portando ai modelli:
      • Instruct-davinci-beta
      • Text-davinci-001
  3. Integrazione di Codex e InstructGPT:
    • Combinazione di addestramento linguistico e su codice con ulteriore messa a punto per istruzioni, portando al modello:
      • Code-davinci-002

GPT-3.5 Series

  1. Text-davinci-002: Evoluzione con tuning supervisionato basato su istruzioni.
  2. Text-davinci-003: Sviluppato tramite RLHF (Reinforcement Learning with Human Feedback).
  3. ChatGPT: Ulteriore messa a punto supervisionata con RLHF, rendendolo ottimizzato per interazioni conversazionali.

Questa roadmap mostra come OpenAI abbia progressivamente migliorato le capacità dei modelli passando da linguaggio generale a istruzioni, codice e conversazioni.

Editori Commerciali

Abbiamo scelto un insieme di principali editori commerciali da analizzare nei dataset di addestramento dei modelli linguistici (LLM), basandoci su classifiche contemporanee relative al traffico aggregato dei principali editori web. In particolare:

  • Classifiche di traffico web (per visitatori unici):
    Estratte da Comscore (società leader nella misurazione del traffico per la pubblicità online) per la categoria Media su desktop e mobile ad agosto 2020, mese corrispondente all'ultimo aggiornamento dei dataset rilevanti, incluso WebText2.
  • Criteri di selezione:
    Abbiamo applicato filtri discrezionali per limitare la classifica ai primi 15 editori con portafoglio diversificato, escludendo:

    1. Editori con una sola proprietà.
    2. Aziende tecnologiche non legate ai media.
    3. Piattaforme di contenuti generati dagli utenti.
    4. Aziende di intrattenimento (eccezione: News Corp, per la sua significativa attività editoriale digitale).
  • Consolidamento delle sussidiarie:
    Quando un editore nella classifica era una sussidiaria di un'organizzazione più grande, abbiamo considerato l'organizzazione principale. In alcuni casi, più editori dello stesso livello di classifica sono stati consolidati.

    • Esempio: News Corp è stata sostituita a Fox Corporation e NY Post Network.

Elenco finale degli editori selezionati

Con i relativi marchi sussidiari tra parentesi:

  1. Advance (Condé Nast, Advance Local)
  2. Alden Global Capital (Tribune Publishing, MediaNews Group)
  3. Axel Springer
  4. Bustle Digital Group
  5. Buzzfeed, Inc.
  6. Future plc
  7. Gannett
  8. Hearst
  9. IAC (Dotdash Meredith e altre divisioni)
  10. News Corp
  11. The New York Times Company
  12. Penske Media Corporation
  13. Vox Media
  14. The Washington Post
  15. Ziff Davis

Questo elenco rappresenta i principali attori del panorama editoriale commerciale, scelti per la loro influenza e traffico significativo nel periodo analizzato.

Domain Authority

La Domain Authority (o DA) è una metrica ampiamente utilizzata, originariamente sviluppata da Moz, una società di ottimizzazione per i motori di ricerca (SEO).

L'algoritmo utilizzato per determinare la Domain Authority è proprietario. In termini generali, la metrica è progettata per assegnare un valore quantitativo alla "capacità di posizionamento" di un particolare dominio. Ai domini e alle pagine web viene assegnato un punteggio da 1 a 100, con 100 che rappresenta la massima probabilità di ottenere un alto posizionamento nelle pagine dei risultati dei motori di ricerca (SERP). Moz deriva questo valore incorporando dati dal suo archivio di domini root collegati e dal numero complessivo di collegamenti verso i domini rappresentati.

Prende in considerazione altri attributi, come l'età del dominio e la dimensione del sito web (in termini di pagine pubblicate).

La Domain Authority è una metrica della qualità estrinseca di un sito web, implicitamente supportata da altri editori web—tramite riferimenti, menzioni e collegamenti verso i domini valutati. Non è una valutazione della qualità intrinseca del testo scritto. È una sintesi di indicatori oggettivi della rilevanza di un sito e della sua influenza relativa. Il punteggio di Domain Authority di Moz è ampiamente considerato una misura informativa e autorevole della qualità in questo senso.

Sebbene Moz.com sia stata la prima società SEO a sviluppare un indice di questo tipo, metriche comparabili sono state sviluppate da concorrenti di Moz, come il "Website Authority" di Ahrefs (precedentemente noto come "Domain Rating"). Abbiamo condotto un confronto limitato tra la Domain Authority di Moz e il Website Authority di Ahrefs e, su un elenco di 55 domini, abbiamo trovato che i loro valori di punteggio erano entro 1,5 punti l'uno dall'altro, con i punteggi di Moz leggermente più alti in generale. I valori assoluti dei punteggi differivano di una media di sei punti. Quando raggruppati per intervallo di punteggio, abbiamo trovato le differenze all'estremità alta (nell'intervallo 80–100) entro 1,6 punti in valore effettivo e entro 2 punti in valore assoluto, con Moz di nuovo più alto. Nella fascia media (50–60), abbiamo trovato la differenza assoluta intorno a 5,5 e le differenze effettive intorno a -1,4, con Ahrefs che tende a essere più alto. E nella fascia bassa (0–30), la differenza assoluta era intorno agli 8 punti e la differenza in valore effettivo più vicina a 4, con Moz che tendeva a essere più alto (vedere l'Appendice 2).

Un'analisi separata potrebbe essere effettuata per confrontare queste metriche tra loro, ma poiché tutte adottano approcci quantitativi relativistici (cioè: a ciascun dominio viene assegnato un punteggio relativo a tutti gli altri domini nel database dell'auditor), e ciascun approccio si basa sull'influenza del dominio misurata dal numero di backlink che puntano a quel dominio, la distribuzione complessiva dell'autorità dovrebbe rimanere valida indipendentemente dal metodo di valutazione utilizzato.

Nella scelta delle fonti di dati SEO (inclusi Moz e Ahrefs), la composizione dei database dei domini potrebbe causare lievi variazioni nelle analisi basate su Domain Authority/Website Authority. (Il database dei domini di Moz potrebbe contenere domini non presenti nel database di Ahrefs e viceversa). Tuttavia, dato il volume dei domini analizzati, riteniamo che tali variazioni non porterebbero a differenze significative nei risultati.

Analisi

A. Panoramica

I corpora che abbiamo analizzato spaziano da una raccolta non curata e casuale dell'intero internet (Common Crawl) a un dataset rigorosamente curato (OpenWebText2), prodotto con metodi di pulizia e curazione descritti nella Sezione II sopra.

Abbiamo rilevato due correlazioni positive derivanti dalla curazione:

  1. Aumento della curazione è correlato a una maggiore presenza di fonti da editori commerciali. Man mano che ci si sposta lungo lo spettro, dai dataset non curati a quelli altamente curati, i siti web di notizie e media di proprietà degli editori commerciali diventano sempre più concentrati.
  2. Aumento della curazione è correlato a una maggiore Domain Authority (DA). Gli URL provenienti da siti con alta DA appaiono in proporzione maggiore nei corpora curati, mentre i siti con bassa DA predominano nei corpora non curati.

B. Condivisione dei Dataset da parte degli Editori Web Commerciali

Quando abbiamo aggregato i conteggi dei documenti web per URL nei dataset pubblici di LLM analizzati, abbiamo osservato che i principali editori selezionati rappresentavano una piccola percentuale nel dataset non curato Common Crawl — solo lo 0,44%.

La proporzione di editori è triplicata al 1,55% nel dataset C4, che è stato pulito ma non curato per qualità.

La percentuale di presenza è aumentata drasticamente nei dataset OpenWebText e OpenWebText2:

  • Più che sestuplicata al 9,91% in OpenWebText.
  • Ulteriormente aumentata al 12,04% in OpenWebText2.

Infine, gli editori hanno raggiunto una quota del 13,47% degli URL tra i primi 1.000 domini in WebText, come dichiarato direttamente da OpenAI.

Questa relazione si mantiene generalmente anche a livello di singolo editore, con alcune variazioni nel grado e tra gli editori, fatta eccezione per un caso (The Washington Post perde rappresentanza tra OpenWebText e OpenWebText2).

PublisherCommon CrawlC4OpenWebTextWebText top 1000OpenWebText 2
News Corp0.040%0.132%1.067%1.131%1.929%
The NY Times Co.0.005%0.048%1.242%1.737%1.287%
Advance0.030%0.108%0.940%1.222%1.236%
Vox Media0.007%0.023%0.743%0.905%1.210%
Gannett0.121%0.346%0.936%0.910%1.142%
Axel Springer0.053%0.053%0.562%0.791%0.809%
Ziff Davis0.033%0.134%0.539%0.877%0.656%
Alden Capital0.018%0.123%0.617%0.814%0.647%
Hearst0.048%0.130%0.504%0.431%0.573%
Penske0.016%0.068%0.343%0.552%0.561%
Washington Post0.002%0.022%0.933%1.645%0.556%
Buzzfeed, Inc.0.007%0.042%0.825%1.405%0.551%
Future0.031%0.154%0.296%0.383%0.420%
IAC0.022%0.134%0.311%0.602%0.387%
Bustle Digital Group0.006%0.039%0.056%0.064%0.082%
Totale0.441%1.555%9.913%13.470%12.047%

La nostra analisi dei primi 1.000 domini in WebText, come dichiarato da OpenAI, mostra che gli editori hanno quote simili di URL in quel sottoinsieme parziale. Per questo motivo lo includiamo nella tabella sopra, ma lo escludiamo dal grafico, poiché l'ambito più limitato di quel dataset oscura la tendenza evidenziata dagli altri dataset completamente pubblici.

Percentuale di Contributo degli URL per Intervallo di Domain Authority

Come previsto dalle aziende di LLM, la curazione dei dataset aumenta in modo significativo la qualità (misurata tramite Domain Authority, DA) di un corpus. Abbiamo raccolto i dati di DA da Moz per tutti gli URL presenti nei seguenti dataset: Common Crawl, OpenWebText, OpenWebText2 e C4.

Successivamente, abbiamo rappresentato graficamente le distribuzioni, suddivise in intervalli di 10 punti di Domain Authority.

Visualizzando in questo modo, i profili di distribuzione della Domain Authority (DA) degli URL nei dataset Common Crawl, C4, OpenWebText e OpenWebText2 risultano informativi.

  • Common Crawl e C4 (una versione parzialmente pulita di Common Crawl) rientrano in una prima categoria di distribuzione:
    • Common Crawl è fortemente sbilanciato a sinistra, con un picco netto nell'intervallo 0–9 DA, che rappresenta il 50,2% dei domini. Dopo questo intervallo, la distribuzione cala drasticamente.
    • C4 è distribuito in modo più uniforme, ma rimane moderatamente concentrato a sinistra, con un picco nell'intervallo 10–19 DA al 20,1%.
  • Al contrario, i dataset curati (OpenWebText e OpenWebText2) mostrano una tendenza opposta:
    • Le distribuzioni discretizzate dei punteggi DA di OpenWebText e OpenWebText2 sono entrambe sbilanciate a destra e simili per forma.
    • Entrambe aumentano progressivamente fino a salire bruscamente con l'aumentare della Domain Authority, con un picco nell'intervallo 90–100 DA:
      • OpenWebText: 32,4% degli URL in questo intervallo.
      • OpenWebText2: 39,4% degli URL in questo intervallo.

Conclusione

  • I dataset non curati sono pesantemente orientati verso siti di bassa qualità con bassa DA.
  • I dataset curati sono invece fortemente orientati verso siti di alta qualità con alta DA.
  • La nostra analisi indica che la curazione dei corpora per l'addestramento degli LLM favorisce i siti con alta Domain Authority, considerata la metrica migliore per rappresentare la qualità dei contenuti web.

Correlazioni

  • Gli editori commerciali con portafogli diversificati producono principalmente contenuti con alta DA.
  • Limitando l'insieme dei domini ai domini di questi editori, abbiamo osservato che essi forniscono poco o nessun contenuto da domini con punteggi DA pari o inferiori a 50, persino nei corpora non curati.
  • I loro domini si concentrano prevalentemente nell'intervallo 90–100 DA.

Questa osservazione è coerente con le correlazioni che abbiamo rilevato nei dataset degli LLM, ovvero che un aumento della curazione è correlato con:

  1. Maggiore utilizzo di fonti da editori commerciali.
  2. Domain Authority più elevata.

Il primo fattore alimenta il secondo, poiché gli editori commerciali studiati pubblicano siti web con alta Domain Authority. Entrambe queste tendenze riflettono le decisioni delle aziende di LLM di dare priorità a dataset di testo web di alta qualità nell'addestramento dei modelli, con il risultato di innovazioni tecnologiche rivoluzionarie che generano un enorme valore per queste aziende.

Contenziosi

Numerosi proprietari di contenuti (compresi editori) hanno intentato cause legali contro OpenAI, Microsoft, Alphabet/Google, Anthropic e altre aziende di AI generativa, accusandole di violazione del copyright e di altre rivendicazioni correlate.

I querelanti, rappresentanti degli editori, hanno supportato le loro accuse con prove pubbliche che mostrano come i loro contenuti—e i contenuti di alta qualità in generale—fossero significativamente presenti e disproporzionatamente pesati nei corpora di addestramento degli LLM, inclusi Common Crawl (CC), C4, OpenWebText e OpenWebText2.

Caso del New York Times Company:

  • Nella sua causa per violazione del copyright contro OpenAI e Microsoft, il New York Times ha evidenziato le sue alte posizioni nei dataset:
    • 5° posto per numero di documenti.
    • 15° posto per volume complessivo in WebText.
  • Ha sottolineato la rilevanza di WebText2 per l'addestramento di GPT-3 (avendo un peso del 22%, nonostante rappresentasse solo il 4% dei token nei dati di addestramento).
  • Ha anche trovato che gli URL del New York Times rappresentano l'1,23% di OpenWebText2, che il New York Times stesso (e noi) considera un proxy per WebText2.

Cause legali degli editori

  • Nell'aprile 2024, il New York Daily News, il Chicago Tribune e altri otto quotidiani (tutti di proprietà di Alden Global Capital) hanno intentato una causa contro OpenAI e Microsoft per violazione del copyright.
  • Questo caso è stato consolidato con la causa del New York Times, ma anche da solo il caso di Alden rappresenta una causa significativa nel panorama legale sull'AI.

Accuse e argomentazioni degli editori di Alden:

  1. Hanno contato i loro documenti presenti in WebText e i token in C4 (utilizzato come proxy per Common Crawl).
  2. Hanno citato la dichiarazione di OpenAI riguardo alla priorità data alla qualità nei dataset.
  3. Presumono che OpenAI e Microsoft abbiano continuato a utilizzare WebText e WebText2 per addestrare i modelli anche dopo GPT-3.

Caso del Center for Investigative Reporting

  • Il Center for Investigative Reporting, nella sua denuncia del 27 giugno 2024 contro OpenAI e Microsoft, ha focalizzato l'attenzione sull'uso degli algoritmi di estrazione testo di Dragnet e Newspaper in WebText.

Argomentazioni principali:

  1. Algoritmi Dragnet e Newspaper: Progettati per separare il corpo principale di un articolo dalle altre parti di una pagina web, tra cui—significativamente—i link ai termini di utilizzo e agli avvisi di copyright.
  2. Gli avvisi di copyright e i termini di utilizzo possono costituire informazioni di gestione del copyright (Copyright Management Information o CMI), la cui rimozione è illegale.
  3. Hanno quindi avanzato accuse contro OpenAI e Microsoft per:
    • Rimozione di CMI.
    • Distribuzione successiva, in violazione del Digital Millennium Copyright Act (DMCA).
    • Violazione del copyright.

Conclusione

Le divulgazioni sui dati di addestramento delle aziende di LLM—risalenti in gran parte ai primi periodi di ricerca pura nell'evoluzione della tecnologia—e l'analisi dei dataset pubblici di addestramento mostrano un uso prolungato e significativo di contenuti di alta qualità degli editori, estremamente redditizio per le aziende di LLM, ma che implica una perdita di ricavi da licenze per alcune delle aziende più valutate al mondo.

Gli editori possono quantificare l'appropriazione dei loro contenuti da parte delle aziende di LLM e fornire prove della loro importanza fondamentale per i modelli LLM rivoluzionari e, per estensione, per i modelli di frontiera successivi. L'associazione tra i contenuti web di alta qualità degli editori e il valore degli LLM è evidente nei dati.

Ulteriori relazioni tra la qualità dei contenuti e le capacità degli LLM dovrebbero essere studiate, poiché i ricercatori cercano di comprendere come gli LLM funzionano effettivamente e la natura delle loro capacità linguistiche emergenti.

Il ruolo centrale dei contenuti editoriali negli LLM

L'analisi dei dataset ci mostra un aspetto chiave: man mano che i dati vengono selezionati e filtrati, il peso dei contenuti prodotti da editori web commerciali cresce in modo significativo.

Quando confrontiamo i diversi dataset, emerge che:

  • Common Crawl (privo di filtraggio) contiene solo lo 0,44% di contenuti provenienti da editori commerciali.
  • C4, che ha subito una pulizia dei contenuti, arriva a 1,55%.
  • OpenWebText e OpenWebText2, dataset altamente curati, contengono rispettivamente il 9,91% e il 12,04% di contenuti editoriali.

Questa tendenza suggerisce che i dati provenienti da fonti autorevoli non solo sono ampiamente utilizzati nell’addestramento degli LLM, ma vengono anche sovra-rappresentati nei dataset più raffinati.

Conclusione

L’analisi mostra che i modelli linguistici di grandi dimensioni si basano in larga misura su contenuti di alta qualità provenienti da editori commerciali. I dati di addestramento pubblicati in passato dimostrano che le aziende che sviluppano LLM hanno costantemente privilegiato questi contenuti per migliorare le capacità dei loro modelli.

Con l’evoluzione della tecnologia, la trasparenza sui dataset utilizzati è diminuita, mentre il valore degli LLM è cresciuto esponenzialmente. Questo ha portato a un aumento delle controversie legali tra le aziende di IA e gli editori, che vedono nei dataset di addestramento un uso non autorizzato dei loro contenuti.

Gli editori hanno ora gli strumenti per quantificare il ruolo che i loro contenuti hanno avuto nello sviluppo degli LLM e per far valere i loro diritti nel nuovo scenario dell'intelligenza artificiale.

Leave A Comment

Chi è Andrea Giudice

Sono Andrea Giudice, consulente SEO, specializzato nell'ottimizzazione dei siti web per migliorarne la visibilità sui motori di ricerca come Google.

Se sei interessato a una prima consulenza gratuita, contattami!

Andrea Giudice, consulente SEO.