Come i modelli di intelligenza artificiale riescono a insegnare a se stessi cose nuove
I modelli linguistici di grandi dimensioni come GPT-3 sono in grado di apprendere nuovi concetti interagendo con i loro utenti. I ricercatori dell'ETH e di Google potrebbero aver scoperto un meccanismo chiave alla base di questa capacità.
- Leggere
- Numero di commenti
Nonostante il loro enorme successo, il funzionamento interno di modelli linguistici di grandi dimensioni come la famiglia di modelli GPT di OpenAI e Google Bard rimane un mistero, persino per i loro sviluppatori. Le ricerche all'ETH e a Google hanno ora scoperto un possibile meccanismo chiave che permette loro di imparare al volo e di affinare le risposte in base alle interazioni con gli utenti. Johannes von Oswald è un dottorando del gruppo di Angelika Steger, docente di informatica teorica dell'ETH, e sta studiando gli algoritmi di apprendimento delle reti neurali. Il suo nuovo pagina esternaCarta sarà presentato alla Conferenza internazionale sull'apprendimento automatico (ICML) alla fine di luglio.
La T di GPT sta per Transformer. Cosa sono i trasformatori?
Johannes von Oswald: I Transformer sono reti neurali artificiali con un'architettura speciale. ? utilizzata da modelli linguistici di grandi dimensioni come ChatGPT, ma è stata sviluppata dai ricercatori di Google nel 2017 e ha portato a prestazioni di punta nella traduzione linguistica in quel momento. ? interessante notare che questo modello è stato in realtà inventato in una forma leggermente modificata nel 1991 dal pioniere dell'IA Jürgen Schmidhuber.
Cosa caratterizza questa architettura?
Prima dell'attuale scoperta dell'architettura Transformer, per compiti come la classificazione di immagini o la traduzione di lingue venivano utilizzate architetture di rete specifiche sviluppate per un compito specifico. I Transformer sono fondamentalmente diversi da questi precedenti modelli di intelligenza artificiale e sembrano funzionare molto bene per un'ampia gamma di compiti diversi. Poiché sono ampiamente utilizzati, è importante capire come funzionano.
Cosa avete scoperto con la vostra ricerca?
Mentre le reti neurali sono generalmente considerate come scatole nere che emettono un output quando viene dato un input, abbiamo dimostrato che i trasformatori possono imparare da soli a incorporare nuovi algoritmi nella loro architettura. Nel nostro caso, siamo riusciti a dimostrare che implementano da soli un algoritmo di apprendimento automatico classico.
Avete un esempio di questo comportamento di apprendimento?
Ad esempio, è possibile fornire a un modello linguistico come ChatGPT diversi brevi testi e indicare se i testi hanno un umore di base positivo o negativo. Poi, presentando al modello un testo che non ha mai visto prima, il modello imparerà e giudicherà con sicurezza se il nuovo testo è positivo o negativo sulla base degli esempi che gli avete fornito.
Quindi sta dicendo che il modello insegna a se stesso una tecnica per imparare cose nuove?
Sì, è sorprendente, ma è vero. Semplicemente per la necessità di migliorare le proprie previsioni, durante l'addestramento sviluppa una tecnica che consente al modello di imparare, ad esempio, dalle conversazioni con i suoi utenti. Questo tipo di apprendimento viene definito "apprendimento nel contesto".
Tutto ciò che questi modelli ricevono è un breve testo in ingresso. Come fanno i trasformatori a utilizzare queste poche informazioni per ottimizzare i loro risultati?
Una possibilità è quella di imparare una sorta di "modello del mondo" che possa essere utilizzato per fare previsioni. Il nostro lavoro mostra che i trasformatori possono fare questo. L'aspetto interessante è che questo apprendimento avviene all'interno di un modello già addestrato. Normalmente, l'apprendimento comporta la modifica delle connessioni della rete neurale del modello. Abbiamo dimostrato che i modelli di trasformatori sono invece in grado di simulare lo stesso processo di apprendimento all'interno di un'architettura neurale fissa.
Come nasce questa capacità nei trasformatori?
Nel nostro lavoro abbiamo ipotizzato che l'architettura del Transformer sia in principio incline all'apprendimento. Ciò significa che la capacità di sviluppare questi meccanismi di apprendimento è implicitamente incorporata nel progetto, ancor prima che il modello venga addestrato.
GPT-3, il modello alla base di ChatGPT, ha 175 miliardi di parametri. Come si può analizzare un sistema così grande?
Alcuni ricercatori adottano un approccio psicologico e analizzano come i modelli reagiscono di fronte a test standardizzati o a situazioni conflittuali come i dilemmi morali. Noi abbiamo analizzato questo sistema in modo meccanicistico, come i neuroscienziati, si potrebbe dire. Poiché il nostro modello gira su un computer, siamo in grado di registrare ogni neurone e ogni connessione della rete neurale, cosa che sarebbe impensabile quando si studia il cervello biologico degli animali o degli esseri umani. Tuttavia, lo studio di sistemi a questo livello di singoli neuroni e di piccole reti è attualmente possibile solo se si vogliono studiare fenomeni molto specifici su architetture relativamente piccole.
Come si presenta il sistema utilizzato nel suo lavoro?
Il trasformatore che utilizziamo è quasi identico all'architettura Transformer ampiamente utilizzata. Invece di addestrare il nostro sistema con grandi quantità di testo da Internet, lo abbiamo addestrato con esempi di un problema semplice, la regressione lineare. Poiché questo problema e la sua soluzione sono molto noti, abbiamo potuto confrontare questa soluzione con quella osservata in Transformer. Questo ci ha permesso di dimostrare che Transformer implementa un algoritmo di apprendimento molto noto e potente, chiamato "Gradient Descent".
Potrebbe anche essere che emergano comportamenti completamente nuovi per l'informatica?
Potrebbe accadere. Nel nostro caso, il Transformer non ha semplicemente appreso ed eseguito la "discesa del gradiente", ma una versione migliorata della stessa. Ora due studi indipendenti del MIT e della UC Berkeley hanno analizzato l'algoritmo appreso dal Transformer. Un obiettivo a lungo termine di questa ricerca potrebbe anche essere quello di determinare se gli algoritmi del Transformer possono scoprire o addirittura dimostrare teoremi e sviluppare la matematica che ancora non conosciamo. Sarebbe una pietra miliare e davvero rivoluzionaria.
Riferimento alla letteratura
von Oswald J, Niklasson E, Randazzo E, Sacramento J, Mordvintsev A, Zhmoginov A, Vladymyrov M: Transformers learn in-context by gradient descent. Conference Paper International Conference on Machine Learning (ICML), luglio 2023, doi: pagina esterna10.48550/arXiv.2212.07677