Punti chiave
I trasformatori generativi pre-addestrati, conosciuti come GPT, sono modelli di linguaggio di grandi dimensioni che rappresentano un importante sviluppo nell’intelligenza artificiale generativa. Nel 2018, l’organizzazione americana di intelligenza artificiale OpenAI ha introdotto il primo GPT. Questi modelli, basati su reti neurali artificiali con un’architettura chiamata “trasformatore”, vengono pre-addestrati su vasti set di dati di testo non etichettato. Questo addestramento permette loro di generare nuovi contenuti che somigliano a quelli prodotti dagli esseri umani.
A partire dal 2023, la maggior parte dei modelli di linguaggio di grandi dimensioni presenta queste caratteristiche avanzate e sono spesso indicati con il termine generico “GPT”. OpenAI ha rilasciato diversi modelli GPT di base che hanno avuto un notevole impatto. Questi modelli sono stati numerati in sequenza, ad esempio “GPT-3” e “GPT-4”, e ciascuno di essi è stato più potente del precedente grazie all’aumento delle dimensioni e dell’addestramento.
Questi modelli GPT sono diventati la base per la creazione di sistemi GPT più specifici per diverse attività. Ad esempio, sono stati sviluppati modelli ottimizzati per seguire istruzioni e alimentare servizi di chatbot come ChatGPT. Inoltre, altre organizzazioni hanno sviluppato i loro modelli GPT basati su questa tecnologia. EleutherAI ha creato una serie di modelli ispirati al GPT-3, mentre Cerebras ha recentemente sviluppato una serie di sette modelli.
Inoltre, molte aziende di diversi settori hanno adattato i modelli GPT alle loro specifiche esigenze. Salesforce ha creato “EinsteinGPT” per il CRM, mentre Bloomberg ha sviluppato “BloombergGPT” per il settore finanziario. Questi modelli specifici per attività permettono alle aziende di sfruttare le capacità dei trasformatori generativi pre-addestrati nel loro campo di competenza.
In sintesi, i modelli GPT sono una potente tecnologia di intelligenza artificiale che utilizza reti neurali per generare contenuti linguistici. Grazie al loro addestramento su grandi quantità di dati di testo, possono creare testi che sembrano essere stati scritti da esseri umani. Questi modelli sono diventati un punto di riferimento nel campo dell’intelligenza artificiale generativa e sono stati adattati a diverse attività e settori, offrendo nuove opportunità e possibilità in vari campi.
L’evoluzione del pretraining generativo
In precedenza, il pretraining generativo (GP) era un concetto consolidato nelle applicazioni di apprendimento automatico. Tuttavia, l’architettura del trasformatore, che è alla base dei moderni modelli di linguaggio di grandi dimensioni, non era disponibile fino al 2017, quando è stata inventata da un dipendente di Google. Questo sviluppo ha aperto la strada a modelli come BERT nel 2018 e XLNet nel 2019, che erano trasformatori preaddestrati (PT), ma non erano progettati per essere generativi (erano “solo encoder”).
Nel 2018, OpenAI ha introdotto il primo sistema di trasformatore generativo preaddestrato (GPT) con il suo articolo intitolato “Migliorare la comprensione del linguaggio grazie al pre-addestramento generativo”. Prima dell’introduzione degli approcci basati sui trasformatori, i modelli di elaborazione del linguaggio naturale (NLP) neurali con le migliori prestazioni facevano ampio uso dell’apprendimento supervisionato su grandi quantità di dati etichettati manualmente. Tuttavia, questa dipendenza dall’apprendimento supervisionato limitava l’utilizzo di tali modelli su set di dati non ben annotati e richiedeva anche un addestramento estremamente costoso in termini di tempo per modelli linguistici di grandi dimensioni.
OpenAI ha adottato un approccio semi-supervisionato per realizzare un sistema generativo su larga scala, che è stato il primo a utilizzare un modello di trasformatore. Questo approccio comprendeva due fasi: una fase di “pretraining” generativa non supervisionata per impostare i parametri iniziali utilizzando l’obiettivo di modellazione del linguaggio e una fase di “regolazione fine” discriminativa supervisionata per adattare tali parametri a una specifica attività di destinazione. Questo approccio ha permesso di sfruttare al meglio i vantaggi del pretraining generativo e dell’adattamento supervisionato per creare modelli linguistici potenti e scalabili.
Altri modelli GPT simili
Altri modelli di questo tipo includono PaLM di Google, che è un ampio modello di base che è stato paragonato a GPT-3. È stato reso recentemente disponibile agli sviluppatori attraverso un’API. Inoltre, c’è GPT-JT di Together, che è considerato l’alternativa open source con prestazioni più simili a GPT-3 ed è derivato dai precedenti modelli GPT open source. Meta AI, precedentemente conosciuta come Facebook, ha sviluppato un modello di linguaggio di grandi dimensioni basato sul trasformatore generativo chiamato LLaMA.
I modelli GPT di base possono anche essere utilizzati con modalità diverse rispetto al solo testo, sia per l’input che per l’output. Ad esempio, GPT-4 è un modello di linguaggio di grandi dimensioni multimodale in grado di elaborare sia input di testo che immagini, anche se il suo output è limitato al testo. Inoltre, ci sono modelli basati su trasformatori generativi che vengono utilizzati per tecnologie di conversione testo-immagine come la diffusione e la decodifica parallela. Questi modelli possono fungere da modelli di base visivi (VFM) per lo sviluppo di sistemi che lavorano con le immagini.
Modelli specifici per attività particolari
Un modello GPT di base può essere adattato ulteriormente per creare sistemi più specifici e mirati a compiti o domini tematici particolari. Questo adattamento può coinvolgere una fase di messa a punto aggiuntiva rispetto al modello di base, così come alcune forme di ingegneria specifica per il compito.
Un esempio significativo di ciò è la messa a punto dei modelli per seguire le istruzioni. Questo è un compito più specifico rispetto a un modello di base generico. OpenAI ha introdotto “InstructGPT”, una serie di modelli appositamente addestrati per seguire le istruzioni. Questi modelli sono stati messi a punto utilizzando una combinazione di addestramento supervisionato e apprendimento di rinforzo dal feedback umano su modelli di linguaggio GPT-3 di base. I vantaggi di questi modelli ottimizzati includono una maggiore precisione, una minore presenza di sentimenti negativi o tossici e un migliore allineamento con le esigenze degli utenti. OpenAI ha quindi iniziato a utilizzare InstructGPT come base per i suoi servizi API. Altri modelli ottimizzati per le istruzioni sono stati rilasciati da altre organizzazioni, inclusa una versione completamente aperta.
Un altro tipo di modelli specifici per attività sono i chatbot, che sono in grado di impegnarsi in conversazioni simili a quelle umane. OpenAI ha lanciato ChatGPT, un’interfaccia di chat online alimentata da un modello linguistico appositamente ottimizzato per le istruzioni. Questo modello è stato addestrato utilizzando un approccio di apprendimento di rinforzo dal feedback umano, con istruttori umani che fornivano conversazioni in cui interpretavano sia l’utente che l’intelligenza artificiale. Altri importanti chatbot includono Bing Chat di Microsoft, che utilizza GPT-4 di OpenAI come parte di una collaborazione più ampia tra le due aziende, e il chatbot concorrente di Google Bard, inizialmente basato sulla famiglia di modelli linguistici LaMDA, con l’intenzione di passare a PaLM.
Un altro compito per cui i modelli GPT possono essere utilizzati è la generazione di istruzioni per sé stessi, come lo sviluppo di una serie di prompt per raggiungere un obiettivo più generale stabilito da un utente umano. Questo è noto come agente AI, e in particolare come agente ricorsivo, poiché utilizza i risultati delle sue precedenti autoistruzioni per formare i prompt successivi. Un esempio notevole di ciò è stato Auto-GPT, che utilizza i modelli GPT di OpenAI, e da allora sono stati sviluppati anche altri modelli simili.