Nozioni di base sui trasformatori

Nozioni di base sui trasformatori



Un trasformatore è un modello di deep learning che adotta il meccanismo dell'auto-attenzione, ponderando in modo differenziale il significato di ogni parte dei dati di input. Viene utilizzato principalmente nei campi dell'elaborazione del linguaggio naturale (NLP)[1] e della visione artificiale (CV). [2]

Come le reti neurali ricorrenti (RNN), i trasformatori sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni per attività come la traduzione e il riepilogo del testo. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero ingresso tutto in una volta. Il meccanismo di attenzione fornisce il contesto per qualsiasi posizione nella sequenza di input. Ad esempio, se i dati di input sono una frase in linguaggio naturale, il trasformatore non deve elaborare una parola alla volta. Ciò consente una maggiore parallelizzazione rispetto alle RNN e quindi riduce i tempi di formazione. [1]

I trasformatori sono stati introdotti nel 2017 da un team di Google Brain[1] e sono sempre più il modello di scelta per i problemi di PNL,[3] sostituendo i modelli RNN come la memoria a breve termine lunga (LSTM). La parallelizzazione di addestramento aggiuntiva consente il training su set di dati più grandi. Ciò ha portato allo sviluppo di sistemi pre-addestrati come BERT (Bidirectional Encoder Representation from Transformers) e GPT (Generative Pre-trained Transformer), che sono stati addestrati con grandi set di dati linguistici, come Wikipedia Corpus e Common Crawl, e possono essere ottimizzati per compiti specifici. [4] [5]

Mettiti in contatto


Consiglia di leggere