Nozioni di base sui trasformatori
Un trasformatore è un modello di deep learning che adotta il meccanismo dell'auto-attenzione, ponderando in modo differenziale il significato di ciascuna parte dei dati di input. Viene utilizzato principalmente nei settori dell'elaborazione del linguaggio naturale (NLP)[1] e della visione artificiale (CV). [2]
Come le reti neurali ricorrenti (RNN), i trasformatori sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni verso attività come la traduzione e il riassunto del testo. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero input tutto in una volta. Il meccanismo di attenzione fornisce il contesto per qualsiasi posizione nella sequenza di input. Ad esempio, se i dati di input sono una frase in linguaggio naturale, il trasformatore non deve elaborare una parola alla volta. Ciò consente una maggiore parallelizzazione rispetto alle RNN e quindi riduce i tempi di addestramento. [1]
I trasformatori sono stati introdotti nel 2017 da un team di Google Brain[1] e sono sempre più il modello di scelta per i problemi di NLP,[3] sostituendo i modelli RNN come la memoria a breve termine (LSTM). La parallelizzazione del training aggiuntiva consente il training su set di dati più grandi. Ciò ha portato allo sviluppo di sistemi pre-addestrati come BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), che sono stati addestrati con grandi set di dati linguistici, come Wikipedia Corpus e Common Crawl, e possono essere ottimizzati per compiti specifici. [4][5]
Come le reti neurali ricorrenti (RNN), i trasformatori sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni verso attività come la traduzione e il riassunto del testo. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero input tutto in una volta. Il meccanismo di attenzione fornisce il contesto per qualsiasi posizione nella sequenza di input. Ad esempio, se i dati di input sono una frase in linguaggio naturale, il trasformatore non deve elaborare una parola alla volta. Ciò consente una maggiore parallelizzazione rispetto alle RNN e quindi riduce i tempi di addestramento. [1]
I trasformatori sono stati introdotti nel 2017 da un team di Google Brain[1] e sono sempre più il modello di scelta per i problemi di NLP,[3] sostituendo i modelli RNN come la memoria a breve termine (LSTM). La parallelizzazione del training aggiuntiva consente il training su set di dati più grandi. Ciò ha portato allo sviluppo di sistemi pre-addestrati come BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), che sono stati addestrati con grandi set di dati linguistici, come Wikipedia Corpus e Common Crawl, e possono essere ottimizzati per compiti specifici. [4][5]