Nozioni di base del trasformatore
Un transformer è un modello di deep learning che adotta il meccanismo dell'auto-attenzione, ponderando differenzialmente l'importanza di ogni parte dei dati in ingresso. Viene utilizzato principalmente nei campi dell'elaborazione del linguaggio naturale (NLP)[1] e della visione artificiale (CV). [2]
Come le reti neurali ricorrenti (RNN), i transformer sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni per compiti come la traduzione e la sintesi del testo. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero ingresso tutto in una volta. Il meccanismo di attenzione fornisce contesto per qualsiasi posizione nella sequenza di input. Ad esempio, se i dati di input sono una frase in linguaggio naturale, il transformer non deve elaborare una parola alla volta. Questo permette una maggiore parallelizzazione rispetto alle RNN e quindi riduce i tempi di addestramento. [1]
I Transformers sono stati introdotti nel 2017 da un team di Google Brain[1] e sono sempre più il modello preferito per i problemi di NLP,[3] sostituendo i modelli RNN come la memoria a breve termine lungo (LSTM). La parallelizzazione aggiuntiva dell'addestramento consente l'addestramento su dataset più ampi. Questo portò allo sviluppo di sistemi pre-addestrati come BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), addestrati con grandi dataset linguistici, come il Wikipedia Corpus e il Common Crawl, e che possono essere ottimizzati per compiti specifici. [4][5]
Come le reti neurali ricorrenti (RNN), i transformer sono progettati per elaborare dati di input sequenziali, come il linguaggio naturale, con applicazioni per compiti come la traduzione e la sintesi del testo. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero ingresso tutto in una volta. Il meccanismo di attenzione fornisce contesto per qualsiasi posizione nella sequenza di input. Ad esempio, se i dati di input sono una frase in linguaggio naturale, il transformer non deve elaborare una parola alla volta. Questo permette una maggiore parallelizzazione rispetto alle RNN e quindi riduce i tempi di addestramento. [1]
I Transformers sono stati introdotti nel 2017 da un team di Google Brain[1] e sono sempre più il modello preferito per i problemi di NLP,[3] sostituendo i modelli RNN come la memoria a breve termine lungo (LSTM). La parallelizzazione aggiuntiva dell'addestramento consente l'addestramento su dataset più ampi. Questo portò allo sviluppo di sistemi pre-addestrati come BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), addestrati con grandi dataset linguistici, come il Wikipedia Corpus e il Common Crawl, e che possono essere ottimizzati per compiti specifici. [4][5]



