Hyppää sisältöön

Transformers

Motivaatio: RNN:n haasteet

Attention Is All You Need

Attention-mekanismi

Query, Key ja Value (Q, K, V)

Scaled Dot-Product Attention

Multi-Head Attention

Transformer-arkkitehtuuri

Positional Encoding

Encoder ja Decoder

Arkkitehtuurin variaatiot

Encoder-only (esim. BERT)

Decoder-only (esim. GPT)

Encoder-Decoder (esim. T5, alkuperäinen)

Suuret kielimallit (LLM)