Attention Is All You Need — baca ulang, edisi 2026
Catatan dari membaca ulang paper transformer 2017 setelah sembilan tahun — mana yang bertahan, mana yang tidak, dan apa yang benar-benar perlu diingat sebagai praktisi.
Jam 23:47 malam, hari Rabu. Sebuah model di production mengembalikan jawaban berbeda untuk prompt yang sama — bukan secara acak, bukan selalu, tapi konsisten terjadi setelah melewati panjang konteks tertentu. Tiket support sudah terbuka enam jam. Dua orang di call, screen share ke terminal, mengamati logit yang bertingkah seolah-olah lupa dengan awal inputnya sendiri.
Rekan kerjaku mengetik: “Apa itu masalah positional encoding-nya?”
Aku berhenti. Sepertinya dulu aku tahu jawabannya. Kubuka tab baru di browser. Kuraih paper-nya.
Itulah kenapa minggu ini aku membaca ulang Attention Is All You Need — bukan karena nostalgia, bukan karena disiplin diri. Paper ini masuk daftar hal yang layak aku baca ulang setiap tahun, karena sembilan tahun sudah mengubah apa yang kamu perhatikan, dan bug yang sedang hidup mengubah apa yang kamu butuhkan. Ini yang kubawa pulang dari putaran kali ini.
Apa yang digantikannya
Sebelum Juni 2017, state of the art dalam sequence modeling adalah rekurensi. LSTM dan GRU memproses token satu per satu, setiap langkah dikondisikan pada hidden state dari langkah sebelumnya. Ketergantungan sekuensial itulah yang menjadi bottleneck: kamu tidak bisa memparalelkan training di seluruh sekuens, kamu kesulitan menyebarkan informasi jarak jauh, dan arsitektur-arsitektur itu — seberapapun kita menyukainya — sudah mentok di plateau.
Paper ini mengusulkan sesuatu yang hampir terasa tidak bertanggung jawab karena terlalu sederhana: buang rekurensi sepenuhnya. Ganti dengan mekanisme yang menghitung, untuk setiap pasang posisi dalam sebuah sekuens, seberapa besar satu posisi harus “memperhatikan” posisi lainnya. Tanpa hidden state. Tanpa rekursi langkah demi langkah. Hanya perkalian matriks, dijalankan secara paralel.
Kesederhanaan itulah yang membuat paper ini penting. Attention itu sendiri bukan hal baru — mekanisme ini sudah ada sebagai mekanisme tambahan dalam model seq2seq sejak Bahdanau et al. (2014). Yang ditunjukkan paper ini adalah bahwa attention cukup. Semua yang lain bisa dibuang.
Ide dalam satu kalimat
Attention adalah weighted sum dari values, di mana bobotnya berasal dari perbandingan antara queries dan keys.
Tiga matriks dihasilkan dengan mengalikan input dengan tiga matriks proyeksi yang dipelajari: satu untuk queries (apa yang dicari setiap posisi), satu untuk keys (apa yang ditawarkan setiap posisi), satu untuk values (apa yang dibawa setiap posisi). Hasil dot product antara query dan key menghasilkan matriks kemiripan; softmax menormalisasinya; matriks bobot itu kemudian diterapkan pada values.
Setiap pilihan arsitektur dalam paper ini merupakan turunan dari hal ini. Multi-head attention menjalankan operasi yang sama secara paralel dengan matriks proyeksi yang berbeda. Positional encoding ada karena attention, tanpa itu, bersifat permutation-invariant. Layer feed-forward di antara blok attention ada karena attention saja tidak cukup — kamu butuh nonlinearitas per-posisi untuk mencampur fitur-fitur di dalam representasi sebuah token.
Arsitekturnya
Paper ini mempresentasikan arsitektur encoder-decoder untuk terjemahan: enam blok encoder, enam blok decoder. Setiap blok terdiri dari operasi kecil yang sama — multi-head attention, residual connection, layer norm, feed-forward network, residual lagi, layer norm lagi. Decoder memiliki langkah cross-attention tambahan yang melihat output encoder.
Yang menakjubkan jika dilihat sekarang adalah hampir setiap transformer sukses sejak saat itu hanyalah sebagian dari diagram ini. BERT adalah tumpukan encoder saja. GPT-2 dan para penerusnya adalah tumpukan decoder saja, dengan self-attention yang di-mask agar tidak ada token yang melihat ke depan. T5 mempertahankan encoder-decoder penuh. Diagram arsitektur di paper aslinya ternyata adalah semacam menu.
Apa yang bertahan
Setelah sembilan tahun dan beberapa orde besaran skala model, sebagian besar yang dikatakan paper ini masih berlaku dalam praktik:
- Scaled dot-product attention. Formula
softmax(QK^T / √d_k) Vmasih bekerja. Belum ada yang menggantinya di frontier dengan sesuatu yang secara kualitatif berbeda, meski banyak yang sudah mencoba. - Multi-head attention sebagai default yang solid. Menjalankan banyak operasi attention secara paralel dengan proyeksi berbeda ternyata robust di semua skala model yang pernah kita lihat. Tidak ada yang set heads = 1.
- Dekomposisi attention + FFN. Menggantikan attention dengan feed-forward network per-token masih menjadi bentuk blok yang kanonik. Kamu bisa memperbesar FFN-nya, bisa membuatnya mixture-of-experts, tapi bentuknya tetap sama.
- Residual connections + layer norm. Plumbing struktural yang tidak seksi tapi membuat tumpukan deep bisa dilatih. Beberapa model beralih ke RMSNorm atau pre-norm vs post-norm, tapi prinsipnya tidak berubah.
- Adam + warmup. Optimizer dan jadwal yang mereka gunakan kurang lebih masih menjadi titik awal kebanyakan tim. Kurva warmup spesifiknya sudah kurang umum sekarang, tapi bentuk umum “naik dulu lalu turun” bertahan.
Apa yang tidak bertahan
Paper yang bagus tidak harus benar dalam segala hal. Paper ini salah dalam beberapa hal spesifik:
- Sinusoidal positional encodings. Paper ini mengusulkan positional encoding closed-form yang cerdas berdasarkan sinus dan kosinus. Dipakai, berhasil, lalu rotary positional embeddings (RoPE) datang pada 2021 dan mengambil alih. RoPE lebih baik untuk sekuens yang lebih panjang dari yang dilatih model dan punya properti teoretis yang lebih bersih. Kalau kamu mengimplementasikan attention dari nol di 2026, pakai RoPE duluan. Sinusoidal sudah jadi artefak sejarah.
- Cerita soal scaling. Model terbesar di paper ini adalah “Transformer (big)” dengan 213M parameter. Angka itu sudah jadi catatan kaki dua tahun kemudian. Dua tahun setelah publikasi, GPT-2 sudah 1,5B. Tiga tahun setelahnya, GPT-3 sudah 175B. Paper ini memberi kita arsitekturnya; ia tidak meramalkan apa yang akan terjadi saat kita memberinya internet publik sebagai makanan. Secara jujur, tidak ada yang bisa memprediksi itu di 2017.
- Jumlah layer dan dimensi spesifik. Angka-angka di tabel “base” dan “big” (
d_model = 512,h = 8,N = 6) langsung terlampaui. Jangan terpaku padanya. Apapun ukuran model kamu, rasio antarad_model, jumlah head, dan lebar FFN layak di-tune — tapi bukan dengan menatap angka default 2017. - WMT sebagai benchmark utama. Paper ini dievaluasi pada machine translation bahasa Inggris-Jerman dan Inggris-Prancis. Terjemahan ternyata menjadi aplikasi sekunder dari transformer. Language modeling — pretext task membosankan dari bagian pendahuluan — ternyata jadi acara utamanya.
Apa yang benar-benar layak diingat sebagai praktisi
Kalau kamu sedang membangun sesuatu dengan model berbasis attention — bukan orang yang melatih foundation model — pelajaran abadi dari paper ini lebih sederhana dari yang kamu duga:
- Attention adalah fungsi dari konteks. Jawaban model bergantung pada apa yang ada di context window. Poin yang tampak jelas ini mengatur 80% prompt engineering: kamu bisa mengubah output secara signifikan hanya dengan mengatur ulang apa yang dilihat model.
- Informasi posisi itu tidak sepele. Attention secara default bersifat permutation-invariant. Sesuatu harus mengembalikan urutan. Kalau modelmu berperilaku aneh soal urutan — mengabaikan awal sebuah daftar, memperlakukan duplikat sebagai hal identik — positional encoding biasanya tersangkanya.
- Head bisa mempelajari perilaku yang terspesialisasi. Ada head yang memperhatikan sintaksis, ada yang semantik, ada yang token langka. Kamu tidak bisa memilih head mana yang belajar apa, tapi mengetahui bahwa mereka berspesialisasi membantu kamu bernalar tentang mode kegagalan. Penelitian mechanistic interpretability (A Mathematical Framework for Transformer Circuits) adalah yang kamu baca selanjutnya kalau ini menarik bagimu.
- Attention itu O(n²) terhadap panjang sekuens. Setiap pengumuman “konteks lebih panjang” sejak 2023 adalah tentang menghindari biaya struktural ini. FlashAttention mengatur ulang pola akses memori tanpa mengubah matematikanya. Sparse attention membuang sebagian besar matriksnya. Model state-space seperti Mamba mengubah mekanismenya sepenuhnya. Biayanya tidak hilang. Ada yang memindahkannya.
- Decoder-only adalah default untuk generasi teks. Ketika industri berkonsolidasi, bukan di sekitar encoder-decoder dalam paper ini — melainkan di sekitar tumpukan decoder-only yang dipopulerkan GPT. Encoder dialihfungsikan untuk retrieval dan representation learning. Kalau kamu membangun chatbot, kamu butuh decoder-only. Kalau kamu membangun indeks semantic search, kamu butuh encoder. Keduanya berasal langsung dari paper ini.
Cara membacanya dengan produktif
Paper ini pendek — delapan halaman konten utama ditambah beberapa halaman ablasi. Seorang engineer yang aktif bekerja bisa mendapatkan apa yang mereka butuhkan dalam waktu kurang dari satu jam. Beberapa saran untuk baca ulang yang produktif:
- Mulai dari Figure 1 (diagram arsitektur) dan Section 3.2.1 (formula attention). Itulah dua model mental yang akan kamu bawa setelahnya.
- Lewati Section 3.1 kecuali kamu ingin derivasi encoder-decoder-nya. Kalau kamu sudah tahu apa itu transformer, ini hanya review.
- Baca Section 4 (“Why self-attention?”) lebih seksama dari yang kamu ingat. Tabel yang membandingkan tipe-tipe layer berdasarkan kompleksitas dan panjang jalur adalah justifikasi terbaik dalam paper ini — ia menjawab “kenapa ini, kenapa sekarang” secara konkret.
- Ablasi di Section 6.2 masih relevan. Perhatikan bahwa satu-satunya keunggulan nyata model “big” atas model “base” adalah ukurannya. Kerendahan hati paper ini soal skala adalah, secara retrospektif, hal paling menarik tentangnya.
Paper ini juga merupakan tulisan yang sangat percaya diri. Tidak minta maaf, tidak terlalu banyak kualifikasi, tidak ragu-ragu. Baca sekali untuk arsitekturnya, baca dua kali untuk belajar cara menulis paper yang mengubah suatu bidang.
Kenapa aku membacanya ulang
Bug malam itu ternyata sesuatu yang lebih biasa — truncation konteks di pipeline preprocessing kami, bukan positional encoding sama sekali. Tapi membaca paper itu membantuku mengeliminasi tersangka dengan cepat dan berpikir jernih tentang di mana harus mencari selanjutnya. Model mental yang bersih tentang cara attention menangani posisi lebih cepat dari blog post manapun.
Jam 23:47 malam, dua rekan kerja kelelahan, dan log masih terlihat salah. Yang kamu butuhkan di saat itu bukan tutorial. Kamu butuh sumbernya.
Paper tidak terakumulasi nilainya kecuali kamu kembali kepadanya. Yang satu ini, ya.
Referensi
- Bahdanau, D., Cho, K., Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762
- Devlin, J. et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners (GPT-2).
- Raffel, C. et al. (2019). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5). arXiv:1910.10683
- Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3). arXiv:2005.14165
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864
- Elhage, N. et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135
- Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752