Kiến trúc đơn giản đến khó tin đứng sau cơn sốt AI

Hồi xưa có một anh đồng nghiệp gõ vào REPL cái trò king − man + woman ≈ queen cho tôi xem như làm ảo thuật. Tôi từng đọc về nó rồi, nhưng nhìn tận mắt thì có gì đó vỡ ra trong đầu: model chẳng biết “vua” là gì cả. Nó chỉ học được rằng bốn cái hình-dạng-từ kia thường nằm trong một mối quan hệ hình học nhất định. Đó không phải trí tuệ. Đó là so khớp mẫu (pattern-matching) ở quy mô vũ trụ.

Và chính cái đó làm tôi muốn hiểu bộ máy thật sự bên trong. Không phải cái cảm giác mơ hồ - mà là bộ máy.

Bài “How LLMs Actually Work” của 0xkato là thứ tôi ước mình có được ba năm trước. Nó là một bài đi từ gốc, dài chừng 26 phút đọc, mổ xẻ kiến trúc transformer đang chạy đằng sau mọi LLM lớn hiện nay - mà không có một phương trình vi phân dính nhớp nào. Đọc xong, bạn nhìn vào model card và biết chính xác từng dòng thông số đang nói về tầng nào.

Câu chuyện trong một câu

0xkato dẫn bạn đi hết một transformer từ đầu đến cuối - token, embedding, positional encoding, attention, feed-forward, rồi đoán từ kế tiếp - và cho bạn thấy rằng bộ máy tưởng như thần thánh đó thật ra đơn giản đến mức gần như đáng ngờ.

Bài viết thật sự nói gì

Lộ trình rất sạch:

Token hóa - chữ biến thành số nguyên; “tokenization” bị tách thành ["token", "ization"]
Embedding - mấy số nguyên đó tra trong một bảng khổng lồ; mỗi token thành một vector 4.096 số thực trong mô hình 7B
Positional encoding - cụ thể là RoPE, xoay vector theo góc-trên-vị-trí thay vì cộng thêm một cục vị trí, giờ dùng trong LLaMA, Mistral, Gemma, Qwen
Attention - Query/Key/Value: mỗi token hỏi “tôi đang tìm gì?” và nhận lại một hỗn hợp có trọng số các Value của những token khác
Multi-head attention - 32 đầu chạy song song, mỗi đầu học một loại quan hệ khác nhau: ngữ pháp, đại từ, tham chiếu xa
Feed-forward - bước ít hào nhoáng nhất nhưng là nơi phần lớn tham số nằm: nở ra → phi tuyến → nén lại, chạy độc lập cho từng token
Residual stream + chuẩn hóa - mẹo “cộng dồn” mượn từ ResNet giúp huấn luyện được mạng 100 tầng
Đoán từ kế tiếp - một softmax trên toàn bộ từ vựng, rồi vòng lặp lặp lại

Một câu nhập chảy vào transformer, đi qua embedding, attention và mạng feed-forward, rồi đoán từ kế tiếp bằng softmax và lặp lại.

Một chi tiết sắc bén trong bài: trong Grouped-Query Attention, LLaMA-2 70B chạy 64 query head nhưng chỉ 8 key/value head. Cùng chất lượng, mà tốn một phần nhỏ bộ nhớ KV-cache. Đó là lý do context dài hồi xưa đắt đến mức không dùng nổi, còn bây giờ thì chỉ… đắt.

Một chi tiết nữa: Mixtral 8x7B có 46,7 tỉ tham số tổng cộng nhưng mỗi token chỉ đi qua khoảng 12,9 tỉ trong số đó. Mixture-of-experts cho phép tăng số tham số mà không tăng chi phí suy luận theo tỉ lệ tuyến tính.

Vì sao bài này lên 252 điểm

Có cả ngàn bài “transformer hoạt động thế nào”. Đa số hoặc dừng ở mức quá hời hợt, hoặc lặn mất tăm vào ký hiệu nhân ma trận trước khi qua trang hai. Bài này trúng đúng vùng Goldilocks: viết bằng văn xuôi rõ ràng với mấy cái hộp “giải thích nhỏ” đặt đúng chỗ cần neo khái niệm, đi qua chín chủ đề liền mạch không rớt nhịp, và kết lại ở câu hỏi “kiến trúc hay trọng số mới là cái quan trọng” như một nhận thức thật sự chứ không phải kết luận dán vào cho có.

Thời điểm cũng giúp. Ai cũng đang dùng LLM, một nửa HN làm việc trong hoặc gần các hệ thống AI, và một phần đáng kể đã mệt mỏi với việc đối xử với mấy model này như nhà tiên tri. Một bài bóc trần bộ máy đọc vào năm 2026 có cảm giác rất khác so với nếu nó ra đời năm 2020.

HN đang tranh luận gì

Bình luận nổi nhất đến từ malwrar, đáng đọc song song với bài gốc:

“Kiến trúc LLM transformer decoder-only tự hồi quy như OpenAI tiên phong đơn giản đến mức điên rồ so với kết quả mang tính cách mạng của nó. […] Lý do duy nhất khiến các LLM tiên tiến cần máy tính sáu chữ số để chạy là vì người thiết kế model làm cho cái khúc giữa TO KHỦNG KHIẾP, theo nghĩa số chiều.”

Rồi tiếp: “Trong lúc đó tôi xem các công ty AI bán - thành công - cái khả năng này như một dạng ý thức robot do các siêu thiên tài chế tác thủ công. Việc họ làm trót lọt gần như cũng gây sốc với tôi ngang với chính khám phá đó.”

Đó mới là nguồn năng lượng thật của thread. Không phải “bài này sai” - mà là “bài này đúng, và đó mới là phần đáng sợ nhất.”

Một người khác so sánh với chuyện học TCP/IP bằng cách nhìn từng gói tin thô qua radio gói 1200-baud. Lập luận giống hệt: nhìn output của một LLM chậm chạp in ra từng token một, rồi dần dần bạn bắt đầu thấy bộ máy. Cơ chế thì hiểu được. Bạn không đoán nổi token tiếp theo, nhưng bạn thấy được cách chúng hình thành.

Có nên đọc bản gốc không?

Đọc nếu…	Bỏ qua nếu…
Bạn làm với LLM và muốn biết GQA, RoPE, SwiGLU nghĩa là gì	Bạn đã thấm bài “Let’s build GPT” của Karpathy và circuits của Anthropic
Bạn muốn đọc paper về model mà không phải google mỗi dòng thứ hai	Bạn cần phần toán - bài này cố tình bỏ qua phương trình
Bạn cần giải thích LLM cho người kỹ thuật nhưng không nền tảng ML	Bạn cần chi tiết triển khai - đây là kiến trúc khái niệm, không phải code

Bài kết bằng một lưu ý: transformer đã nuốt gần hết các lĩnh vực - thị giác, âm thanh, ngôn ngữ, đa phương thức - và điều đó có thể đổi. Mamba, state-space model, các kiến trúc lai đều là ứng viên đáng gờm. Nhưng vòng lặp lõi token-embedding-attention-FFN-đoán-từ bền đến mức ngay cả kiến trúc tương lai có lẽ vẫn giải đúng những bài toán con này theo cách nhận ra được.

Cái tôi mang về cũng giống malwrar, chỉ hơi khác một chút: sự đơn giản không phải là nỗi thất vọng. Nó là cú twist của câu chuyện. Chúng ta dựng nên thứ trông giống như sự hiểu biết từ một bảng tra cứu, một phép tích vô hướng và một softmax. Chúng ta chỉ làm cho nó thật, thật lớn.

Thảo luận trên Hacker News · Nguồn: 0xkato.xyz · Đăng bởi 0xkato