GLM-5.2 lên ngôi open weights - nhưng suy nghĩ hơi lâu

5 phút đọc English
Featured image for GLM-5.2 lên ngôi open weights  -  nhưng suy nghĩ hơi lâu

Tháng trước tôi thuê một gói API model TQ vì nghe đồn rẻ. Ba triệu token, chạy thử vài task coding. Model trả lời đúng, nhưng trước khi viết dòng code đầu tiên nó suy nghĩ lâu hơn cả buổi họp standup của team tôi. Tôi ngồi nhìn cursor nhấp nháy, uống hết ly cà phê, bắt đầu tự hỏi mình có đang trả tiền cho một cái máy overthink không.

Sáng nay HN lại ồ lên về GLM-5.2. Tôi mở lại folder log cũ. Cảm giác quen quen.

Câu chuyện trong một câu

GLM-5.2 của Z.ai vừa lên đầu bảng open weights trên Artificial Analysis Intelligence Index v4.1 với 51 điểm - cao hơn GLM-5.1 tới 11 điểm dù vẫn 744B tổng / 40B active, license MIT, context 1 triệu token, giá API vẫn rẻ hơn mấy lab Mỹ một khoảng khó nói cho đàng hoàng.

Tóm lại: open weights không còn kiểu “tạm dùng cho fine-tune” nữa. Nó đang ngồi cùng bàn benchmark agent với GPT-5.5 và thỉnh thoảng ghi điểm cao hơn.

Vì sao lên front page

Artificial Analysis vừa ra Intelligence Index v4.1 hôm trước - nghiêng mạnh về agent, trajectory dài, bài kiểm tra kiểu làm việc thật. GLM-5.2 nhảy vào bảng mới và chiếm cột open weights ngay.

HN không upvote vì changelog. Họ upvote vì bản đồ quyền lực đổi hướng.

Con số gây chú ý nhất: 1524 trên GDPval-AA v2 - benchmark agent làm việc thực tế - gần như ngang GPT-5.5 xhigh (1514), bỏ xa MiniMax-M3 (1418) và DeepSeek V4 Pro max (1328).

Chỉ sốGLM-5.2GLM-5.1MiniMax-M3DeepSeek V4 Pro (max)
Intelligence Index v4.151404444
GDPval-AA v21524-14181328
Token output / task43k26k24k37k
Chi phí / task~$0.46~$0.25~$0.18~$0.05
Context1M200K--
LicenseMIT---

Giá API chính thức giữ nguyên: $1.4 / $4.4 / $0.26 cho mỗi triệu token input / output / cache hit. Cùng bill, thêm não - trên giấy tờ.

Lý luận khoa học nhảy mạnh nhất: CritPt +16 lên 21%, HLE +12 lên 40%, TerminalBench +16 lên 78%, GPQA Diamond +3 lên 89%. Hallucination rate giảm nhẹ · 28.1% so với 29.4% trên Omniscience Index. Không phải rebrand cho vui.

Thread HN nói gì

Comment top không phải “Trung Quốc thắng rồi”. Là Tiberium than GLM-5.2 xhigh mất 15 phút, ~45k token mới viết file đầu tiên cho một thư viện eval toán bằng Nim - task chừng vài trăm dòng. Bảng của Artificial Analysis cũng ghi nhận GLM-5.2 là một trong những model kém hiệu quả token nhất ở tier intelligence này: 43k token/task, 37k là reasoning. GPT-5.5 xhigh chỉ ~16k.

Thông minh hơn. Suy nghĩ vẫn lan man.

alansaber nói open weights vẫn yếu ở chế độ agent multi-turn - ít RL, cảm giác “sản phẩm” kém hơn lab frontier đã optimize agent từ lâu. mrngld chỉ chart coding agent: GLM-5.1 xhigh đã đắt gấp đôi GPT-5.5 medium mà intelligence chỉ một nửa; 5.2 phải lấp khoảng trống lớn.

Chiều ngược lại: unrvl22 hỏi sao ít người nói tới resellers bán unlimited token $50/tháng, hoặc API rẻ hơn Z.ai 3 lần - trong khi giá Z.ai đã rẻ hơn Opus ~10 lần rồi. Với nhiều người trên HN, giá API chính thức chỉ là con số trên website. Thị trường thật là Crof, Umans, và mấy bot Discord host weights.

kristopolous chia script hàng ngày rank model theo coding index từ JSON của Artificial Analysis. GLM-5.2 mới ra vài giờ đã leo bảng. Benchmark không phải kinh thánh, nhưng script bạn chạy mỗi sáng đổi thứ hạng thì bạn có biết.

Có nên quan tâm?

Đọc bài gốc nếu…Bỏ qua nếu…
Bạn chọn model open weights cho production, cần snapshot leaderboard mới nhấtĐã dùng DeepSeek/Kimi ổn, không muốn đổi
Quan tâm benchmark agent kiểu GDPval, không chỉ HumanEvalChỉ tin eval riêng, coi mọi bảng xếp hạng là noise
Cần weights MIT, context 1M, giá dưới frontierLatency quan trọng hơn điểm số - GLM-5.2 nghĩ lâu
Mua qua reseller, muốn biết model gốc làm được gìNghĩ benchmark bị game hết, post leaderboard vô nghĩa

Theo tôi: GLM-5.2 là câu chuyện “open weights đuổi kịp” đáng tin nhất kể từ cú sốc DeepSeek R1 đầu năm. Nhưng nó giải bài bằng cách ném reasoning token cho tới khi benchmark đầu hàng. Trên bảng điểm thì đẹp. Trên hóa đơn và đồng hồ thì chưa chắc.

Ngai open weights đổi chủ. Vua mới thì giỏi, chỉ là đội vương miện hơi chậm.


Thảo luận trên Hacker News · Nguồn: artificialanalysis.ai · Gửi bởi himata4113

Hoang Yell

Một nhà phát triển phần mềm và là người kể chuyện kỹ thuật. Tôi đọc Hacker News mỗi ngày và kể lại những câu chuyện hay nhất ở đây — bằng tiếng Việt và tiếng Anh, cho người tò mò nhưng không có thời gian.