Anthropic Đang Train Model Trên Máy Chủ Của Elon

6 phút đọc English
Featured image for Anthropic Đang Train Model Trên Máy Chủ Của Elon

Tweet đó chỉ có hơn chục chữ. Tom Brown đăng từ tài khoản cá nhân. Anthropic đang mở rộng sang Colossus2, anh viết. Sẽ dùng GB200.

Nếu bạn biết Tom Brown là ai, bạn sẽ dừng lại một giây. Nếu không: anh là đồng tác giả của bài báo GPT-3 năm 2020, bài báo mở đầu cho cuộc đua LLM hiện đại. Anh rời OpenAI, rồi đến Anthropic ở vị trí cấp cao trong mảng huấn luyện mô hình. Và giờ anh đang thông báo Anthropic đang train trên siêu máy tính của Elon Musk.

Đó là toàn bộ câu chuyện. Mấy chục chữ. Ba năm kịch tính của ngành AI nén vào một tweet.

Colossus là gì

Colossus là trung tâm dữ liệu của xAI tại Memphis, Tennessee. Khi xAI dựng nó lên năm 2024, đây là cụm GPU lớn nhất thế giới - khoảng 100.000 H100, xây dựng trong thời gian mà Musk gọi là kỷ lục. Sự nhanh chóng đó một phần nhờ dùng turbine khí thiên nhiên di động để cấp điện, một số trong đó, theo Trung tâm Luật Môi trường Miền Nam, hoạt động mà không có giấy phép không khí hợp lệ. Cư dân Memphis sống gần đó có ý kiến. Ý kiến đó phần lớn không được lắng nghe.

Colossus2 là bản nâng cấp - rack NVIDIA GB200 NVLink, kiến trúc Blackwell. Một bước nhảy đáng kể so với H100 về cả throughput lẫn băng thông bộ nhớ.

Phần kỳ lạ

aurareturn, người đăng bài lên HN, tự mình bình luận đầu tiên dưới thread, gom lại những tín hiệu đã tích lũy một thời gian: xAI đã cho Anthropic toàn bộ Colossus1. Họ còn để Cursor train một mô hình trên Colossus2. Và giờ tiếp tục cấp compute trên Colossus2 cho Anthropic.

Đây không còn là quan hệ đối tác nữa. Đây là công ty cho thuê data center.

xAI ra đời năm 2023 để đối đầu trực tiếp với OpenAI trong cuộc đua mô hình frontier. Grok là mô hình của họ. Colossus được xây để train nó. Chưa đầy hai năm sau, cùng cơ sở hạ tầng đó đang chạy training run cho đối thủ cạnh tranh.

zitterbewegung đưa ra một tiên đoán cụ thể: “Có vẻ Grok sắp bị khai tử hoặc sẽ sớm ‘powered by Anthropic’”. Người dùng try-working đẩy xa hơn: “xAI không thể train mô hình. Anthropic không thể làm inference. Vai trò của hai công ty này đã được định đoạt rồi.”

Nhận định đó sắc bén, dù vẫn là suy đoán. Điều ít mang tính suy đoán hơn: có gì đó đã thay đổi bên trong xAI.

Câu hỏi về trust mà chưa ai có câu trả lời

Câu hỏi không thoải mái nhất trong thread được hỏi từ nhiều góc độ khác nhau. stevefan1999 hỏi thẳng: “Anthropic không sợ Elon hút trộm model weights từ network buses sao?” virgildotcodes hỏi phiên bản dài hơn: nếu ai đó sở hữu data center, họ có thể quan sát luồng token ra vào, exfiltrate model weights, rồi dùng đó để xây mô hình cạnh tranh không?

Không ai trong thread có câu trả lời thỏa đáng. Chắc chắn Anthropic có hợp đồng bảo vệ. Liệu những bảo vệ đó có đứng vững trước một chủ sở hữu data center đồng thời là đối thủ AI frontier - đó là câu hỏi thuộc loại khác.

Còn có góc đơn giản hơn. chinathrow nói gọn: “Tôi dùng Claude hàng ngày nhưng tôi không muốn tiền của mình chảy vào túi Elon.”

Đây là cái giá khó định. Claude từ lâu là lựa chọn của những người dùng muốn tránh xa quỹ đạo OpenAI. Quyết định kiểu này làm vị thế đó phức tạp hơn nhiều.

GB200 làm được gì

NVIDIA GB200 (Blackwell) là bước tiến kiến trúc đáng kể so với H100. Rack GB200 NVLink 72 kết hợp 36 CPU Grace và 72 GPU Blackwell trong một đơn vị duy nhất với kết nối NVLink 72 chiều - băng thông gấp khoảng 5 lần so với thế hệ trước. Hiệu năng training FP8 được công bố là khoảng 1,4 PetaFLOPS mỗi rack.

Với training mô hình lớn, hiệu ứng thực tế là khả năng chạy các cấu hình song song lớn hơn với ít overhead đồng bộ liên node hơn. Những gì Colossus1 cần 100.000 H100 để làm, Colossus2 có thể làm với ít đơn vị hơn đáng kể, hoặc làm được thứ lớn hơn với cùng số lượng.

Mô hình tiếp theo của Anthropic sẽ được định hình một phần bởi điều này. Compute là thật.

Góc đọc mà tôi cứ quay lại

ReptileMan để lại đúng một bình luận: “War makes strange bedfellows.” - Chiến tranh đẻ ra những người bạn đồng hành kỳ lạ.

Ba chữ. Tóm gọn cả tình huống.

Anthropic và xAI đứng ở hai cực về tư tưởng. Anthropic được thành lập một phần như một phản ứng trước điều mà những người sáng lập cho là thiếu chú trọng an toàn tại OpenAI. Elon Musk đã công khai đối đầu với những người hậu thuẫn Anthropic và cộng đồng AI safety rộng lớn hơn. Tầm nhìn của họ về cách phát triển AI không đồng hướng.

Vậy mà đây là thoả thuận: Anthropic train trên Colossus, xAI thu phí, GB200 chạy Claude. Thị trường đã tìm ra điểm cân bằng mà không bản tuyên ngôn sứ mệnh nào dự đoán được.

Câu hỏi của alienreborn là câu còn đọng lại: “Vì sao xAI lại từ bỏ lợi thế của mình?” Compute training là một hào sâu cạnh tranh. Bạn không cho thuê nó cho đối thủ trừ khi bạn nghĩ cái hào đó không còn hoạt động, hoặc không còn đáng bảo vệ.

Có thể cuộc đua mô hình nhìn từ bên trong xAI trông khác xa so với nhìn từ ngoài vào. Có thể những con số về thị phần Grok đã làm quyết định rõ ràng. Có thể Musk quyết định hạ tầng mới là kinh doanh, còn mô hình là thứ người khác xây trên đó.

Hoặc có lẽ đơn giản hơn tất cả. Xây cụm GPU lớn nhất thế giới tốn tiền. Cho nó chạy nóng trong khi đối thủ trả tiền thuê thì ít tốn tiền hơn.


Thảo luận trên Hacker News · Nguồn: twitter.com · Đăng bởi aurareturn

Hoang Yell

Một nhà phát triển phần mềm và là người kể chuyện kỹ thuật. Tôi đọc Hacker News mỗi ngày và kể lại những câu chuyện hay nhất ở đây — bằng tiếng Việt và tiếng Anh, cho người tò mò nhưng không có thời gian.