Phần cứng 13/03/2025 - 01:47:33

Meta Phát Triển Chip AI Riêng, Giảm Phụ Thuộc NVIDIA

Meta đang có những bước tiến lớn trong việc tự chủ về phần cứng, cụ thể là chip AI. Sau nhiều năm phát triển chip RISC-V cho tác vụ suy luận AI (AI inference) nhằm cắt giảm chi phí và giảm sự phụ thuộc vào NVIDIA, Meta đã tiến thêm một bước: thiết kế chip tăng tốc AI riêng cho quá trình huấn luyện mô hình (AI training). Theo Reuters, Meta đã hợp tác với Broadcom để thiết kế chip này và đã sản xuất thử nghiệm thành công tại TSMC. Nếu con chip đạt được hiệu suất như mong đợi, Meta có thể giảm đáng kể sự phụ thuộc vào các GPU AI cao cấp của NVIDIA như H100/H200 và B100/B200, đặc biệt là trong việc huấn luyện các mô hình ngôn ngữ lớn tiên tiến. Hiện Meta đã bắt đầu triển khai thử nghiệm chip tăng tốc AI mới này để đánh giá hiệu năng trước khi sản xuất và triển khai trên quy mô lớn. Mặc dù thông số kỹ thuật chi tiết chưa được tiết lộ, nhưng có khả năng con chip sử dụng kiến trúc "systolic array" (mảng tâm thu), một thiết kế phổ biến cho chip huấn luyện AI, với bộ nhớ HBM3 hoặc HBM3e để xử lý lượng dữ liệu khổng lồ. Việc Meta tự thiết kế chip cho phép họ tùy chỉnh các định dạng dữ liệu và tập lệnh, tối ưu hóa kích thước chip, mức tiêu thụ điện năng và hiệu năng. Mục tiêu là đạt được hiệu năng trên mỗi watt cạnh tranh với các GPU AI hiện đại của NVIDIA như H200, B200 và có thể cả thế hệ B300 tiếp theo. Chip mới này là một phần của chương trình MTIA (Meta Training and Inference Accelerator) của Meta. Tuy nhiên, chương trình này đã gặp phải không ít khó khăn, bao gồm cả việc tạm dừng phát triển ở các giai đoạn tương tự trước đây. Ví dụ, Meta đã ngừng phát triển chip suy luận nội bộ sau khi nó không đáp ứng được các mục tiêu về hiệu năng và điện năng trong quá trình thử nghiệm. Điều này đã khiến Meta chuyển hướng chiến lược vào năm 2022, đặt hàng số lượng lớn GPU NVIDIA để đáp ứng nhu cầu xử lý AI cấp thiết. Từ đó, Meta đã trở thành một trong những khách hàng lớn nhất của NVIDIA, mua hàng chục nghìn GPU để huấn luyện các mô hình AI cho các ứng dụng như đề xuất, quảng cáo và dòng mô hình nền tảng Llama. GPU của NVIDIA cũng được sử dụng cho các tác vụ suy luận, hỗ trợ tương tác cho hơn ba tỷ người dùng hàng ngày trên các nền tảng của Meta. Bất chấp những thách thức, Meta vẫn tiếp tục phát triển chương trình silicon tùy chỉnh của mình. Năm ngoái, Meta đã bắt đầu sử dụng chip MTIA cho các tác vụ suy luận. Ban lãnh đạo Meta đã vạch ra kế hoạch bắt đầu sử dụng chip tùy chỉnh cho quá trình huấn luyện AI vào năm 2026. Kế hoạch là tăng dần việc sử dụng nếu chip đáp ứng được các mục tiêu về hiệu năng và điện năng, đây là một thành phần quan trọng trong mục tiêu dài hạn của Meta là thiết kế các giải pháp phần cứng tùy chỉnh hơn cho các hoạt động trung tâm dữ liệu của mình. Một điểm thú vị là các chip tăng tốc suy luận của MTIA sử dụng lõi RISC-V mã nguồn mở. Điều này cho phép Meta tùy chỉnh kiến trúc tập lệnh theo ý muốn để đáp ứng các yêu cầu của mình mà không cần phải trả tiền bản quyền cho bất kỳ bên thứ ba nào. Hiện chưa rõ liệu chip tăng tốc huấn luyện của MTIA có dựa trên ISA RISC-V hay không, nhưng điều này là hoàn toàn có thể. Nếu đúng như vậy, Meta có thể đã phát triển một trong những chip RISC-V hiệu năng cao nhất trong ngành.