Logo

Cụm Siêu Máy Tính 144 GPU NVIDIA H200 Đầu Tiên Ra Mắt: Sức Mạnh Vượt Trội Và Khả Năng Cho Thuê


Gần đây, một cụm siêu máy tính cực kỳ ấn tượng đã chính thức đi vào hoạt động, đó là ExaCluster của ExaaiLabs, được trang bị tới 144 GPU NVIDIA H200. Điều đặc biệt, đây là một trong những cụm máy đầu tiên trên thế giới sử dụng dòng GPU mạnh mẽ này. Hydra Host, công ty đóng vai trò quan trọng trong việc xây dựng hệ thống, đã cung cấp thêm nhiều thông tin chi tiết về siêu máy tính này.
ExaCluster bao gồm 18 máy chủ Lenovo, mỗi máy chứa 8 GPU H200 và tổng cộng 20 TB bộ nhớ HBM3e, cho phép đạt hiệu năng tính toán 570 PetaFLOPS FP8, một con số đáng kinh ngạc cho các tác vụ AI. Trong đó, 16 máy chủ được tối ưu hóa cho việc đào tạo các mô hình AI đòi hỏi sức mạnh tính toán và bộ nhớ lớn, còn 2 máy chủ còn lại được dùng cho suy luận. Ngoài ra, Hydra Host cũng tích hợp nền tảng Brokkr để quản lý, cung cấp GPU và cho thuê từ xa.
Để đảm bảo hiệu năng cao nhất, Hydra Host đã hợp tác với Computacenter để thiết kế kiến trúc mạng đặc biệt. Hệ thống sử dụng kết nối Infiniband 3.2 Tbps cho lưu lượng giữa các máy chủ và Ethernet 400 Gbps cho kết nối ra bên ngoài, bao gồm cả các kết nối 200 Gbps kép trên mỗi máy chủ và các bộ chuyển mạch Ethernet 400 Gbps của Dell.
Không chỉ có sức mạnh GPU, cụm máy tính này còn có hiệu năng đáng kể cho các tác vụ điện toán thông thường. Mỗi máy chủ có 2 bộ vi xử lý 96 lõi (tổng cộng 3.456 lõi) đi kèm 36 TB bộ nhớ DDR5 và 270 TB bộ nhớ lưu trữ SSD NVMe. Thậm chí, hệ thống còn có không gian để mở rộng thêm bộ nhớ lưu trữ. Hydra Host cũng tự xây dựng hệ thống mạng riêng để kết nối các máy chủ này.
Để đảm bảo hoạt động ổn định cho hệ thống ngốn điện và tỏa nhiệt lớn này, Patmos đã được thuê để cung cấp đủ năng lượng (khoảng 100 kW) và hệ thống làm mát.
Chi phí của ExaCluster là 5 triệu đô la, tương đương 277.777 đô la mỗi máy chủ. Mức giá này tương đương với một bảng mạch GPU H200 8 chiều chứ không phải toàn bộ máy chủ. Điều thú vị là ai đã hỗ trợ để có mức giá tốt như vậy?
Hydra Host là đối tác thân thiết của NVIDIA và chỉ cung cấp dịch vụ GPU NVIDIA. Phần mềm Brokkr của họ cũng được tối ưu hóa cho CUDA. Mặt khác, Exaai lại là công ty được NVIDIA hậu thuẫn, nên có thể được hưởng giá ưu đãi.
Hydra Host cho biết họ luôn cố gắng mang đến cho khách hàng GPU phù hợp nhất với giá tốt nhất. Cụm máy tính này được NVIDIA hỗ trợ từ khâu thiết kế kiến trúc và chương trình thành lập. Hydra chịu trách nhiệm xây dựng cụm máy này cho Exaai, cũng như nhiều công ty khác.
Ngoài ra, Hydra Host còn xây dựng các giải pháp tùy chỉnh cho các công ty khởi nghiệp và thậm chí cho phép họ kiếm tiền từ máy chủ khi không sử dụng. Nền tảng Brokkr là một giải pháp phần mềm trọn gói để quản lý, cung cấp GPU và cho phép khách hàng thuê lại phần cứng của mình.
Một trong những tính năng quan trọng của Brokkr là khả năng cung cấp tự động và quản lý vòng đời phần cứng. Nền tảng này sẽ tự động cấu hình hệ điều hành, cài đặt driver và phần mềm hỗ trợ, kiểm tra GPU, giúp giảm thời gian chờ đợi, chuẩn hóa quy trình và giúp người dùng dễ dàng bán lại máy chủ cho người khác khi không dùng nữa.
Cụm Siêu Máy Tính 144 GPU NVIDIA H200 Đầu Tiên Ra Mắt: Sức Mạnh Vượt Trội Và Khả Năng Cho Thuê
Tác giả: Mai Ngọc Mai Ngọc

0 Bình luận

Hãy để lại bình luận gì đó

NewSLiver

[email protected]

Hình ảnh

© newsliver.com. All Rights Reserved.