Logo

Gaudi 2 của Intel vượt trội so với Nvidia trong việc tăng tốc AI Vision-Language




Bài kiểm tra hiệu suất fine-tuning mới cho BridgeTower, một mô hình AI Vision-Language (VL), đã cho thấy rằng có cuộc sống cho AI camp tăng tốc khác ngoài màu xanh lá cây của Nvidia.



Mặc dù Nvidia thống trị thị trường AI acceleration (thông qua tầm nhìn xa tuyệt vời, một ngăn xếp phần mềm được suy nghĩ và tài liệu tốt, và hiệu suất xử lý thuần túy), các nhà chơi khác cũng muốn chiếm lấy một phần thị trường AI cho riêng mình. Và ít nhất đối với BridgeTower, silicon Gaudi 2 của Intel (được thiết kế và sản xuất thông qua việc Intel mua lại Habana trị giá 2 tỷ USD vào năm 2019) đã được Hugging Face chứng minh rằng nó vượt trội so với A100 80 GB của Nvidia một cách đáng kinh ngạc 2,5 lần - và thậm chí nó còn đánh bại đứa con cưng của Nvidia là H100 1,4 lần.



Vision-Language (VL) đề cập đến các mô hình AI có thể xử lý và liên kết thông tin trên các phương thức ngôn ngữ và biểu diễn hình ảnh. VL models cụ thể thường được liên kết với các mô hình tạo hình ảnh như CLIP của Open AI và Stable Diffusion XL - một thị trường đang phát triển nhanh chóng chủ yếu được dẫn dắt bởi Midjourney, Stable Diffusion và hiện là Ideogram.



Theo Habana, những tốc độ đáng kể này là kết quả của hệ thống tải dữ liệu được tăng tốc phần cứng - một trong những nút thắt cổ chai cho việc fine-tuning mô hình AI, và đặc biệt là cho các mô hình VL. Việc tải tác vụ vào bộ nhớ thường là một nút thắt hiệu suất ở bất cứ nơi nào tính toán nằm, vì vậy không có gì lạ khi Habana tìm cách tối ưu hóa bước cụ thể này trong quá trình đào tạo.



Cái nút thắt chính liên quan đến cách CPU bị hammed với nhiều hoạt động tốn kém như giải mã hình ảnh và biến đổi hình ảnh (một vấn đề tương tự như cuộc tranh luận về lệnh gọi GPU), dẫn đến HPU (hoặc GPU Nvidia) bị đình trệ trong khi chờ dữ liệu tiếp theo được xử lý (bởi CPU) và sau đó được gửi đến bộ tăng tốc AI được chọn.



Qua phương pháp tăng tốc phần cứng, có thể thấy rằng CPU được sử dụng ít hơn nhiều (giải phóng các chu kỳ CPU cho các tác vụ khác trong quá trình fine-tuning chính), điều này sẽ dẫn đến hiệu suất được cải thiện.



Benchmarking Habana's Gaudi 2 bằng cách fine-tuning một checkpoint BridgeTower được đào tạo trước với 866M tham số cho phép chúng ta thấy những lợi ích về hiệu suất mà việc tải hình ảnh được tăng tốc phần cứng mang lại. Các tác vụ đã được chạy trong tính toán phân tán trên 8 thiết bị mỗi (của A100 80 GB, H100 và Gaudi 2 của Nvidia). Kết quả được đo và tính trung bình trên ba lần chạy xử lý khác nhau, mỗi lần chạy tạo ra các quy trình CPU hoàn toàn dành riêng để tải dữ liệu vào bộ nhớ (lần chạy đầu tiên tải bộ nhớ trong quá trình CPU chính, trong khi lần chạy hai và ba tăng số lượng quy trình tải bộ nhớ lên một và hai, tương ứng).



Các kết quả rõ ràng: kịch bản hiệu suất tốt nhất cho Gaudi 2 là kịch bản đầu tiên, nơi dữ liệu được tải cùng với quá trình đào tạo chính, với Gaudi 2 đánh bại cả H100 của Nvidia 1,79 lần và A100 2,23 lần. Nhưng đây là một trường hợp không được tối ưu hóa, như chính Habana đã thừa nhận; vì vậy có lẽ kết quả tiết lộ nhất đến từ điểm dữ liệu thứ ba, nơi hai quy trình bổ sung được tạo ra để xử lý tải dữ liệu bên ngoài quá trình fine-tuning chính. Ở đó, các sản phẩm của Nvidia chắc chắn phải nheo mắt để bắt kịp bụi mù của Gaudi 2 khi nó chạy xa: Gaudi 2 mang lại hiệu suất được cải thiện 1,3 lần so với H100 hàng đầu của Nvidia và cải thiện hiệu suất 2,23 lần so với A100 80 GB.



Sẽ có thể tạo ra các quy trình bổ sung để xử lý tải dữ liệu


Tác giả: Huy Hoàng Huy Hoàng

0 Bình luận

Hãy để lại bình luận gì đó

NewSLiver

[email protected]

Hình ảnh

© newsliver.com. All Rights Reserved.