Startup Trung Quốc gây sốc với mô hình AI sánh ngang ChatGPT nhưng chi phí rẻ bất ngờ
Mô hình ngôn ngữ mới này được đánh giá có sức mạnh ngang ngửa ChatGPT của OpenAI nhưng chi phí huấn luyện thấp hơn đáng kể.
Startup DeepSeek, có trụ sở tại Hàng Châu, Trung Quốc, vừa công bố mô hình ngôn ngữ lớn (LLM) mới mang tên DeepSeek V3. DeepSeek V3 sở hữu 671 tỷ tham số, trở thành một trong những mô hình AI lớn nhất thế giới. Điều đáng chú ý là quá trình huấn luyện chỉ kéo dài hai tháng, với chi phí vỏn vẹn 5,58 triệu USD — con số thấp đáng kể so với các mô hình tương tự của các công ty công nghệ hàng đầu. Quá trình này sử dụng GPU H800, phiên bản hiệu năng thấp được thiết kế riêng cho thị trường Trung Quốc của NVIDIA, thay vì GPU H100 cao cấp mà chính phủ Mỹ đã cấm xuất khẩu.
Theo báo cáo kỹ thuật, DeepSeek V3 đã vượt qua các mô hình nổi tiếng như Llama 3.1 của Meta và Qwen 2.5 của Alibaba trong nhiều bài kiểm tra hiệu năng. Mô hình này cũng đạt kết quả ngang bằng với GPT-4o của OpenAI và Claude 3.5 Sonnet của Anthropic — các chuẩn mực hiện tại của ngành AI toàn cầu. Các thử nghiệm cho thấy DeepSeek V3 xuất sắc trong các nhiệm vụ hiểu văn bản, kiến thức chuyên sâu, lập trình và giải quyết vấn đề toán học.
Sự ra đời của DeepSeek V3 không chỉ là một thành tựu công nghệ mà còn là minh chứng cho khả năng thích ứng của ngành AI Trung Quốc trước các lệnh trừng phạt công nghệ từ Mỹ. Các chuyên gia cho rằng, thành công này đến từ kiến trúc mô hình tối ưu hóa để giảm thiểu chi phí và tài nguyên tính toán, cho phép DeepSeek cạnh tranh hiệu quả với các ông lớn mà không cần đến nguồn lực khổng lồ.
Bên cạnh việc sử dụng GPU H800, DeepSeek chỉ cần 2,78 triệu giờ GPU để hoàn thành quá trình huấn luyện — thấp hơn rất nhiều so với 30,8 triệu giờ GPU mà Llama 3.1 của Meta yêu cầu. Điều này cho thấy tiềm năng của DeepSeek trong việc cung cấp các giải pháp AI chi phí thấp, mở ra cơ hội cho các công ty nhỏ hơn gia nhập thị trường.
DeepSeek V3 được coi là bước đột phá trong cuộc đua công nghệ AI. Ảnh: Internet |
>> Xu hướng AI bùng nổ, một cổ phiếu công nghệ được khuyến nghị MUA, kỳ vọng tăng 16% 
DeepSeek được tách ra từ High-Flyer Quant, một công ty quản lý quỹ đầu cơ lớn tại Trung Quốc, vào năm 2023. Công ty mẹ đã đầu tư mạnh mẽ vào cơ sở hạ tầng AI, bao gồm cụm máy tính Fire-Flyer II trị giá 1 tỷ nhân dân tệ. DeepSeek đặt mục tiêu phát triển các mô hình AI không chỉ mạnh mẽ mà còn mang lại lợi ích cho toàn nhân loại, như lời tuyên bố của công ty trong một thông báo gần đây.
Ngay cả Andrej Karpathy, nhà khoa học máy tính và thành viên sáng lập OpenAI, cũng bày tỏ sự ngưỡng mộ. Ông nhận định trên mạng xã hội rằng, việc DeepSeek đạt được thành tựu này với ngân sách huấn luyện thấp là một kỳ tích, đồng thời gợi ý rằng ngành AI toàn cầu có thể học hỏi từ cách tiếp cận sáng tạo của công ty.
Sự thành công của DeepSeek V3 đánh dấu một cột mốc quan trọng cho ngành AI Trung Quốc, vốn đang nỗ lực vượt qua những hạn chế về công nghệ. Với mô hình này, Trung Quốc không chỉ khẳng định khả năng tự chủ mà còn mở ra một chương mới trong cuộc cạnh tranh AI toàn cầu. Điều này đặc biệt quan trọng khi các công ty Trung Quốc phải đối mặt với áp lực lớn từ các biện pháp kiểm soát xuất khẩu của Mỹ.
Hơn nữa, DeepSeek V3 đã chứng minh rằng việc phát triển các mô hình AI tiên tiến không nhất thiết phải đòi hỏi nguồn lực khổng lồ. Thành công này hứa hẹn sẽ thúc đẩy sự đổi mới, đồng thời khuyến khích các công ty nhỏ hơn tham gia vào lĩnh vực AI, qua đó đa dạng hóa thị trường và tăng cường sức cạnh tranh.
DeepSeek hiện đang cung cấp mô hình của mình cho các nhà phát triển để xây dựng ứng dụng bên thứ ba, cũng như phát triển chatbot riêng. Với DeepSeek V3, công ty khởi nghiệp này không chỉ đặt ra thách thức cho các đối thủ quốc tế mà còn thúc đẩy sự phát triển của ngành AI Trung Quốc.
>>AI, dữ liệu lớn, Internet di động sẽ tác động tới Việt Nam