Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk
Bài viết

DeepSeek là gì? 5 sự thât về DeepSeek 

Tháng Hai 12, 2025

Chia sẻ với:

Trong thế giới AI có một quan niệm phổ biến rằng việc phát triển các mô hình ngôn ngữ lớn tiên tiến đòi hỏi nguồn lực kỹ thuật  cũng như tài chính đáng kể. Tuy nhiên, DeepSeek xuất hiện và bùng nổ như một hiện tượng khi công bố những mô hình LLM có hiệu suất tương đương với những mô hình độc quyền như ChatGPT hay Claude với chi phí huấn luyện chỉ bằng một phần nhỏ so với những đối thủ đến từ Hoa Kỳ.  

1. DeepSeek là gì?   

Được thành lập vào tháng 5/2023 bởi Liang Wenfeng tại Hàng Châu, Trung Quốc, DeepSeek hoạt động độc lập nhưng được tài trợ hoàn toàn bởi High-Flyer, một quỹ phòng hộ định lượng cũng do Wenfeng sáng lập. Mô hình tài trợ độc đáo này đã cho phép DeepSeek theo đuổi các dự án AI đầy tham vọng mà không chịu áp lực từ các nhà đầu tư bên ngoài, giúp họ ưu tiên nghiên cứu và phát triển dài hạn. 

Hình 1: Quá trình phát triển của những LLM tại DeepSeek – Nguồn: Analytics Vidhya

2. Các mô hình ngôn ngữ lớn (LLM) của DeepSeek  

Mô hình Ngày ra mắt Thông tin chung 
DeepSeek Coder Tháng 11/2023 – Mô hình AI mã nguồn mở đầu tiên của DeepSeek dành riêng cho các tác vụ lập trình. 
– Hỗ trợ nhiều ngôn ngữ lập trình, có khả năng viết, sửa lỗi và tối ưu hóa mã. 
DeepSeek LLM Tháng 12/2023 – Mô hình tổng quát đầu tiên của DeepSeek, có thể xử lý nhiều loại nhiệm vụ khác nhau. 
– Được thiết kế để cạnh tranh với các mô hình AI như GPT-3.5 và LLaMA. 
DeepSeek-V2 Tháng 5/2024 – Phiên bản nâng cấp của DeepSeek LLM, với hiệu suất mạnh hơn và chi phí huấn luyện thấp hơn. 
– Tập trung vào khả năng suy luận và trả lời chính xác hơn 
DeepSeek-Coder-V2 Tháng 7/2024 – Mô hình AI lập trình mạnh mẽ, có 236 tỷ tham số và cửa sổ ngữ cảnh lên đến 128,000 tokens. 
– Hỗ trợ giải quyết các thử thách lập trình phức tạp, phù hợp với các chuyên gia phần mềm 
DeepSeek-V3 Tháng 12/2024 – Sử dụng kiến trúc hỗn hợp chuyên gia (MoE – Mixture of Experts), giúp tối ưu hiệu suất và tiết kiệm tài nguyên tính toán. Có 671 tỷ tham số, với cửa sổ ngữ cảnh 128,000 tokens. 
– Xử lý đa nhiệm tốt hơn so với các phiên bản trước 
DeepSeek-R1 Tháng 1/2025 – Mô hình tập trung vào khả năng suy luận nâng cao, cạnh tranh trực tiếp với OpenAI o1. Dựa trên DeepSeek-V3, nhưng được tối ưu hóa cho các tác vụ phức tạp hơn. 
– Vẫn giữ 671 tỷ tham số và 128,000 tokens nhưng có cấu trúc chi phí thấp hơn. 
Janus-Pro-7B Tháng 1/2025 – Mô hình thị giác nhân tạo có thể hiểu và tạo ra hình ảnh. 
– Được thiết kế cho các tác vụ nhận diện hình ảnh, tạo hình ảnh AI và phân tích trực quan.  

3. DeepSeek-V3 chỉ tiêu tốn 5.576 Triệu USD? 

Trên thực tế, con số 5.576 Triệu USD trên chỉ bao gồm chi phí đào tạo, chưa tính đến chi phí nghiên cứu, phát triển, chuẩn bị dữ liệu, bảo trì phần cứng và các vấn đề liên quan khác. 

Theo phân tích của SemiAnalysis, công ty nổi tiếng về nghiên cứu, tư vấn thị trường bán dẫn và AI, chi tiêu tính riêng cho phần cứng của DeepSeek “cao hơn 500 triệu USD”. “Phân tích của chúng tôi cho thấy tổng chi phí vốn máy chủ có thể là 1,6 tỷ USD, trong đó phần đáng kể là 944 triệu USD liên quan đến vận hành các cụm máy này”, SemiAnalysis cho hay. “Họ còn phải thử nghiệm, đưa ra kiến trúc mới, thu thập và làm sạch dữ liệu, trả lương cho nhân viên và nhiều việc khác nữa”. 

SemiAnalysis ước tính DeepSeek có quyền truy cập vào khoảng 10.000 H800 và khoảng 10.000 H100. Ngoài ra, họ đã đặt hàng rất nhiều GPU H20, trong bối cảnh Nvidia đã sản xuất hơn 1 triệu GPU phiên bản dành riêng cho Trung Quốc trong 9 tháng qua. 

Những GPU này được chia sẻ giữa High-Flyer và DeepSeek, và được phân bổ theo khu vực ở một mức độ nhất định. Chúng được sử dụng cho giao dịch tài chính, suy luận AI, huấn luyện mô hình và nghiên cứu. 

Hình 2: Tổng chi phí sở hữu ước tính của DeepSeek AI – Nguồn: SemiAnalysis

4. DeepSeek Chat vs ChatGPT 

Model chính GPT-4o, o1 DeepSeek-V3, DeepSeek-R1 
Model chuyên môn Dall-E (image generation), 
Whisper (speech recognition) 
DeepSeek Coder (coding), Janus Pro (vision model) 
Giá API 
(trên 1 triệu tokens) 
o1: $15 (input), $60 (output) DeepSeek-R1: $0.55 (input), $2.19 (output) 
Chính sách mã nguồn mở  Hạn chế Hầu hết là mã nguồn mở 
Phương thức huấn luyện Huấn luyện có giám sát và Huấn luyện có hướng dẫn Supervised and instruction-based fine-tuning Học tăng cường Reinforcement learning 

5. Nhiều quốc gia lo ngại về DeepSeek 

Hình 3: Sơ đồ các quốc gia lo ngại trước chatbot AI của DeepSeek
Nguồn: Independent.co.uk

Khi ngày càng có nhiều người tìm hiểu về AI của DeepSeek sau làn sóng quan tâm, một số quốc gia đã bắt đầu đưa ra cảnh báo và lệnh cấm do lo ngại về quyền riêng tư và an ninh đối với công cụ chat của DeepSeek. 

Cơ quan giám sát quyền riêng tư của Hà Lan nhanh chóng cảnh báo người dân về việc tải thông tin lên DeepSeek, lo ngại rằng dữ liệu cá nhân có thể bị sử dụng để huấn luyện mô hình ngôn ngữ lớn (LLM) của DeepSeek. 

Một số nơi thậm chí đã cấm DeepSeek, bao gồm Đài Loan, Ý và bang Texas, với việc triển khai các lệnh cấm một phần hoặc toàn bộ đối với việc sử dụng mô hình AI này. 

Đọc thêm các bài viết công nghệ tại: https://fpt.ai/vi/tai-nguyen/

Đánh giá
Bài viết liên quan

Cập nhật mọi tin tức mới nhất về công nghệ AI

Đăng ký nhận bản tin của FPT.AI để được phủ sóng mọi xu hướng công nghệ, câu chuyện thành công và phân tích của chuyên gia.