Bài viết

DeepSeek là gì? 5 sự thât về DeepSeek

Tháng Hai 12, 2025

Chia sẻ với:

Nội dung bài viết

Trong thế giới AI có một quan niệm phổ biến rằng việc phát triển các mô hình ngôn ngữ lớn tiên tiến đòi hỏi nguồn lực kỹ thuật cũng như tài chính đáng kể. Tuy nhiên, DeepSeek xuất hiện và bùng nổ như một hiện tượng khi công bố những mô hình LLM có hiệu suất tương đương với những mô hình độc quyền như ChatGPT hay Claude với chi phí huấn luyện chỉ bằng một phần nhỏ so với những đối thủ đến từ Hoa Kỳ.

1. DeepSeek là gì?

Được thành lập vào tháng 5/2023 bởi Liang Wenfeng tại Hàng Châu, Trung Quốc, DeepSeek hoạt động độc lập nhưng được tài trợ hoàn toàn bởi High-Flyer, một quỹ phòng hộ định lượng cũng do Wenfeng sáng lập. Mô hình tài trợ độc đáo này đã cho phép DeepSeek theo đuổi các dự án AI đầy tham vọng mà không chịu áp lực từ các nhà đầu tư bên ngoài, giúp họ ưu tiên nghiên cứu và phát triển dài hạn.

Hình 1: Quá trình phát triển của những LLM tại DeepSeek – *Nguồn: Analytics Vidhya*

2. Các mô hình ngôn ngữ lớn (LLM) của DeepSeek

Mô hình	Ngày ra mắt	Thông tin chung
DeepSeek Coder	Tháng 11/2023	– Mô hình AI mã nguồn mở đầu tiên của DeepSeek dành riêng cho các tác vụ lập trình. – Hỗ trợ nhiều ngôn ngữ lập trình, có khả năng viết, sửa lỗi và tối ưu hóa mã.
DeepSeek LLM	Tháng 12/2023	– Mô hình tổng quát đầu tiên của DeepSeek, có thể xử lý nhiều loại nhiệm vụ khác nhau. – Được thiết kế để cạnh tranh với các mô hình AI như GPT-3.5 và LLaMA.
DeepSeek-V2	Tháng 5/2024	– Phiên bản nâng cấp của DeepSeek LLM, với hiệu suất mạnh hơn và chi phí huấn luyện thấp hơn. – Tập trung vào khả năng suy luận và trả lời chính xác hơn
DeepSeek-Coder-V2	Tháng 7/2024	– Mô hình AI lập trình mạnh mẽ, có 236 tỷ tham số và cửa sổ ngữ cảnh lên đến 128,000 tokens. – Hỗ trợ giải quyết các thử thách lập trình phức tạp, phù hợp với các chuyên gia phần mềm
DeepSeek-V3	Tháng 12/2024	– Sử dụng kiến trúc hỗn hợp chuyên gia (MoE – Mixture of Experts), giúp tối ưu hiệu suất và tiết kiệm tài nguyên tính toán. Có 671 tỷ tham số, với cửa sổ ngữ cảnh 128,000 tokens. – Xử lý đa nhiệm tốt hơn so với các phiên bản trước
DeepSeek-R1	Tháng 1/2025	– Mô hình tập trung vào khả năng suy luận nâng cao, cạnh tranh trực tiếp với OpenAI o1. Dựa trên DeepSeek-V3, nhưng được tối ưu hóa cho các tác vụ phức tạp hơn. – Vẫn giữ 671 tỷ tham số và 128,000 tokens nhưng có cấu trúc chi phí thấp hơn.
Janus-Pro-7B	Tháng 1/2025	– Mô hình thị giác nhân tạo có thể hiểu và tạo ra hình ảnh. – Được thiết kế cho các tác vụ nhận diện hình ảnh, tạo hình ảnh AI và phân tích trực quan.

3. DeepSeek-V3 chỉ tiêu tốn 5.576 Triệu USD?

Trên thực tế, con số 5.576 Triệu USD trên chỉ bao gồm chi phí đào tạo, chưa tính đến chi phí nghiên cứu, phát triển, chuẩn bị dữ liệu, bảo trì phần cứng và các vấn đề liên quan khác.

Theo phân tích của SemiAnalysis, công ty nổi tiếng về nghiên cứu, tư vấn thị trường bán dẫn và AI, chi tiêu tính riêng cho phần cứng của DeepSeek “cao hơn 500 triệu USD”. “Phân tích của chúng tôi cho thấy tổng chi phí vốn máy chủ có thể là 1,6 tỷ USD, trong đó phần đáng kể là 944 triệu USD liên quan đến vận hành các cụm máy này”, SemiAnalysis cho hay. “Họ còn phải thử nghiệm, đưa ra kiến trúc mới, thu thập và làm sạch dữ liệu, trả lương cho nhân viên và nhiều việc khác nữa”.

SemiAnalysis ước tính DeepSeek có quyền truy cập vào khoảng 10.000 H800 và khoảng 10.000 H100. Ngoài ra, họ đã đặt hàng rất nhiều GPU H20, trong bối cảnh Nvidia đã sản xuất hơn 1 triệu GPU phiên bản dành riêng cho Trung Quốc trong 9 tháng qua.

Những GPU này được chia sẻ giữa High-Flyer và DeepSeek, và được phân bổ theo khu vực ở một mức độ nhất định. Chúng được sử dụng cho giao dịch tài chính, suy luận AI, huấn luyện mô hình và nghiên cứu.

Hình 2: Tổng chi phí sở hữu ước tính của DeepSeek AI – *Nguồn: SemiAnalysis*

4. DeepSeek Chat vs ChatGPT

Model chính	GPT-4o, o1	DeepSeek-V3, DeepSeek-R1
Model chuyên môn	Dall-E (image generation), Whisper (speech recognition)	DeepSeek Coder (coding), Janus Pro (vision model)
Giá API (trên 1 triệu tokens)	o1: $15 (input), $60 (output)	DeepSeek-R1: $0.55 (input), $2.19 (output)
Chính sách mã nguồn mở	Hạn chế	Hầu hết là mã nguồn mở
Phương thức huấn luyện	Huấn luyện có giám sát và Huấn luyện có hướng dẫn Supervised and instruction-based fine-tuning	Học tăng cường Reinforcement learning

5. Nhiều quốc gia lo ngại về DeepSeek

Hình 3: Sơ đồ các quốc gia lo ngại trước chatbot AI của DeepSeek
– *Nguồn: Independent.co.uk*

Khi ngày càng có nhiều người tìm hiểu về AI của DeepSeek sau làn sóng quan tâm, một số quốc gia đã bắt đầu đưa ra cảnh báo và lệnh cấm do lo ngại về quyền riêng tư và an ninh đối với công cụ chat của DeepSeek.

Cơ quan giám sát quyền riêng tư của Hà Lan nhanh chóng cảnh báo người dân về việc tải thông tin lên DeepSeek, lo ngại rằng dữ liệu cá nhân có thể bị sử dụng để huấn luyện mô hình ngôn ngữ lớn (LLM) của DeepSeek.

Một số nơi thậm chí đã cấm DeepSeek, bao gồm Đài Loan, Ý và bang Texas, với việc triển khai các lệnh cấm một phần hoặc toàn bộ đối với việc sử dụng mô hình AI này.

Đọc thêm các bài viết công nghệ tại: https://fpt.ai/vi/tai-nguyen/

Bài viết liên quan