Trong những năm gần đây, bên cạnh các mô hình ngôn ngữ lớn (LLM) đã trở thành tâm điểm của làn sóng AI tạo sinh thì song song với đó, một hướng phát triển khác đang nổi lên mạnh mẽ: Small Language Models (SLM). Những mô hình nhỏ, nhanh, chuyên biệt này được nhiều chuyên gia đánh giá là “mảnh ghép còn thiếu” để hiện thực hóa tầm nhìn về Agentic AI – các hệ thống AI có khả năng tự động suy luận, ra quyết định và hành động thay mặt con người.
Small Language Models là gì?
SLMs là những mô hình ngôn ngữ có quy mô nhỏ hơn rất nhiều so với các LLM thông thường – thường nằm trong ngưỡng dưới 10 tỷ tham số. Ưu điểm lớn nhất của SLM là khả năng chạy được trên hầu hết các thiết bị điện tử thông thường, với độ trễ đủ thấp để người dùng có thể tương tác real-time. Thay vì phụ thuộc vào hạ tầng siêu máy chủ đắt đỏ, SLM có thể hoạt động trên máy chủ nhỏ, thậm chí trên thiết bị cá nhân hoặc edge device.
Nhờ kích thước gọn nhẹ, các SLM dễ dàng được tinh chỉnh cho những tác vụ hoặc nhóm người dùng cụ thể, trở thành những “chuyên gia” giải quyết vấn đề thay vì cố gắng bao quát tất cả như các LLM đa năng.
1. Đủ mạnh để đảm đương các tác vụ agentic
Nhiều người vẫn cho rằng “nhỏ” đồng nghĩa với “yếu”, nhưng thực tế lại đang chứng minh điều ngược lại. Một loạt mô hình SLM đã đạt được hiệu suất ngang ngửa hoặc vượt trội so với các mô hình lớn hơn nhiều:
- Microsoft Phi-2 (2.7B) và Phi-3 (7B) đạt được năng lực commonsense reasoning và code generation ngang với các mô hình 30–70 tỷ tham số, trong khi tốc độ chạy nhanh hơn tới 15 lần.
- Dòng SmolLM2 của HuggingFace (125M – 1.7B tham số) đạt hiệu suất gần bằng các mô hình 14B ra mắt cùng thời điểm, và sánh ngang với các mô hình 70B thế hệ cũ về khả năng hiểu ngôn ngữ, gọi công cụ (tool calling) và làm theo chỉ dẫn (instruction following).
Điều này cho thấy, với bài toán phù hợp, SLM hoàn toàn đủ sức đảm nhận vai trò của “bộ não” trong hệ thống AI agentic mà không cần đến LLM
2. Chi phí thấp – dễ triển khai – dễ mở rộng
Một lợi thế lớn khác là tối ưu về chi phí. Các SLM tiêu tốn ít tài nguyên inference và finetuning hơn rất nhiều so với LLM. Khi xây dựng hệ thống agent, thay vì để một LLM “ôm” mọi nhiệm vụ, doanh nghiệp có thể thiết kế mô hình “multi-agent với nhiều chuyên gia nhỏ”, mỗi SLM đảm trách một tác vụ cụ thể.
Cách tiếp cận này mang lại hàng loạt lợi ích:
- Dễ debug hơn: Khi một tác vụ gặp lỗi, chỉ cần điều chỉnh mô hình chuyên biệt, không ảnh hưởng toàn hệ thống.
- Triển khai nhanh hơn, rẻ hơn: Không cần cụm GPU lớn, dễ dàng scale trên hạ tầng hiện có.
- Phù hợp với mô hình agent thực tế: Phần lớn agent chỉ khai thác một phần rất hẹp của năng lực LLM. Việc dùng một mô hình nhỏ đã được huấn luyện đúng “nhiệm vụ” từ đầu sẽ nhanh, rẻ và hiệu quả hơn.
3. Tận dụng đúng bản chất của Agentic AI
Agentic AI thực chất không cần một “tổng thể biết tuốt”, mà cần nhiều thành phần phối hợp nhịp nhàng: một agent điều phối, một vài công cụ, và các mô hình ngôn ngữ phục vụ đúng vai trò. Trong nhiều trường hợp, LLM bị “trói tay” bởi hệ thống prompt phức tạp và quản lý ngữ cảnh nghiêm ngặt, khiến chúng hoạt động như một phần rất nhỏ so với khả năng thực tế.
Thay vào đó, SLM chuyên biệt ngay từ đầu sẽ giúp hệ thống agent vận hành mượt mà, chính xác và tiết kiệm hơn đáng kể.
Vậy tại sao nhiều agent vẫn gắn bó với LLM?
Mặc dù có nhiều ưu điểm, SLM vẫn chưa trở thành lựa chọn mặc định cho các hệ thống AI agentic. Với ba lý do chính sau:
- Hạ tầng đã đầu tư sâu cho LLM
Nhiều doanh nghiệp đã chi mạnh để xây dựng hạ tầng inference phục vụ LLM. Việc chuyển hướng sang SLM đồng nghĩa phải thay đổi kiến trúc hệ thống – một quyết định không dễ dàng.
- Hiểu làm về hiệu suất của SLM
Khi các SLM đạt điểm benchmark ngang với LLM, chúng thường bị nhìn nhận như “small LLM” – tức là phiên bản thu nhỏ, không có khác biệt rõ ràng. Điều này khiến nhiều người không thấy được điểm mạnh thực sự của SLM: chuyên biệt hóa, tốc độ và khả năng triển khai rộng.
- Niềm tin “LLM luôn tốt hơn”
Thói quen công nghệ và tâm lý “bám theo chuẩn lớn” khiến nhiều tổ chức mặc định LLM là lựa chọn tối ưu. Trong khi đó, thực tế cho thấy ở nhiều tác vụ cụ thể, SLM không chỉ đủ tốt mà còn vượt trội về hiệu quả tổng thể.
Điều quan trọng là đây không phải những rào cản kỹ thuật hay tài chính không thể vượt qua. Các hạn chế đang dần được giải quyết nhờ tiến bộ về kiến trúc mô hình, công cụ phát triển, cũng như nhận thức ngày càng rõ ràng hơn của cộng đồng AI.
Kết luận:
Sự trỗi dậy của Small Language Models không phải là cuộc cạnh tranh “một mất một còn” với LLM, mà là một sự bổ sung chiến lược. Trong kỷ nguyên Agentic AI, nơi các hệ thống AI cần tự động, nhanh, chính xác và tiết kiệm, SLM có tiềm năng trở thành “xương sống” của các agent – đảm nhiệm vai trò chuyên biệt, gọn nhẹ nhưng hiệu quả.
Tương lai có thể sẽ không còn xoay quanh một “siêu trí tuệ” duy nhất, mà là một hệ sinh thái gồm nhiều agent nhỏ phối hợp với nhau và SLM chính là mảnh ghép trung tâm để biến điều đó thành hiện thực.