Bài viết

Agentic RAG là gì? Sự khác biệt giữa Agentic RAG và RAG

Tháng Năm 1, 2025

Chia sẻ với:

Nội dung bài viết

Agentic RAG là phương pháp kết hợp sức mạnh của Retrieval-Augmented Generation (RAG) với AI Agents, tạo nên hệ thống truy xuất và tạo sinh thông tin thông minh, chủ động và linh hoạt. So với RAG truyền thống, Agentic RAG có thể chủ động xác định khi nào, bằng cách nào và những gì cần được truy xuất từ nhiều nguồn dữ liệu đa dạng.

Trong bài viết này, FPT.AI sẽ giới thiệu chi tiết về bản chất, cơ chế hoạt động và sự khác biệt toàn diện của Agentic RAG so với RAG truyền thống. Qua đó, độc giả sẽ hiểu rõ tiềm năng cũng như những giới hạn của công nghệ này, từ đó có thể đưa ra quyết định đúng đắn khi lựa chọn giải pháp phù hợp với nhu cầu cụ thể của doanh nghiệp.

Agentic RAG là gì?

Agentic RAG là phương pháp kết hợp sức mạnh của Retrieval-Augmented Generation (RAG) với AI Agents, nhằm nâng cao khả năng tạo nội dung và ra quyết định trong các hệ thống trí tuệ nhân tạo. Trong khi các hệ thống RAG truyền thống bổ sung thông tin từ nguồn bên ngoài cho các mô hình ngôn ngữ lớn theo chiến lược truy xuất cố định, Agentic RAG có thể quyết định chủ động về việc thông tin nào là liên quan, thông tin nào cần được ưu tiên, và làm thế nào để điều chỉnh quá trình tạo nội dung phù hợp với ngữ cảnh hoặc nhu cầu đang thay đổi theo thời gian thực.

Agentic RAG mở ra tiềm năng mới cho các ứng dụng AI yêu cầu cả khả năng truy xuất thông tin chính xác và ra quyết định phức tạp. Bằng cách kết hợp sức mạnh của RAG và AI Agents, Agentic RAG không chỉ nâng cao chất lượng thông tin được truy xuất mà còn tối ưu hóa cách thức sử dụng thông tin đó trong quá trình tạo nội dung.

agentic rag là gì — Cơ chế hoạt động của Agentic RAG

Cơ chế hoạt động của Agentic RAG

Không sử dụng Retriever và Generator hoạt động riêng biệt như RAG truyền thống, Agentic RAG tích hợp một hoặc nhiều loại AI Agents vào hệ thống RAG (Multi-Agent Framework). Các AI Agents này sẽ hợp tác để cùng nhau xử lý các truy vấn phức tạp.

Ví dụ, một hệ thống Agentic RAG có thể kết hợp nhiều information retrieval Agents, mỗi agent chuyên về một miền hoặc loại nguồn dữ liệu. Chẳng hạn, một Agent có thể tập trung vào truy vấn External Databases trong khi Agent khác tìm kiếm email hoặc kết quả từ web. Sự phân công nhiệm vụ này tạo nên tính chuyên môn hóa cao trong quá trình xử lý thông tin.

agentic ai là gì — Single-Agent RAG (Router)

Hệ thống Agentic RAG có thể bao gồm các loại AI Agents như:

Routing Agents: Routing Agents xác định nguồn kiến thức và công cụ nào sẽ được dùng để xử lý truy vấn người dùng. Chúng xử lý prompt và chọn pipeline RAG phù hợp để tạo phản hồi tối ưu. Trong hệ thống RAG đơn Agent, Routing Agent sẽ chọn nguồn dữ liệu cần truy xuất.
Query planning Agents: Query planning agent hoạt động như người quản lý nhiệm vụ trong pipeline RAG. Chúng chia truy vấn phức tạp thành các bước nhỏ và phân phối cho các agent khác. Sau khi nhận được kết quả từ các Agent chuyên biệt, Query Planning Agents kết hợp các phản hồi thành một kết quả tổng thể, hoàn chỉnh. Cơ chế này, được gọi là AI Orchestration, cho phép hệ thống xử lý hiệu quả các truy vấn phức tạp đa chiều.
ReAct Agents: ReAct (reasoning and action) là một framework agent giúp tạo hệ thống đa agent có thể lập luận và hành động theo từng bước. Đặc biệt, ReAct Agents có thể xác định công cụ phù hợp cho từng nhiệm vụ cụ thể. Dựa trên kết quả từng bước, ReAct agent có thể điều chỉnh các bước tiếp theo một cách linh hoạt.
Plan-and-execute Agents: Đây là phiên bản nâng cao từ ReAct agent, có thể thực hiện các quy trình nhiều bước mà không cần quay lại primary agent. Cơ chế này giúp giảm chi phí xử lý và tăng hiệu quả hệ thống. Do Agent này phải lập kế hoạch toàn diện ngay từ đầu, tỉ lệ hoàn thành nhiệm vụ và chất lượng kết quả thường cao hơn các loại Agent khác.

Các framework có thể tìm thấy trên GitHub như LangChain, LlamaIndex và Orchestration Framework LangGraph giúp đơn giản hóa quá trình triển khai Agentic RAG. Sử dụng các mô hình mã nguồn mở như Granite™ hoặc Llama-3 cũng giúp giảm chi phí và tăng khả năng quan sát.

>>> XEM THÊM: Multi Agent System (Hệ thống đa AI Agent) là gì?

RAG là gì?

Retrieval Augmented Generation là một kỹ thuật trí tuệ nhân tạo (AI) giúp nâng cao hiệu suất của các mô hình ngôn ngữ lớn (LLMs) bằng cách kết nối mô hình Generative AI với một cơ sở kiến thức bên ngoài (External Knowledge Base). Trong ngữ cảnh này, Ai tạo sinh (Generative AI) đóng vai trò “bộ tạo sinh” giúp tổng hợp câu trả lời từ truy vấn và bằng chứng truy xuất, thay vì chỉ trả về kết quả tìm kiếm thô. Thay vì chỉ dựa vào dữ liệu huấn luyện có sẵn, RAG giúp các mô hình AI có thể truy cập dữ liệu theo thời gian thực thông qua API và các kết nối khác với nguồn dữ liệu.

Một pipeline RAG tiêu chuẩn gồm hai thành phần chính:

Thành phần truy xuất thông tin (Retriever): Thường là một Embedding Model kết hợp với một Vector Database chứa dữ liệu cần truy xuất. Retriever thường tìm kiếm thông tin phù hợp với truy vấn đầu vào trong các tập dữ liệu khổng lồ hoặc kho lưu trữ tài liệu.
Thành phần tạo sinh (Generator): Thường là một LLM như GPT, BERT hoặc các kiến trúc tương tự. Generator xử lý truy vấn và các tài liệu đã truy xuất để tạo ra phản hồi mạch lạc và phù hợp với ngữ cảnh.

Khi nhận truy vấn bằng ngôn ngữ tự nhiên, Embedding Model chuyển truy vấn thành một Vector Embedding, sau đó truy xuất dữ liệu tương tự từ Knowledge Base. Hệ thống AI kết hợp dữ liệu đã truy xuất với truy vấn người dùng để tạo phản hồi phù hợp với ngữ cảnh.

agentic ai — Một pipeline RAG tiêu chuẩn gồm

Ưu điểm chính của RAG nằm ở khả năng tham chiếu thông tin cập nhật hoặc dữ liệu chuyên ngành có thể chưa có trong giai đoạn đào tạo của mô hình. Điều này giảm thiểu vấn đề ảo giác (hallucination), nơi các mô hình ngôn ngữ cung cấp thông tin có vẻ hợp lý nhưng không chính xác, đồng thời đảm bảo độ chính xác về mặt thực tế cao hơn. RAG cho phép các LLM hoạt động chính xác hơn trong các ngữ cảnh chuyên biệt mà không cần fine-tuning.

RAG được ứng dụng rộng rãi trong các lĩnh vực đòi hỏi sự chính xác và phù hợp ngữ cảnh trong việc tạo nội dung như:

Hỗ trợ khách hàng: RAG cung cấp các phản hồi chính xác bằng cách lấy thông tin liên quan từ sách hướng dẫn sản phẩm, câu hỏi thường gặp hoặc cơ sở dữ liệu khách hàng.
Y tế và nghiên cứu: RAG nâng cao các mô hình ngôn ngữ để tạo ra những hiểu biết sâu sắc bằng cách truy xuất và tham chiếu các bài báo học thuật hoặc tập dữ liệu nghiên cứu.
AI Chatbot: Các chatbot chuyên ngành được cải thiện đáng kể bằng RAG, đảm bảo rằng các phản hồi được thông tin bởi một tập dữ liệu rộng hơn so với những gì được sử dụng trong quá trình đào tạo ban đầu.

AI Agents là gì?

AI Agent là gì? Đây là loại AI có thể tương tác với môi trường, xử lý thông tin đầu vào và thực hiện một chuỗi hành động dựa trên đầu vào hoặc mục tiêu đã được xác định mà không cần sự can thiệp của con người. Hầu hết các Agent hiện nay là các mô hình ngôn ngữ lớn (LLM) có khả năng Function Calling, nghĩa là chúng có thể gọi các công cụ để thực hiện nhiệm vụ. Vậy llm agent là gì? Có thể hiểu đây là một AI Agent lấy mô hình ngôn ngữ lớn (LLM) làm “bộ não”, kết hợp bộ nhớ và khả năng gọi công cụ (tool/function calling) để tự lập kế hoạch và thực thi chuỗi hành động nhằm đạt mục tiêu.

Vai trò chính của các Agent là tự động hóa các nhiệm vụ, tối ưu hóa quy trình và đưa ra quyết định thông minh trong môi trường năng động, đặc biệt phù hợp cho các nhiệm vụ ra quyết định phức tạp. Về lý thuyết, AI Agents là các LLM với ba đặc điểm nổi bật:

Sở hữu cả trí nhớ ngắn hạn và dài hạn, có thể tham chiếu lại các nhiệm vụ trước để lập kế hoạch và thực hiện các tác vụ phức tạp sau.
Có khả năng định tuyến truy vấn, lập kế hoạch theo từng bước và ra quyết định. AI Agents có khả năng ghi nhớ để giữ thông tin và vạch ra hành động phù hợp với các truy vấn phức tạp.
Có khả năng gọi công cụ thông qua API. Những Agent tiên tiến hơn thậm chí có thể chủ động chọn công cụ phù hợp để thực hiện quy trình phản hồi người dùng một cách tối ưu.

Quy trình làm việc của Agent (Agentic Workflow) có thể bao gồm một AI Agent đơn lẻ hoặc hệ thống nhiều Agent phối hợp với nhau. Các Agent có thể khác nhau về độ phức tạp, từ các hệ thống dựa trên quy tắc đơn giản đến các mô hình phức tạp tận dụng học sâu (Deep Learning).

rag — AI Agents là loại AI có thể tự động tương tác với môi trường, xử lý thông tin đầu vào và thực hiện hành động

Dựa trên đặc điểm và chức năng, AI Agents có thể được phân loại thành nhiều nhóm. Agents phản ứng hoạt động dựa trên trạng thái hiện tại của môi trường, tuân theo các quy tắc hoặc phản hồi được xác định trước mà không lưu trữ hoặc sử dụng kinh nghiệm quá khứ.

Agents nhận thức tiên tiến hơn với khả năng lưu trữ kinh nghiệm quá khứ, phân tích mẫu và đưa ra quyết định dựa trên bộ nhớ, thường được sử dụng trong các hệ thống đòi hỏi việc học hỏi từ các tương tác trước đó. Agents hợp tác tương tác với các Agent hoặc hệ thống khác để đạt được mục tiêu chung, thường thấy trong hệ thống đa Agent, nơi nhiều Agent hợp tác, chia sẻ thông tin hoặc phối hợp hành động.

Về mặt kiến trúc và giao tiếp, các Agent dựa vào nhiều kiến trúc khác nhau, bao gồm các mô hình ra quyết định, mạng thần kinh (Neural Network) và hệ thống dựa trên quy tắc. Giao tiếp giữa các Agent thường được thực hiện thông qua các giao thức như truyền tin, kích hoạt sự kiện hoặc tương tác dựa trên mạng phức tạp, đặc biệt quan trọng trong các hệ thống phân tán.

Các Agent có thể được tổ chức theo mô hình tập trung, nơi tất cả quyết định được thực hiện bởi một thực thể điều khiển duy nhất, hoặc phân tán, nơi mỗi Agent hoạt động tự chủ nhưng vẫn đóng góp vào một mục tiêu lớn hơn.

>>> XEM THÊM: 6 bước tự xây dựng AI Agents cho người mới bắt đầu

Sự khác biệt giữa Agentic RAG và RAG truyền thống

Xem bảng so sánh chi tiết Agentic RAG và RAG truyền thống sau:

Tiêu chí	RAG truyền thống	Agentic RAG
Cơ chế hoạt động	Truy xuất thông tin thụ động, chỉ khi được yêu cầu	Thêm lớp ra quyết định thông qua các Agent tự chủ, chủ động quyết định khi nào, bằng cách nào và những gì cần được truy xuất
Tính linh hoạt	Kết nối LLM với một bộ dữ liệu duy nhất	Có thể lấy dữ liệu từ nhiều External Knowledge Base và sử dụng công cụ bên ngoài
Khả năng thích ứng	Công cụ truy xuất dữ liệu phản ứng, không thích nghi với ngữ cảnh thay đổi, cần prompt engineering để đạt kết quả tối ưu	Giải quyết vấn đề thông minh và linh hoạt, các Agent phối hợp và kiểm tra lẫn nhau
Độ chính xác	Không tự xác thực hoặc tối ưu hóa kết quả	Có thể lặp lại quy trình để tối ưu hóa kết quả theo thời gian
Khả năng mở rộng	Hạn chế do chỉ kết nối với một nguồn dữ liệu	Cao hơn nhờ mạng lưới Agent làm việc cùng nhau, truy cập nhiều nguồn dữ liệu và sử dụng Tool-Calling
Tính đa phương thức	Thường giới hạn trong xử lý văn bản	Tận dụng LLM Multimodal để xử lý dữ liệu đa dạng như hình ảnh và âm thanh
Chi phí	Thấp hơn do sử dụng ít token	Cao hơn do cần nhiều Agent và token hơn
Độ trễ	Thấp hơn	Cao hơn vì LLM cần thời gian tạo phản hồi
Độ tin cậy	Phụ thuộc vào chất lượng dữ liệu nguồn	Có thể thất bại tùy theo độ phức tạp và loại Agent sử dụng

Như vậy, sự khác biệt cơ bản nhất giữa Agentic RAG và RAG truyền thống nằm ở tính chủ động và khả năng ra quyết định. Với cả RAG và Agentic RAG, cách viết prompt chatgpt hiệu quả thường là: nêu mục tiêu → mô tả dữ liệu/nguồn cần ưu tiên → yêu cầu trích dẫn/bằng chứng → quy định định dạng đầu ra (bảng/bullet) → ràng buộc không suy đoán ngoài dữ liệu truy xuất.

RAG truyền thống hoạt động như một công cụ thụ động, chỉ truy xuất thông tin khi được yêu cầu và dựa trên một quy trình cứng nhắc đã được thiết lập trước. Ngược lại, Agentic RAG tích hợp các Agent thông minh, có khả năng chủ động quyết định quá trình tìm kiếm, xử lý và tổng hợp thông tin.

Trong khi RAG truyền thống giống như một nhân viên tuân thủ chặt chẽ các hướng dẫn được đưa ra, Agentic RAG hoạt động như một nhóm chuyên gia tự chủ, không chỉ thực hiện các nhiệm vụ được giao mà còn có khả năng lưu trữ và tham chiếu các tập truy vấn, ngữ cảnh và kết quả trước đó (thông qua Semantic Caching), phân tích vấn đề, phối hợp với nhau và đưa ra các giải pháp sáng tạo.

Tuy nhiên, Agentic RAG không phải lúc nào cũng tốt hơn RAG truyền thống. Việc có nhiều AI Agents đồng nghĩa chi phí cao hơn, do cần nhiều token hơn. Ngoài ra, LLM có thể tạo độ trễ vì mất thời gian tạo phản hồi. Ngoài ra, Agentic RAG vẫn thất bại trong các nhiệm vụ phức tạp, cạnh tranh tài nguyên, dẫn đến xung đột. Và ngay cả hệ thống RAG tốt nhất cũng không thể loại bỏ hoàn toàn khả năng “hallucination”.

Vì vậy, doanh nghiệp chỉ nên chọn Agentic RAG khi cần giải quyết vấn đề phức tạp, đòi hỏi nhiều nguồn dữ liệu, cần độ linh hoạt cao trong việc tìm kiếm và xử lý thông tin hoặc muốn hệ thống có khả năng tự cải thiện độ chính xác theo thời gian. Một khi có ngân sách hạn chế, cần giải pháp phản hồi nhanh với các nhiệm vụ đơn giản và nguồn dữ liệu đã xác định rõ ràng, RAG truyền thống vẫn là lựa chọn hiệu quả và tiết kiệm chi phí.

Các ứng dụng nổi bật của Agentic RAG

Agentic RAG có thể được dùng trong hầu hết các ứng dụng của RAG truyền thống, nhưng do đòi hỏi tính toán cao hơn, nó phù hợp hơn trong các tình huống cần truy vấn nhiều nguồn dữ liệu. Một số ứng dụng bao gồm:

Trả lời câu hỏi và hỗ trợ ra quyết định theo thời gian thực: Trong các tình huống đòi hỏi phân tích dữ liệu nhanh chóng như phân tích thị trường chứng khoán hoặc chẩn đoán y tế, doanh nghiệp triển khai AI chatbot, trợ lý ảo hoặc hệ thống FAQ sử dụng RAG để cung cấp thông tin chính xác, cập nhật cho nhân viên và khách hàng.
Hỗ trợ tự động: Với khả năng truy xuất nội dung liên quan đến các cuộc hội thoại đang diễn ra và tự động hóa dịch vụ khách hàng với nội dung cá nhân hóa và phù hợp ngữ cảnh, doanh nghiệp có thể sử dụng Agentic RAG để xử lý các yêu cầu hỗ trợ đơn giản và chuyển tiếp các vấn đề phức tạp hơn đến nhân viên con người.
Quản lý dữ liệu: Hệ thống RAG giúp truy xuất thông tin trong cơ sở dữ liệu nội bộ nhanh chóng, giảm nhu cầu tìm kiếm thủ công của nhân viên.
Hệ thống hợp tác đa Agent: Agentic RAG thể hiện tiềm năng lớn trong các hệ thống AI phân tán, nơi nhiều Agent cần phối hợp làm việc trên các tập dữ liệu lớn hoặc xử lý các truy vấn phức tạp, tạo nên một mạng lưới thông minh với khả năng xử lý thông tin vượt trội.

Tóm lại, Agentic RAG đánh dấu một bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo khi kết hợp sức mạnh của truy xuất-tạo sinh và hệ thống đa Agent thông minh. Việc lựa chọn giữa Agentic RAG và RAG truyền thống cần được cân nhắc kỹ lưỡng dựa trên đặc thù yêu cầu, nguồn lực sẵn có và mức độ phức tạp của nhiệm vụ.

Trong tương lai, với sự phát triển không ngừng của các mô hình ngôn ngữ lớn và công nghệ Agent, Agentic RAG hứa hẹn sẽ ngày càng hoàn thiện, khắc phục các hạn chế hiện tại và mở rộng phạm vi ứng dụng trong nhiều lĩnh vực khác nhau của đời sống và kinh doanh.

>>> XEM THÊM:

Bài viết liên quan