Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk

Computer Using Agents hoạt động như thế nào?

Tháng Tám 8, 2025

Chia sẻ với:

Khi nói về CUAs (Computer-Using Agents), nhiều người chỉ hình dung đây là một AI “nhấp chuột” và “nhập liệu” thay con người. Nhưng đằng sau những cú click tưởng chừng đơn giản đó là cả một hệ thống trí tuệ nhân tạo phức tạp, phối hợp nhịp nhàng giữa thị giác máy tính, khả năng lập kế hoạch và động cơ thực thi để hoàn thành nhiệm vụ. Vậy, CUAs thực sự hoạt động như thế nào?

Hệ thống CUAs (Computer-Using Agents) gồm những lớp nào?

CUAs (Computer-Using Agents) thường được xây dựng từ ba lớp năng lực cốt lõi, tương tự như cách con người làm việc với máy tính:

Vision Layer – Lớp Thị giác máy tính: Đây là “đôi mắt” của CUAs (Computer-Using Agents). Nó giúp agents nhìn thấy toàn bộ màn hình bằng cách chụp ảnh giao diện hiện tại và sử dụng công nghệ thị giác máy tính (Computer Vision) để phân tích các thành phần UI: nút bấm, ô nhập liệu, menu thả xuống, pop-up thông báo… Giống như cách mắt người quan sát, Vision Layer cho phép CUAs (Computer-Using Agent) hiểu được bối cảnh và xác định vị trí để tương tác.

Planning Layer – Lớp Lập kế hoạch và suy luận: Sau khi nhìn thấy màn hình, CUAs (Computer-Using Agents) cần “suy nghĩ” để biết mình phải làm gì tiếp theo. Planning Layer sử dụng mô hình ngôn ngữ lớn (LLM) kết hợp với logic suy luận đa bước (multi-step reasoning) để lên kế hoạch hành động. Nó xác định mục tiêu, chia nhiệm vụ thành các bước nhỏ và sắp xếp thứ tự thực hiện, đồng thời chuẩn bị phương án dự phòng nếu xảy ra lỗi.

Execution Layer – Lớp Thao tác và hành động: Đây là “đôi tay” của CUAs (Computer-Using Agents). Lớp này điều khiển chuột và bàn phím ảo để click, nhập văn bản, cuộn trang, mở tab, gửi form… giống như một nhân viên thật đang làm việc. Sau mỗi hành động, Execution Layer lại gửi thông tin về Vision Layer để quan sát kết quả và quyết định bước tiếp theo.

Cách agents “nhìn” và “suy luận” để hành động

CUAs (Computer-Using Agents) của FPT.AI, tập trung vào cách agents “nhìn” (Perception) và “suy luận” (Reasoning) để quyết định hành động gồm 3 bước:

  1. Perception: CUAs (Computer-Using Agents) “nhìn thấy” giao diện như con người

CUAs (Computer-Using Agents) không chỉ dựa vào mã HTML hay tọa độ cố định như RPA. Nó hiện thực khả năng quan sát màn hình bằng công nghệ thị giác máy tính (Computer Vision). CUAs (Computer-Using Agents) lấy ảnh chụp màn hình hiện tại, nhận diện các thành phần UI như nút bấm, ô nhập liệu, bảng dữ liệu, popup thông báo… và hiểu cả ngữ cảnh bố cục giao diện. Ví dụ như ô nhập liệu “Tên” luôn xuất hiện trước ô “Ngày sinh”, hoặc nút “Lưu” thường nằm bên dưới form. Khi giao diện thay đổi nhẹ như vị trí nút di chuyển, CUAs (Computer-Using Agents) vẫn nhận ra và xử lý chính xác nhờ khả năng thích nghi ngữ cảnh. Nếu nội dung xuất hiện dưới dạng hình ảnh, nó sử dụng OCR để trích văn bản rồi kết hợp với NLP để xử lý thông tin

  1. Reasoning: CUAs (Computer-Using Agents) “suy luận” và lập kế hoạch hành động

Sau khi quan sát, CUAs (Computer-Using Agents) cần hiểu nhiệm vụ và lập kế hoạch thực hiện. Đó là vai trò của Planning Layer, nơi mô hình ngôn ngữ lớn (LLM) hỗ trợ agent phân tích yêu cầu và đưa ra chuỗi hành động cụ thể. CUAs (Computer-Using Agents) sử dụng kỹ thuật chain-of-thought reasoning, nghĩa là tạo chuỗi logic từng bước để hoàn thành mục tiêu. Ví dụ: nếu mục tiêu là tạo hồ sơ nhân viên mới, agent xác định cần: click “Tạo mới”, điền thông tin, chọn phòng ban, lưu, rồi gửi email chào mừng. Nếu phát sinh lỗi như popup cảnh báo hoặc thông tin thiếu, CUAs (Computer-Using Agents) có khả năng tái lập kế hoạch, thay đổi thứ tự thao tác hoặc lựa chọn dự phòng để tiếp tục nhiệm vụ mà không bị gián đoạn

Computer Using Agents

  1. Chu trình vòng lặp “Look‑Reason‑Act”

Một trong những điểm nổi bật làm nên sự khác biệt của CUAs (Computer-Using Agents) so với các công nghệ tự động hóa truyền thống chính là chu trình vận hành vòng lặp “Look – Reason – Act”. Thay vì chạy theo kịch bản cứng như RPA, các AI Agents này được thiết kế để hoạt động theo chu trình nhận thức – suy luận – hành động (Perception → Reasoning → Action), lặp lại liên tục cho đến khi nhiệm vụ hoàn tất.

Cụ thể, quá trình bắt đầu từ việc CUAs (Computer-Using Agents) chụp ảnh màn hình, sau đó sử dụng thị giác máy tính để nhận diện các phần tử giao diện (UI) và phân tích trạng thái hiện tại của ứng dụng. Dựa trên bối cảnh được quan sát, hệ thống reasoning sẽ suy luận mục tiêu và xác định bước hành động tiếp theo. Nếu cần nhấn một nút, điền thông tin vào form, hay chọn một mục từ danh sách, agent sẽ tiến hành thao tác qua các lệnh click, nhập liệu hoặc chọn mục – rồi quay lại quan sát giao diện để kiểm tra xem thao tác đã mang lại kết quả mong muốn hay chưa.

Điểm đột phá nằm ở khả năng tự điều chỉnh khi có sai lệch so với kế hoạch. Nếu phát hiện trạng thái mới không như dự kiến. Chẳng hạn như popup lỗi bất ngờ xuất hiện, CUAs (Computer-Using Agents) sẽ ngay lập tức quay lại bước suy luận, xây dựng phương án hành động khác thay vì dừng lại như những bot truyền thống. Nhờ đó, CUAs (Computer-Using Agents) có thể ứng phó linh hoạt với các tình huống phát sinh, giao diện thay đổi hoặc quy trình chưa được chuẩn hóa.

Khả năng “nhìn thấy” giao diện một cách trực quan như con người, kết hợp với “suy luận từng bước” để điều chỉnh thao tác theo ngữ cảnh, giúp CUAs (Computer-Using Agents) thực sự trở thành một trợ lý AI đa năng. Điều này đặc biệt hữu ích trong các môi trường hệ thống GUI phức tạp, phần mềm kế thừa không có API, hoặc các tác vụ có nhiều biến thể nhỏ như quy trình onboarding nhân sự, xử lý web tự động hay tích hợp liên hệ hệ thống, những bài toán mà FPT.AI đang giải quyết bằng giải pháp CUAs (Computer-Using Agents)

Lấy ví dụ với tác vụ “Tạo tài khoản nhân viên mới trong hệ thống HR”. Khi nhận nhiệm vụ, CUAs (Computer-Using Agents) sẽ khởi động bằng bước đọc màn hình, chụp giao diện và xác định vị trí nút “Tạo mới”. Từ đó, lớp lập kế hoạch (Planning Layer) quyết định chuỗi hành động tiếp theo như: nhấn nút tạo mới, điền form, lưu hồ sơ. Lớp thực thi (Execution Layer) thực hiện thao tác click, đồng thời Vision Layer kiểm tra xem giao diện đã chuyển sang form nhập liệu chưa. Agent sau đó điền các trường như tên, ngày sinh, chức vụ…, đồng thời xác thực từng trường dữ liệu có hợp lệ hay không. Khi hoàn tất, CUAs (Computer-Using Agents) bấm “Lưu” và quan sát kết quả – chẳng hạn như popup “Tạo thành công”. Nếu mọi bước đều diễn ra suôn sẻ, Planning Layer sẽ đánh dấu tác vụ hoàn thành và gửi báo cáo. Ngược lại, nếu còn các bước tiếp theo như tạo email nội bộ, agent sẽ tiếp tục chu trình cho đến khi toàn bộ nhiệm vụ hoàn tất.

Chính chu trình Quan sát → Suy luận → Hành động → Kiểm tra được lặp lại liên tục này đã giúp CUAs (Computer-Using Agents) hoạt động gần như một nhân viên thực thụ – nhưng với độ chính xác cao hơn, tốc độ nhanh hơn và khả năng thích ứng linh hoạt với mọi thay đổi trên giao diện. Đây là cốt lõi sức mạnh biến CUAs (Computer-Using Agents) trở thành tương lai của tự động hóa công việc trên máy tính.

CUAs (Computer-Using Agents) không đơn thuần là một “bot” bấm nút. Nó là một hệ thống trí tuệ nhân tạo đa lớp, biết nhìn – suy nghĩ – thao tác – điều chỉnh, giúp tự động hóa các tác vụ phức tạp vốn chỉ con người mới làm được. Nhờ đó, CUAs (Computer-Using Agents) trở thành bước tiến đột phá trong tự động hóa doanh nghiệp, mở ra tương lai nơi mỗi quy trình thủ công đều có thể được thực hiện thông minh, ổn định và hiệu quả hơn bao giờ hết.

Hải Vân.