Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk

CUA là gì? Vì sao đây là bước nhảy vọt sau RPA?

Tháng Bảy 15, 2025

Chia sẻ với:

Trong làn sóng chuyển đổi số đang diễn ra mạnh mẽ trên toàn cầu, doanh nghiệp không chỉ cần “số hoá dữ liệu”, mà cần cả những công cụ “thực thi công việc” một cách linh hoạt, thông minh và tiết kiệm sức người. Nếu như RPA từng giúp các tổ chức tiết kiệm hàng ngàn giờ thao tác thủ công bằng cách tự động hóa các bước lặp đi lặp lại, thì một thế hệ công nghệ mới đang dần thay thế nó – không chỉ chạy theo script, mà còn biết nhìn, hiểu và hành động như một con người. Đó chính là CUA – Computer-Using Agent.

CUA là gì?

Computer-Using Agent (CUA) là những hệ thống tự động có khả năng tương tác với phần mềm, trình duyệt web, và thực hiện các tác vụ giống như một người dùng thực thụ. Sử dụng khả năng thị giác máy tính của các mô hình đa phương thức (multimodal models) CUAs có thể hiểu những gì đang diễn ra trên màn hình, đồng thời kết hợp với các AI Agents có khả năng lập kế hoạch và suy luận để quyết định bước tiếp theo.

Bạn hãy tưởng tượng mình là một nhân viên hành chính. Mỗi khi có người mới gia nhập công ty, bạn sẽ: đăng nhập vào phần mềm nhân sự, điền đầy đủ thông tin cá nhân, tạo tài khoản email cho họ trên hệ thống khác, gửi thư chào mừng, rồi thông báo cho bộ phận IT chuẩn bị thiết bị. Một loạt thao tác phải làm đúng, đủ, tuần tự – lặp đi lặp lại cho từng nhân sự mới.

Giờ hãy tưởng tượng có một “trợ lý AI” ngồi cạnh bạn. Bạn chỉ cần nói với nó: “Tạo hồ sơ cho bạn Nguyễn Văn A, vào làm ngày 15/8, vị trí Marketing Executive.” Ngay lập tức, trợ lý đó mở trình duyệt, truy cập hệ thống HR, đăng nhập, nhập thông tin vào form, chuyển sang hệ thống tạo email, gửi thư chào mừng, rồi báo cho phòng IT – mọi thao tác y như bạn vẫn làm bằng tay, nhưng nhanh hơn, không sai sót, và không cần bạn chạm vào bàn phím. Đó chính là CUA.

CUA khác gì RPA truyền thống?

Sự khác biệt giữa CUA và RPA giống như giữa một robot chỉ biết làm việc theo đúng hướng dẫn và một trợ lý có thể tự suy nghĩ và ứng biến. RPA (Robotic Process Automation) là công nghệ giúp tự động hoá các thao tác đơn giản lặp đi lặp lại trên giao diện – nhưng nó chạy theo kịch bản cố định. Nếu giao diện thay đổi nhẹ, nút bị đổi vị trí hoặc đổi tên, RPA sẽ bị lỗi. Nếu có ngoại lệ xảy ra – như popup xuất hiện, dữ liệu thiếu – RPA không biết phản ứng ra sao.

Trong khi đó, CUA hoạt động linh hoạt và thông minh hơn rất nhiều. Nó “nhìn” được màn hình thông qua công nghệ thị giác máy tính (computer vision), “hiểu” nhiệm vụ được giao nhờ mô hình ngôn ngữ lớn (LLM), và “hành động” bằng cách di chuyển chuột, nhập văn bản, click nút – giống như một người thật đang thao tác với máy tính. Nếu có lỗi phát sinh, CUA có thể tự suy nghĩ lại kế hoạch, thử hướng đi khác, hoặc đưa ra cảnh báo phù hợp.

Tiêu chí CUA (Computer-Using Agent) RPA (Robotic Process Automation)
Cách vận hành Quan sát giao diện bằng thị giác máy, suy luận bằng AI, thao tác như người thật Thực hiện thao tác dựa trên kịch bản được lập trình sẵn
Khả năng thích ứng Rất linh hoạt, có thể điều chỉnh khi giao diện thay đổi hoặc phát sinh lỗi Kém thích ứng, dễ “gãy” khi giao diện thay đổi dù chỉ một chút
Xử lý dữ liệu Dữ liệu cấu trúc & phi cấu trúc (email, ảnh, dashboard, text tự do…) Chủ yếu là dữ liệu cấu trúc (form, bảng, template cố định)
Cần API không? Không cần – thao tác trực tiếp qua giao diện GUI Có thể cần API hoặc giao diện ổn định để đảm bảo hoạt động
Khả năng suy luận, hiểu ngữ cảnh Có – nhờ tích hợp mô hình ngôn ngữ lớn (LLM) và cơ chế reasoning Không – chỉ thực hiện hành vi theo kịch bản tĩnh
Phạm vi ứng dụng Rộng hơn – xử lý tốt môi trường phức tạp, hệ thống cũ, giao diện không chuẩn hóa Hẹp hơn – phù hợp môi trường có quy trình rõ ràng, giao diện ổn định
Tốc độ thực thi Chậm hơn một chút do có bước suy luận, xử lý hình ảnh Nhanh hơn trong quy trình đơn giản, cố định
Khả năng học và thích nghi Có thể học từ dữ liệu & cải tiến theo thời gian (nếu kết hợp RL hoặc fine-tuning) Không học – muốn thay đổi phải chỉnh lại kịch bản thủ công
Yêu cầu triển khai Không cần thay đổi hệ thống – chỉ cần có giao diện Cần khảo sát quy trình kỹ, tạo script tương ứng
Tương lai phát triển Là nền tảng cho AI Agents thế hệ mới – đa nhiệm, suy luận, phối hợp với con người Đang bị thay thế dần bởi các agent AI có tư duy và tính linh hoạt cao hơn

Bảng so sánh rõ ràng, trực quan giữa CUA (Computer-Using Agent) và RPA (Robotic Process Automation)

Vì sao CUA là tương lai của tự động hoá GUI – thay vì chỉ dựa vào API?

Trong thế giới lý tưởng, tất cả hệ thống đều được kết nối bằng API – dữ liệu chạy mượt mà, logic rõ ràng, tích hợp gọn gàng. Nhưng thực tế lại rất khác. Doanh nghiệp thường phải làm việc với những hệ thống cũ, phần mềm nội bộ không hỗ trợ API, hoặc các cổng thông tin từ đối tác không thể can thiệp vào bên trong. Đó là chưa kể đến các giao diện thay đổi thường xuyên, người dùng vẫn cần thao tác qua chuột và bàn phím.

Với CUA, tất cả những giới hạn này được xoá bỏ. Bởi vì CUA không cần API. Nó thao tác ngay trên giao diện mà con người vẫn dùng, không cần lập trình thêm. Chỉ cần có màn hình hiển thị, CUA có thể thực hiện được – từ điền form, xử lý hóa đơn, gửi báo cáo, đến tương tác với các website bên ngoài. Đây chính là điểm khiến CUA trở thành công nghệ then chốt để mở rộng khả năng tự động hóa đến mọi ngóc ngách trong doanh nghiệp, ngay cả khi hạ tầng chưa hoàn thiện.

Mô hình CUA của FPT.AI – Hệ thống nhân sự ảo “biết thao tác thật”

Tại FPT.AI, mô hình CUA được phát triển như một phần trong hệ sinh thái AI Agents toàn diện. Điểm nổi bật là CUA của FPT.AI hoạt động dựa trên kiến trúc ba lớp thông minh:
(1) Perception Layer – giúp agent quan sát giao diện máy tính bằng thị giác máy;
(2) Reasoning Layer – sử dụng LLM để hiểu nhiệm vụ, suy luận chuỗi hành động cần thực hiện;
(3) Action Layer – mô phỏng thao tác của con người: click chuột, nhập liệu, chuyển tab, xác nhận popup…

Bên cạnh đó, hệ thống còn tích hợp Goal Generator, Task Decomposer và Agent Controller, giúp agent hiểu mục tiêu ở cấp cao, chia nhỏ thành các hành động cụ thể, rồi phân công cho các agent browser thực hiện tuần tự. CUA có thể thao tác song song trên nhiều phiên bản trình duyệt khác nhau, phối hợp giữa LLM và các công cụ hỗ trợ để hoàn thành nhiệm vụ một cách mượt mà – ngay cả khi giao diện thay đổi hoặc phát sinh lỗi.

Một ví dụ điển hình là trong quy trình onboarding nhân sự: CUA sẽ tự động tạo hồ sơ nhân viên mới, cấp email, gửi thông báo tới các phòng ban liên quan, và xác nhận trạng thái hoàn tất – mà không cần một dòng code tích hợp nào giữa các hệ thống.

CUA không chỉ là một bản nâng cấp của RPA – nó là bước nhảy thế hệ mới trong tự động hóa doanh nghiệp. Khi AI không chỉ “nghĩ” mà còn biết thao tác thật sự trên máy tính, chúng ta không còn bị giới hạn bởi những hệ thống đóng kín hay giao diện lộn xộn. Mỗi quy trình thao tác thủ công giờ đây đều có thể được giao lại cho một “nhân viên số” thông minh – người không biết mệt, không quên thao tác, và luôn tuân thủ đúng quy trình. Trong kỷ nguyên AI, doanh nghiệp nào biết ứng dụng CUA đúng lúc – sẽ không chỉ tiết kiệm chi phí, mà còn mở ra năng lực vận hành mới: nhanh hơn, chính xác hơn, và sẵn sàng thích nghi với mọi thay đổi.