Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk
Bài viết

Computer Use Agents (CUAs) – Bước tiến đột phá của giải pháp tự động hóa  

Tháng Bảy 8, 2025

Chia sẻ với:

Hiện nay, các Computer Use Agents (CUAs) vẫn đang ở giai đoạn sơ khai, tuy nhiên không lâu nữa, chúng sẽ xuất hiện ở khắp mọi nơi – trong mọi hệ điều hành, mọi trình duyệt, mọi hệ điều hành điện thoại. Trong tương lai, bạn có thể sử dụng các Agent này để đặt hàng từ các trang thương mại điện tử, sắp xếp chuyến đi, đặt bàn nhà hàng… 

Computer Use Agent là gì?

Computer Use Agent là những hệ thống tự động có khả năng tương tác với phần mềm, duyệt web, và thực hiện các tác vụ giống như một người dùng thực thụ. Sử dụng khả năng thị giác máy tính của các mô hình đa phương thức (multimodal models) CUAs có thể hiểu những gì đang diễn ra trên màn hình, đồng thời kết hợp với các AI Agents có khả năng lập kế hoạch và suy luận để quyết định bước tiếp theo. 

Năng lực và cách thức hoạt động của CUAs

  • Perception (Nhận thức): Chụp màn hình máy tính để nắm bắt trạng thái hiện tại. 
  • Reasoning (Suy luận): Dựa trên các ảnh chụp và hành động trước đó, CUAs lập chuỗi suy luận để xác định bước tiếp theo một cách linh hoạt. 
  • Action (Hành động): Tự động thực hiện thao tác (nhấp chuột, cuộn, gõ phím) cho đến khi hoàn tất nhiệm vụ hoặc cần người dùng cung cấp thêm thông tin.

Computer-Use-Agent-hoat-dong-nhu-the-nao?

Browser-Use AI Agents chỉ có thể điều khiển trình duyệt, không thể điều khiển toàn bộ máy tính hoặc máy ảo — tuy nhiên nó sử dụng thêm cấu trúc của trang web, gọi là DOM, cùng với thị giác máy tính để xác định khu vực có thể nhấp chuột.  

Liệu CUA có thay thế RPA không? 

Trong nhiều năm qua, chúng ta đã sử dụng các hệ thống Tự động hóa quy trình bằng robot (RPA) để tự động hóa các ứng dụng. Các công cụ này có thể điều khiển máy tính tương tự như CUA – thực hiện thao tác click qua các ứng dụng và website – nhưng chúng thiếu khả năng suy luận. Vì vậy, nếu gặp phải một màn hình khác với thứ chúng đã được lập trình từ trước, RPA thường sẽ thất bại. 

Hãy cùng so sánh hai công nghệ này dựa trên những đặc điểm nổi bật của chúng 

1. Nhận thức vs Định vị mục tiêu 

Các công cụ RPA truyền thống điều hướng giao diện thông qua các bộ chọn (selector) hoặc tọa độ được xác định trước. Chúng gần như “mù” với bối cảnh hình ảnh, chỉ dựa vào các định danh kỹ thuật để xác định vị trí của các phần tử. 

Ngược lại, CUA thực sự “nhìn thấy” màn hình giống như con người. Chúng nhận diện nút bấm, trường nhập liệu và các phần tử giao diện khác bằng hình ảnh, hiểu được chức năng của chúng thông qua ngữ cảnh và hình dạng, thay vì thuộc tính kỹ thuật. Chính khả năng nhận thức hình ảnh này giúp CUA linh hoạt và thích ứng tốt hơn với những thay đổi trong giao diện mà có thể khiến quy trình RPA truyền thống bị gián đoạn. 

2. Lý luận vs Quy tắc 

RPA truyền thống hoạt động theo quy trình cố định với các điều kiện được lập trình sẵn. Khi xảy ra tình huống bất ngờ, hệ thống thường bị lỗi nếu tất cả các ngoại lệ chưa được xử lý trước đó. 

CUA có khả năng lý luận dựa trên những gì chúng “nhìn thấy”, đưa ra quyết định dựa vào thông tin hình ảnh và thích ứng với các tình huống không lường trước. Chúng có thể suy luận hành động phù hợp từ bối cảnh màn hình, tương tự như cách con người học cách sử dụng một giao diện chưa quen thuộc. 

3. Ngôn ngữ tự nhiên vs Lập trình kỹ thuật 

Sự khác biệt nổi bật nhất nằm ở cách con người ra lệnh cho các hệ thống này. RPA thường yêu cầu lập trình kỹ thuật hoặc xây dựng quy trình theo sơ đồ luồng. Dù Power Automate Desktop thân thiện hơn so với một số công cụ khác, người dùng vẫn phải xác định từng bước và điều kiện một cách rõ ràng. 

Trong khi đó, CUA có thể hiểu được hướng dẫn bằng ngôn ngữ tự nhiên, mô tả mục tiêu mong muốn thay vì từng bước thực hiện cụ thể. Điều này giúp giảm đáng kể rào cản trong việc tạo và duy trì quy trình tự động, mở ra khả năng tự động hóa cho cả những người dùng không có nền tảng kỹ thuật. 

Tuy nhiên, sự xuất hiện của CUA không đồng nghĩa với cái kết của RPA. Trên thực tế, chúng có thể là những công cụ bổ trợ cho nhau. Nguyên tắc chung là chỉ nên sử dụng Agent để thực hiện các tác vụ cần khả năng suy luận. Nếu bạn đang xây dựng một quy trình tự động có tính quyết định (deterministic), nơi các bước đã được xác định sẵn và giao diện không thay đổi đáng kể, thì RPA là lựa chọn phù hợp, bởi vì các agent như CUA có thể mắc lỗi trong quá trình suy luận, trong khi RPA truyền thống sẽ thực hiện các bước một cách tuần tự, không bao giờ lệch khỏi chỉ dẫn. 

Tài liệu tham khảo 

Microsoft (7 Tháng 4, 2025) The Future of AI: Computer Use Agents Have Arrived https://techcommunity.microsoft.com/blog/aiplatformblog/the-future-of-ai-computer-use-agents-have-arrived/4401025 

Babu Thangaratinam (9 Tháng 4, 2025) The Rise of Computer Use Agents: When to Choose CUA Over Traditional RPA https://www.linkedin.com/pulse/rise-computer-use-agents-when-choose-cua-over-traditional-babu-vt-8pbec/  

Bài viết liên quan

Cập nhật mọi tin tức mới nhất về công nghệ AI

Đăng ký nhận bản tin của FPT.AI để được phủ sóng mọi xu hướng công nghệ, câu chuyện thành công và phân tích của chuyên gia.