Trong bối cảnh đô thị hóa nhanh và nhu cầu mở rộng hạ tầng ngày càng lớn, TP.HCM đang phải đối mặt với hàng loạt thách thức: ùn tắc giao thông kéo dài, công trình thi công chậm tiến độ, khó kiểm soát an toàn lao động… Trước thực tế đó, ứng dụng trí tuệ nhân tạo (AI) được xem là bước tiến tất yếu giúp thành phố quản lý, điều hành giao thông và thi công một cách thông minh, hiệu quả và minh bạch hơn.
Nút thắt trong bài toán quản lý dự án hạ tầng đô thị
TP.HCM đang bước vào giai đoạn “nước rút” với mục tiêu khởi công 20 và hoàn thành 25 công trình giao thông trước cuối năm 2025, bao gồm các cao tốc, vành đai 2, tuyến đường sắt đô thị và nhiều nút giao trọng điểm. Đồng thời, lên kế hoạch chuẩn bị đầu tư khoảng 154 dự án hạ tầng giao thông cho giai đoạn 2026-2030 với nhiều dự án quan trọng.
Trong bối cảnh đó, ngành xây dựng và giao thông của thành phố đã nỗ lực tìm kiếm, ứng dụng các công nghệ hiện đại như Trí tuệ nhân tạo (AI) nhằm tối ưu quy trình thi công và vận hành, nâng cao hiệu quả quản lý hạ tầng kỹ thuật, đồng thời thúc đẩy chiến lược số hóa toàn diện trong lĩnh vực xây dựng và phát triển đô thị.
Một trong những sáng kiến tiêu biểu chính là Hệ thống phân tích dữ liệu hình ảnh với AI được Trung tâm Chuyển đổi số TP.HCM phối hợp Sở Xây dựng cùng Tập đoàn FPT giới thiệu Đại hội Đảng bộ Thành phố Hồ Chí Minh lần thứ I vừa qua. Giải pháp nhận diện và phân tích hình ảnh bằng AI hiện đang triển khai thí điểm tại nút giao An Phú và Tân Vạn – hai điểm nóng giao thông của thành phố, giúp giám sát thi công và điều tiết giao thông.

Giải pháp AI từ FPT đồng hành cùng TP.HCM tháo gỡ bài toán quản lý thi công đô thị
Phân tích & xử lý dữ liệu từ nguồn tài nguyên sẵn có
Trái tim của hệ thống là mạng lưới camera thông minh được kết nối trực tiếp với nền tảng Observe Platform. Giải pháp từ FPT.AI giúp tận dụng tối đa và nâng tầm các thiết bị được lắp đặt sẵn tại các công trình mà không cần thay mới, điều này giúp các dự án tránh. Mỗi khung hình không chỉ đơn thuần là hình ảnh giám sát mà là nguồn dữ liệu phong phú, được phân tích theo thời gian thực nhờ các thuật toán Computer Vision hiện đại.
Hệ thống tổng hợp dữ liệu đa tầng từ nhiều nguồn khác nhau:
- Hình ảnh từ camera tại các dự án/công trình và giao thông;
- Dữ liệu BIM/GIS của các nhà thầu;
- Kế hoạch thi công chi tiết từng ngày, bao gồm nhân lực, thiết bị, tiến độ…

Các dữ liệu đầu vào được công nghệ AI thế hệ mới xử lý với khả năng tính toán lớn (hàng trăm ngàn tỷ phép tính mỗi giây) để phân tích trạng thái công trình xây dựng, phân tích tình hình giao thông.v. theo thời gian thực.
Có thể nói, đây là một “hệ sinh thái dữ liệu đô thị”, nơi mỗi điểm dữ liệu nhỏ đều góp phần hình thành nên bức tranh toàn cảnh về công trình và hạ tầng giao thông của thành phố.
Hệ thống mô hình Bản sao số (Digital Twin)
Những dữ liệu hình ảnh chân thực khổng lồ với nhiều góc quay từ hệ thống Camera, công nghệ AI sẽ xử lý và tái tạo lại toàn bộ khu vực nút giao dưới dạng mô hình 3D chân thực, tạo nên “bản sao số” phục vụ cho việc giám sát, phân tích và tối ưu điều tiết giao thông.

Sức mạnh của thị giác máy tính và mô hình ngôn ngữ thị giác
Một trong những điểm đột phá của dự án là việc kết hợp giữa Computer Vision (Object Detection, Object Tracking) và Vision-Language Model (VLM).
Với công nghệ Computer Vision sử dụng khả năng phát hiện đối tượng (object detection), giúp AI “nhìn thấy” và nhận diện các loại đối tượng như phương tiện, máy móc, công nhân, vật cản…. Obejct detection giúp hệ thống trả lời hai câu hỏi: Trong hình ảnh có những gì? Những đối tượng đó đang ở đâu? Từ đó dán nhãn các đối tượng để người dùng dễ dàng theo dõi và quản lý.

Bên cạnh khả năng xác định đối tượng, các camera có tích hợp AI cũng giúp theo dõi đối tượng (Object tracking), giúp dõi theo chuyển động của các đối tượng được phát hiện qua nhiều khung hình liên tiếp trong video, từ đó lập các báo cáo theo thời gian thực
Không chỉ dùng lại ở phương pháp truyền thống trong lĩnh vực Computer Vision, đội ngũ phát triển FPT.AI hiện nay đang sử dụng Mô hình Ngôn ngữ Thị giác (Vision Language Model – VLM), một bước tiến vượt bậc trong việc kết hợp giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên. Khác với các mô hình Computer Vision truyền thống chỉ dừng lại ở việc nhận diện và phân tích hình ảnh, VLM không chỉ hiểu và phân tích hình ảnh mà còn nắm bắt được ngữ cảnh và mối quan hệ sâu sắc giữa hình ảnh và văn bản. Điều này giúp hệ thống AI không chỉ nhận diện sự vật mà còn hiểu rõ bối cảnh diễn ra, từ đó tạo ra các kết luận chính xác và hợp lý hơn. VLM mang lại khả năng hiểu sâu sắc về ngữ cảnh, cho phép dự đoán, giải thích và ra quyết định trong những tình huống phức tạp, mở rộng khả năng ứng dụng trong các lĩnh vực như phân tích đa phương tiện, hỗ trợ ra quyết định thông minh và tự động hóa quy trình công việc.

Với các công trình xây dựng như nút giao An Phú – Vạn Tân, hệ thống AI có thể xác định và quan sát hoạt động của các kỹ sư, công nhân thông qua hình ảnh camera từ đó xác định tiến độ dự án, và lên phương án nhân sự phù hợp (bổ sung hoặc cắt giảm).
Giải pháp AI giám sát thi công và điều tiết giao thông tại nút giao An Phú – Tân Vạn được phát triển trong thời gian ngắn nhưng đã cho thấy hiệu quả rõ rệt: giảm thời gian xử lý sự cố, rút ngắn tiến độ thi công, và nâng cao năng lực quản lý của các cơ quan chức năng.
Theo kế hoạch, sau khi kết thúc giai đoạn thí điểm, Trung tâm Chuyển đổi số TP.HCM sẽ đề xuất UBND TP triển khai nhân rộng mô hình này cho các công trình đang thi công khác trên địa bàn. Đồng thời, Sở Xây dựng sẽ phối hợp cùng FPT và các đơn vị liên quan xây dựng phần mềm quản lý dự án toàn diện, hướng đến mục tiêu áp dụng cho tất cả các dự án trọng điểm của TP.HCM đến năm 2030, dự kiến trình UBND trong tháng 11/2025.
Hướng đến đô thị thông minh, an toàn và bền vững
Điểm đáng chú ý của hệ thống là khả năng mở rộng linh hoạt. Nhờ cấu trúc nền tảng mở, camera ứng dụng AI có thể dễ dàng kết nối thêm các cảm biến IoT, dữ liệu vệ tinh, bản đồ số, hay các hệ thống quản lý giao thông thông minh (ITS).
Trong tương lai, TP.HCM có thể phát triển thêm bản đồ thi công số hóa, giúp người dân theo dõi tình hình công trình và giao thông theo thời gian thực, góp phần minh bạch thông tin và giảm bức xúc cộng đồng. Các dữ liệu thu thập từ hệ thống cũng có thể trở thành nguồn đầu vào quý giá cho các mô hình dự báo đô thị, quy hoạch hạ tầng hoặc tối ưu vận tải công cộng.
Với tầm nhìn dài hạn, việc đưa AI vào quản lý thi công và giao thông không chỉ là giải pháp công nghệ, mà còn là bước chuyển mình trong tư duy quản lý đô thị. Thay vì phản ứng thụ động khi sự cố xảy ra, hệ thống mới giúp thành phố chủ động giám sát, dự báo và điều hành mọi tình huống theo hướng dữ liệu hóa và tự động hóa.
Những “mắt thần” AI tại An Phú hay Tân Vạn hôm nay chính là bước khởi đầu cho mạng lưới đô thị thông minh tương lai, nơi mỗi công trình, tuyến đường hay tín hiệu giao thông đều được kết nối và tối ưu bằng dữ liệu thời gian thực.
Kết luận
Việc thí điểm triển khai ứng dụng AI trong giám sát thi công và điều tiết giao thông tại TP.HCM là minh chứng rõ nét cho khả năng ứng dụng công nghệ vào thực tiễn quản lý đô thị. Từ xử lý dữ liệu hình ảnh, phân tích tiến độ, đến dự báo tình huống và điều hành giao thông – tất cả đều được vận hành dựa trên thuật toán trí tuệ nhân tạo tiên tiến.
Đây không chỉ là một dự án thử nghiệm công nghệ, mà còn là bước đệm quan trọng trong hành trình chuyển đổi số toàn diện của TP.HCM, hướng đến một đô thị hiện đại, an toàn và phát triển bền vững, nơi AI trở thành “trợ lý” đắc lực cho cả chính quyền và người dân.