Mỗi ngày, chúng ta tạo ra hàng triệu tệp hình ảnh và video, chứa đựng vô số thông tin tiềm năng. Điều này làm cho lượng dữ liệu hình ảnh và video từ các nguồn như điện thoại thông minh, camera giám sát, máy quét y khoa và các thiết bị IoT gia tăng một cách chóng mặt. Tuy nhiên, nếu chỉ khai thác thông tin theo cách thủ công truyền thống, đảm bảo độ chính xác và tốc độ xử lý cao dường như là một điều bất khả thi.
Trong bài viết này, FPT.AI sẽ cũng bạn khám phá Thị giác máy tính (Computer Vision) – một giải pháp công nghệ có khả tự động hóa quá trình phân tích hình ảnh, giúp máy tính “nhìn” và “hiểu” thế giới trực quan như con người.
Computer Vision là gì?
Thị giác máy tính (Computer Vision) là một lĩnh vực khoa học liên ngành bao gồm các phương thức thu nhận, xử lý ảnh, phân tích và nhận dạng các hình ảnh hoặc video kỹ thuật số từ thế giới thực để cho ra các thông tin số hoặc biểu tượng. Dữ liệu hình ảnh có thể từ các nguồn như máy ảnh số, camera giám sát, video, các máy quét, máy chụp y tế,… Công nghệ này đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính, bảo hiểm, sản xuất và y tế, góp phần thúc đẩy đổi mới và nâng cao hiệu quả trong thời đại số hóa.
Sơ lược về lịch sử phát triển của Computer Vision
1950s -1960s: Khởi đầu với nghiên cứu cơ bản
Từ những năm 1950, các nhà khoa học đã bắt đầu đặt nền móng cho lĩnh vực thị giác máy tính với mục tiêu giúp máy móc hiểu được hình ảnh và video. Các nghiên cứu ban đầu xoay quanh việc mô phỏng khả năng xử lý hình ảnh của bộ não, với thí nghiệm nổi bật là nghiên cứu về phản ứng của não mèo với các cạnh cứng và đường thẳng. Vào năm 1963, công nghệ quét hình ảnh đầu tiên ra đời, cho phép máy tính số hóa và thu thập hình ảnh, mở đường cho việc xử lý hình ảnh trên máy tính.
1970s-1980s: Những bước đột phá ban đầu và sự xuất hiện của mạng nơ-ron
Năm 1974, công nghệ nhận dạng ký tự quang học (OCR) được phát triển, đánh dấu một bước tiến trong việc xử lý văn bản từ hình ảnh. Đồng thời, nhận dạng ký tự thông minh (ICR) cũng ra đời, ứng dụng mạng nơ-ron để giải mã chữ viết tay.
Năm 1979, nhà khoa học Nhật Bản Kunihiko Fukushima phát triển Neocognitron, một mạng nơ-ron tích chập đầu tiên, lấy cảm hứng từ nghiên cứu về cấu trúc vỏ não thị giác của con người. Neocognitron đặt nền tảng cho mạng nơ-ron tích chập hiện đại, nhưng vào thời điểm đó, khả năng của nó còn rất hạn chế.
Trong thập kỷ 1980s, nhà khoa học máy tính Yann LeCun phát triển mạng nơ-ron tích chập (CNN), giúp phân tích hình ảnh theo nhiều lớp trích xuất đặc trưng, từ đường nét cơ bản đến đối tượng phức tạp. Tuy nhiên, CNN ban đầu gặp phải rào cản lớn về sức mạnh tính toán và dữ liệu, khiến ứng dụng của nó bị giới hạn trong các lĩnh vực như nhận dạng chữ số trong ngân hàng và dịch vụ bưu chính.
1990s-2000s: Chuyển sang nhận dạng đối tượng và dữ liệu lớn
Vào cuối những năm 1990s và đầu 2000s, trọng tâm nghiên cứu dịch chuyển sang nhận dạng đối tượng và khuôn mặt. Năm 2001, các ứng dụng nhận dạng khuôn mặt thời gian thực đầu tiên xuất hiện, sử dụng dữ liệu hình ảnh được gắn nhãn để huấn luyện máy tính.
Năm 2010, tập dữ liệu ImageNet ra đời, chứa hàng triệu hình ảnh được gắn nhãn thuộc 1.000 lớp đối tượng. Đây là cột mốc quan trọng trong việc chuẩn hóa cách gắn thẻ và chú thích hình ảnh, đồng thời tạo nền tảng cho các thuật toán học sâu hiện đại.
2012: Cuộc cách mạng AlexNet và sự trỗi dậy của học sâu
Năm 2012, một nhóm nghiên cứu từ Đại học Toronto đã giới thiệu AlexNet, một mạng nơ-ron tích chập tham gia cuộc thi ImageNet. Mô hình này đã giảm đáng kể tỷ lệ lỗi khi nhận dạng hình ảnh, mở ra một kỷ nguyên mới cho Computer Vision. Thành công của AlexNet cho thấy rằng với sức mạnh tính toán ngày càng tăng và nguồn dữ liệu lớn như ImageNet, CNN có thể vượt qua các kỹ thuật học máy truyền thống.
Sau AlexNet, các mô hình học sâu khác liên tục được phát triển, đưa tỷ lệ lỗi nhận dạng hình ảnh xuống mức thấp đáng kể. Sự đột phá này thúc đẩy sự quan tâm toàn cầu đến học sâu và Computer Vision, tạo nên một làn sóng ứng dụng rộng rãi trong nhiều lĩnh vực như nhận dạng khuôn mặt, xe tự lái và y tế.
Hiện tại và tương lai: Mở rộng quy mô và ứng dụng thực tế
Ngày nay, Computer Vision đã trở thành một lĩnh vực nghiên cứu và ứng dụng quan trọng, được hỗ trợ bởi các công nghệ điện toán đám mây và tài nguyên tính toán mạnh mẽ. Hệ thống Computer Vision hiện nay có thể xử lý hàng triệu hình ảnh hoặc video, áp dụng vào các nhiệm vụ phức tạp như phát hiện lỗi sản phẩm, phân tích video trực tuyến, và nhận dạng khuôn mặt trong thời gian thực.
Theo dự báo của Gartner, thị trường phần mềm, phần cứng và dịch vụ liên quan đến Computer Vision sẽ đạt doanh thu toàn cầu 386 tỷ USD vào năm 2030, tăng từ 126 tỷ USD vào năm 2022. Với sự phát triển không ngừng của học sâu và trí tuệ nhân tạo, Computer Vision hứa hẹn mang lại nhiều đột phá hơn nữa trong tương lai.
>>> ĐỌC NGAY: Số Hóa Chứng Từ Xuất Nhập Khẩu Với FPT AI Read – FPT AI
Cách thức hoạt động của Computer Vision
Những ứng dụng của Thị giác máy tính
Computer Vision, với khả năng phân tích và hiểu hình ảnh, đã trở thành nền tảng của nhiều ứng dụng thực tế trong cuộc sống và các ngành công nghiệp. Dưới đây là cái nhìn toàn diện về cách công nghệ này được áp dụng để cải thiện hiệu quả, nâng cao trải nghiệm và giải quyết các vấn đề phức tạp.
- Tìm kiếm và tổ chức hình ảnh thông minh:
Google Photos sử dụng Computer Vision để cho phép người dùng tìm kiếm đối tượng hoặc cảnh vật trong thư viện ảnh bằng các từ khóa đơn giản như “chó” hay “hoàng hôn”. Cụ thể, nhờ mạng nơ-ron tích chập (CNN), Google Photos có thể phân tích nội dung hình ảnh và nhận diện các đối tượng, cung cấp khả năng tổ chức thông minh mà không cần gắn thẻ thủ công.
- Nâng cao chất lượng hình ảnh:
Thay vì các kỹ thuật nội suy truyền thống, Lightroom phát hiện các đối tượng trong hình ảnh và làm sắc nét các đặc trưng quan trọng sau khi được phóng to. Điều này giúp giữ lại độ chi tiết, mang lại hình ảnh sắc nét hơn, đặc biệt hữu ích trong lĩnh vực nhiếp ảnh chuyên nghiệp.
- Dịch thuật thời gian thực với hình ảnh:
Google Dịch tích hợp Computer Vision để cung cấp dịch vụ dịch thuật thời gian thực. Người dùng chỉ cần hướng camera điện thoại vào một biển báo hoặc văn bản bằng ngôn ngữ nước ngoài, hệ thống sẽ trích xuất nội dung thông qua OCR (Nhận dạng ký tự quang học) và dịch nó sang ngôn ngữ mong muốn gần như ngay lập tức. Điều này đặc biệt hữu ích khi du lịch hoặc làm việc trong môi trường đa ngôn ngữ.
- Phân tích video cá nhân hóa:
IBM Watson đã áp dụng Computer Vision để phân tích hàng trăm giờ cảnh quay trong giải đấu golf Masters 2018. Công nghệ này xác định các khoảnh khắc quan trọng và sắp xếp chúng thành các video nổi bật cá nhân hóa, mang đến trải nghiệm giải trí độc đáo cho người hâm mộ. Đây là minh chứng cho việc sử dụng Computer Vision trong ngành công nghiệp giải trí.
- Xe tự hành và nhận diện môi trường:
Computer Vision là công nghệ cốt lõi trong các phương tiện tự hành như xe Tesla. Thông qua việc phân tích dữ liệu hình ảnh từ camera và cảm biến, hệ thống nhận diện các yếu tố như biển báo giao thông, làn đường, người đi bộ và phương tiện khác, giúp xe tự lái đưa ra quyết định chính xác trong thời gian thực. Các hệ thống bán tự hành cũng sử dụng Computer Vision để giám sát người lái, phát hiện dấu hiệu mệt mỏi hoặc phân tâm nhằm tăng cường an toàn.
- Nông nghiệp thông minh:
Computer Vision đã cải tiến ngành nông nghiệp thông qua việc phân tích hình ảnh vệ tinh và UAV (drone). Công nghệ này được sử dụng để giám sát tình trạng cây trồng, phát hiện bệnh, đo độ ẩm đất và dự đoán năng suất. Điều này không chỉ nâng cao hiệu quả sản xuất mà còn giúp tối ưu hóa chi phí và cải thiện chất lượng sản phẩm.
- Y tế và chăm sóc sức khỏe:
Trong lĩnh vực y tế, Computer Vision được ứng dụng rộng rãi để phân tích hình ảnh chụp X-quang, MRI và CT scan. Các thuật toán học sâu hỗ trợ bác sĩ phát hiện sớm các bệnh lý như ung thư, khối u hoặc bất thường trong cấu trúc cơ thể. Ví dụ, các hệ thống phân tích hình ảnh có thể phát hiện khối u từ ảnh chụp da hoặc triệu chứng từ ảnh MRI với độ chính xác cao, góp phần nâng cao hiệu quả điều trị và kéo dài tuổi thọ bệnh nhân.
- Nhận diện khuôn mặt và bảo mật:
Apple Face ID và Facebook sử dụng Computer Vision để nhận diện khuôn mặt. Công nghệ này không chỉ giúp mở khóa thiết bị mà còn được sử dụng để xác minh danh tính tại các sân bay, cửa khẩu hoặc cây ATM. Tại Trung Quốc, thanh toán bằng nhận diện khuôn mặt đã trở thành xu hướng, loại bỏ nhu cầu sử dụng tiền mặt hoặc thẻ tín dụng.
- Ứng dụng trong sản xuất và kiểm soát chất lượng:
IBM kết hợp với Verizon để triển khai Computer Vision trong kiểm soát chất lượng sản phẩm ô tô. Hệ thống phát hiện lỗi trong sản phẩm trước khi xuất xưởng, giảm chi phí bảo hành và nâng cao uy tín thương hiệu. Công nghệ này còn giúp giám sát máy móc và phát hiện các vấn đề bảo trì trong môi trường sản xuất.
- Số hóa tài liệu với công nghệ OCR:
Công nghệ là một ứng dụng quan trọng của Computer Vision, được sử dụng để số hóa tài liệu như hợp đồng, hóa đơn và giấy tờ tùy thân. FPT.AI đã phát triển giải pháp FPT AI Read, cho phép số hóa tài liệu từ file ảnh chụp, PDF thành file mềm như Word với độ chính xác lên tới 98%. Hệ thống hỗ trợ nhận diện và trích xuất thông tin từ hơn 30 loại giấy tờ khác nhau như OCR CMND, CCCD, hộ chiếu, bằng lái xe, giấy đăng ký xe, hóa đơn và các chứng từ bảo hiểm.
Ngoài việc trích xuất thông tin từ văn bản có sẵn, FPT AI Read còn cho phép người dùng tự xây dựng mô hình trích xuất thông minh theo các định dạng văn bản tùy biến như hợp đồng, chứng từ, thẻ khách hàng… Điều này đáp ứng đa dạng nhu cầu số hóa tài liệu của doanh nghiệp, giúp tối ưu hóa quy trình và giảm chi phí vận hành.
>>> XEM THÊM: Hướng dẫn sử dụng FPT AI Reader – phần mềm OCR trích xuất thông tin từ ảnh chụp
- Giám định bảo hiểm (Insurance Assessment):
FPT.AI Car Damage là giải pháp ứng dụng công nghệ Computer Vision kết hợp học sâu (Deep Learning) để hỗ trợ các công ty bảo hiểm giám định tài sản hư hỏng, đặc biệt là ô tô, một cách nhanh chóng và chính xác. Với quy trình đơn giản, khách hàng chỉ cần chụp ảnh tổn thương của xe và tải lên hệ thống. Công nghệ này có khả năng nhận diện các loại thương tổn như vỡ, móp, xước, đồng thời đánh giá mức độ thiệt hại (nhẹ, vừa, nặng) tại 12 vị trí thường gặp như mui xe, đèn trước, đèn sau, gương, đuôi xe, bánh xe, và gầm xe.
Hệ thống giúp giảm 50% thời gian xử lý bồi thường so với phương pháp truyền thống. Không chỉ nhanh chóng đưa ra báo giá cho các hư hại dễ đánh giá, giải pháp còn tích hợp tính năng phát hiện các hành vi gian lận, phân biệt rõ giữa tai nạn thật và giả mạo. Điều này đảm bảo tính minh bạch, giảm thiểu sai sót trong quy trình bồi thường và nâng cao hiệu quả hoạt động cho doanh nghiệp bảo hiểm.
Bên cạnh việc cải thiện tốc độ và độ chính xác, FPT.AI Car Damage mang lại trải nghiệm tích cực cho khách hàng, từ việc rút ngắn thời gian chờ đợi đến việc đảm bảo quyền lợi chính đáng. Đây là bước tiến quan trọng trong số hóa ngành bảo hiểm, giúp các doanh nghiệp không chỉ tối ưu hóa quy trình mà còn xây dựng niềm tin từ khách hàng trong kỷ nguyên công nghệ số.
- Định danh khách hàng điện tử (eKYC) và gửi/ rút tiền tại các cây ATM:
FPT AI eKYC là giải pháp ứng dụng công nghệ Computer Vision, công nghệ nhận diện khuôn, Facematch AI và Liveness Detection để định danh khách hàng trực tuyến. Hệ thống cho phép đối chiếu ảnh selfie với giấy tờ tùy thân như CMND, CCCD hoặc hộ chiếu, xác minh danh tính và ngăn chặn gian lận, giảm hơn 90% khối lượng xác minh thủ công đồng thời cải thiện trải nghiệm khách hàng khi cho phép họ mở tài khoản ngay tại nhà một cách nhanh chóng và bảo mật.
FPT AI eKYC còn được tích hợp tại các cây ATM thông minh, , cho phép quét khuôn mặt, đối chiếu dữ liệu sinh trắc học và phát hiện giả mạo như ảnh tĩnh hay video giả. Nếu quá trình xác minh thành công, khách hàng có thể thực hiện các giao dịch như rút tiền, gửi tiền hoặc kiểm tra số dư mà không cần dùng thẻ vật lý hay mã PIN.
FPT AI eKYC giúp ngân hàng giảm rủi ro gian lận, tối ưu vận hành và mang lại trải nghiệm dịch vụ liền mạch, hiện đại, đáp ứng nhu cầu ngày càng cao trong kỷ nguyên số.
Thách thức và hạn chế khi triển khai Computer Vision
Thị giác máy tính là một lĩnh vực thú vị, được ứng dụng trên nhiều lĩnh vực, hứa hẹn mang lại nhiều lợi ích cho cuộc sống của con người. Tuy nhiên, nó cũng luôn là thách thức đối với các hệ thống máy tính. Dưới đây là các hạn chế chính của Computer Vision:
- Hiểu ngữ cảnh và mối quan hệ trong hình ảnh: Các thuật toán Computer Vision hiện tại chủ yếu hoạt động dựa trên việc đối chiếu mẫu pixel, mà không thực sự “hiểu” nội dung của hình ảnh. Ví dụ, chúng có thể phát hiện nội dung khỏa thân trong ảnh nhưng gặp khó khăn trong việc phân biệt giữa nghệ thuật và nội dung khiêu dâm. Tương tự, việc xác định sự khác biệt giữa tuyên truyền cực đoan và tài liệu nghiên cứu cũng vượt ngoài khả năng của các thuật toán này. Khả năng này đòi hỏi kiến thức chung và nhận thức ngữ cảnh, điều mà máy tính hiện chưa có.
- Phụ thuộc vào dữ liệu đào tạo: Computer Vision hoạt động hiệu quả khi được đào tạo với lượng lớn dữ liệu. Tuy nhiên, các tình huống nằm ngoài phạm vi dữ liệu đã học dễ dàng làm rối loạn hệ thống. Ví dụ, một thuật toán có thể không nhận diện được phương tiện khẩn cấp đỗ ở vị trí bất thường nếu tình huống này không được đưa vào dữ liệu đào tạo trước đó.
- Hạn chế trong việc xử lý hình ảnh phức tạp: Các hình ảnh có nền phức tạp hoặc các đối tượng tương tự nhau về kích thước và hình dạng gây khó khăn cho thuật toán. Hệ thống có thể nhầm lẫn giữa các đối tượng hoặc bỏ sót thông tin quan trọng.
- Nhiễu và yếu tố môi trường: Ánh sáng yếu, vật thể bị che khuất, hoặc các yếu tố môi trường khác có thể làm giảm đáng kể độ chính xác của Computer Vision. Điều này đặc biệt quan trọng trong các ứng dụng thời gian thực như xe tự lái, nơi môi trường thay đổi liên tục.
- Nguy cơ bị lừa dối bởi hình ảnh giả: Các thuật toán thị giác máy tính dễ bị đánh lừa bởi hình ảnh hoặc video giả mạo, gây ra rủi ro trong an ninh và các ứng dụng tài chính. Hình ảnh giả có thể dẫn đến việc ra quyết định sai hoặc tạo ra hành vi bất hợp pháp.
- Hạn chế của học sâu (Deep Learning): Mặc dù Deep Learning là cốt lõi của Computer Vision, nhưng nó phụ thuộc vào dữ liệu huấn luyện lớn và không thể xử lý tốt các tình huống mới. Việc tăng thêm dữ liệu huấn luyện cũng không thể đảm bảo rằng mọi trường hợp hiếm hoi sẽ được bao quát.
- Phụ thuộc vào trí thông minh nhân tạo tổng quát (AGI): Nhiều chuyên gia cho rằng chỉ khi đạt được trí thông minh nhân tạo tổng quát (AGI), Computer Vision mới thực sự giải quyết được các vấn đề như hiểu biết ngữ cảnh, nhận thức tình huống, và xử lý tình huống chưa từng gặp. Như nhà khoa học Melanie Mitchell nhận định, “Trí thông minh thị giác không thể tách rời khỏi các yếu tố khác của trí thông minh như kiến thức chung, sự trừu tượng, và kỹ năng ngôn ngữ.”
>>> XEM NGAY: AGI là gì? Liệu siêu trí tuệ AGI có thể thay thế và kiểm soát con người?
Các thách thức khi triển khai Computer Vision không có nghĩa là chúng ta nên dừng lại việc nghiên cứu. Ngược lại, để vượt qua các hạn chế, Computer Vision cần được tích hợp với các công nghệ tiên tiến khác và phải được trải nghiệm thực tế trong thế giới thực, thay vì chỉ dựa trên các bức ảnh tải về từ web. Điều này sẽ giúp công nghệ này gia tăng sức mạnh, nâng cao tính chính xác để ngày càng thông minh và hữu ích hơn trong các lĩnh vực phức tạp. Hy vọng bài viết của FPT.AI đã mang đến cho bạn các thông tin bổ ích!
———————————-
? Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi
? Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội// Tầng 3 toà Pijico 186 Điện Biên Phủ, Phường 6 Quận 3, TP. HCM.
☎ Hotline: 1900 638 399
? Email: [email protected]
>>> ĐỪNG BỎ LỠ: