Trong những năm gần đây, nhiều chuyên gia cho rằng OCR (Nhận dạng ký tự quang học) là vấn đề “đã được giải quyết” và không cần phát triển thêm. Thực tế, các hệ thống OCR vẫn còn gặp nhiều khó khăn khi xử lý hình ảnh chất lượng kém, các phông chữ ít phổ biến (như tiếng Ả Rập) và chữ viết tay.
Dù vậy, công nghệ OCR vẫn là công cụ không thể thiếu cho cả doanh nghiệp và cá nhân trong thời đại chuyển đổi số đang diễn ra mạnh mẽ. Vậy làm sao để khắc phục các hạn chế và tăng độ chính xác cho nhận diện ký tự quang học trong tương lai? Cùng FPT.AI khám phá trong bài viết sau.
Công nghệ OCR là gì?
OCR (Optical Character Recognition), tạm dịch là Nhận dạng ký tự quang học, là công nghệ sử dụng các thuật toán học máy (Machine Learning) để nhận diện và chuyển đổi hình ảnh chứa văn bản viết tay, in hoặc đánh máy thành định dạng văn bản mà người dùng có thể chỉnh sửa, tìm kiếm dễ dàng trên máy tính.
Nhờ công nghệ OCR, các doanh nghiệp có thể giảm thiểu sai sót do nhập liệu thủ công, tiết kiệm thời gian, chi phí lưu trữ, xử lý các tài liệu giấy như hóa đơn, hộ chiếu, chứng từ,… và nâng cao năng suất vận hành.

Cơ chế hoạt động của công nghệ nhận dạng ký tự quang học (OCR)
- Thu nhận hình ảnh: Máy quét đọc tài liệu, chuyển đổi thành dữ liệu nhị phân, phân loại vùng sáng làm nền và vùng tối làm văn bản, sau đó lưu dưới dạng tệp TIF.
- Tiền xử lý: Phần mềm làm sạch hình ảnh, loại bỏ lỗi bằng cách chỉnh thẳng tài liệu, khử nhiễu, làm mịn viền, làm sạch đường viền khung và nhận dạng ngôn ngữ.
- Nhận dạng văn bản: Sử dụng hai dạng thuật toán chính là so khớp mẫu và trích xuất đặc điểm. So khớp mẫu tách biệt hình ảnh ký tự và so sánh với hình dạng chữ tương tự đã lưu trữ, hiệu quả với tài liệu đánh máy có phông chữ đã được lưu trữ. Trích xuất đặc điểm phân tách hình dạng chữ thành các đặc điểm như hướng nét, điểm giao nét, nét thẳng và nét vòng khép kín để tìm kết quả phù hợp nhất, phù hợp với dữ liệu mới.
- Hậu xử lý: Chuyển đổi dữ liệu văn bản được trích xuất thành tệp máy tính, có thể tạo tệp PDF có chú thích bao gồm phiên bản trước và sau của tài liệu được quét.

>>> XEM THÊM: TOP 6 phần mềm nhận dạng văn bản cho điện thoại, máy tính
Ứng dụng của công nghệ OCR trong nhiều lĩnh vực
Công nghệ OCR (Nhận dạng ký tự quang học) đã trở thành một công cụ thiết yếu trong thời đại số hóa, mang đến nhiều ứng dụng quan trọng và thiết thực cho cả doanh nghiệp và đời sống thường nhật:
- Hỗ trợ người khiếm thị và người cao tuổi – Kết hợp với công nghệ tổng hợp giọng nói để chuyển văn bản thành âm thanh, giúp người khiếm thị và người cao tuổi tiếp cận thông tin dễ dàng hơn.
- Định danh cá nhân điện tử (eKYC) – Quét và nhận diện chính xác thông tin từ CCCD, hộ chiếu, bằng lái xe và các giấy tờ tùy thân, giúp xác thực khách hàng nhanh chóng và an toàn.
- Số hóa tài liệu lưu trữ – Chuyển đổi tài liệu giấy thành dữ liệu kỹ thuật số có thể tìm kiếm được, giúp tối ưu không gian lưu trữ và dễ dàng truy xuất.
- Bảo tồn giá trị văn hóa và di sản tư liệu – Số hóa các văn bản, thư tịch có giá trị lịch sử, văn hóa, giúp bảo quản an toàn và tránh hư hại do tác động của môi trường.
- Xử lý hóa đơn và chứng từ tài chính – Tự động hóa việc nhập liệu, phân loại và lưu trữ hóa đơn, giúp giảm thiểu sai sót trong quản lý tài chính.
- Quản lý và sắp xếp hồ sơ pháp lý – Hỗ trợ các công ty luật, tòa án số hóa và sắp xếp hồ sơ pháp lý theo từ khóa hoặc thời gian, giúp tìm kiếm nhanh chóng và chính xác.
- Chuyển đổi ghi chú viết tay thành văn bản số – Cho phép chỉnh sửa, tìm kiếm và chia sẻ nội dung từ các ghi chú viết tay một cách dễ dàng.
- Ứng dụng AI trong nhận diện thương hiệu – Phát hiện logo, bao bì sản phẩm trong hình ảnh quảng cáo, mạng xã hội, hỗ trợ việc giám sát và phân tích thị trường.
- Nhận diện biển số xe và biển báo – Hỗ trợ các hệ thống giao thông thông minh, quản lý bãi đỗ xe và giám sát an ninh.
- Tự động tích hợp luồng công việc văn phòng – Cải thiện hiệu suất quy trình làm việc bằng cách tự động hóa việc nhập liệu và xử lý văn bản.

>>> XEM THÊM: OMR (Nhận dạng dấu quang học) là gì? Phân biệt công nghệ OCR, OMR và ICR
Sự phát triển của nhận dạng ký tự quang học qua góc nhìn công nghệ
Công nghệ OCR (Nhận dạng ký tự quang học) đã trải qua một hành trình phát triển ấn tượng nhờ ba nền tảng công nghệ quan trọng:
- Thị giác máy tính (Computer Vision): Đây là nền tảng đầu tiên và cốt lõi của OCR, cho phép hệ thống phát hiện từng ký tự riêng lẻ trong văn bản và sử dụng phân loại hình ảnh để xác định chính xác chúng là gì. Tuy nhiên, những hệ thống OCR dựa vào Computer Vision không thể nhận diện chính xác khi các ký tự nằm quá gần nhau.
- Xử lý ngôn ngữ tự nhiên (NLP): Xử lý ngôn ngữ tự nhiên mở rộng khả năng xử lý của công nghệ OCR. Các thuật toán xác suất trong NLP cho phép hệ thống sửa lỗi trong quá trình nhận dạng bằng cách phân tích ngữ cảnh của văn bản. Ví dụ, khi một ký tự không thể nhận dạng hoặc bị thiếu, NLP có thể dự đoán nó dựa trên các từ, câu và đoạn văn xung quanh, nâng cao đáng kể độ chính xác của kết quả cuối cùng.
- Học sâu có giám sát (Supervised Deep Learning): Bằng cách sử dụng các tập dữ liệu huấn luyện lớn, các thuật toán học sâu đã giúp công nghệ OCR phát triển hai khả năng quan trọng. Thứ nhất, chúng có thể nhận dạng các ký tự với nhiều phông chữ khác nhau, bất kể có bao nhiêu biến thể, nhờ vào việc học từ hàng ngàn mẫu ký tự khác nhau. Thứ hai, chúng nâng cao khả năng phát hiện và sửa lỗi tự động, cho phép hệ thống bỏ qua các ký tự không thể xác định và thay thế chúng bằng những ký tự có khả năng cao nhất dựa trên mẫu đã học.
Nhờ sự phát triển không ngừng của các công nghệ nền tảng, OCR ngày nay có thể xử lý nhiều loại văn bản, phông chữ và ngôn ngữ khác nhau với độ chính xác cao, mở ra vô số ứng dụng trong thế giới số.

>>> XEM NGAY: FPT AI Read – Phần Mềm Số Hoá Tài Liệu Lưu Trữ Thông Minh Dành Riêng Cho Doanh Nghiệp
Những hạn chế của công nghệ OCR là gì?
OCR chỉ có thể xuất ra các ký tự không có cấu trúc và phải kết hợp với các công nghệ học máy để có thể trích xuất dữ liệu có cấu trúc từ tài liệu. Phần mềm OCR thường mắc phải các lỗi như: đọc sai chữ cái, bỏ qua các chữ cái không đọc được hoặc kết hợp văn bản từ các cột liền kề hoặc chú thích hình ảnh. Các hạn chế là do các yếu tố sau:
- Chất lượng tài liệu: Gặp khó khăn khi xử lý tài liệu có nền màu phức tạp (có độ tương phản thấp), văn bản mờ hoặc chói và tài liệu bị lệch hướng do chưa căn chỉnh.
- Đa dạng phông chữ và kích cỡ: Hiệu suất giảm khi đối mặt với nhiều loại phông chữ và kích cỡ khác nhau, đặc biệt là các bảng chữ cái có nhiều phông chữ phức tạp hoặc không phổ biến. Trong hình ảnh bên dưới, bạn có thể thấy Google Cloud Vision API mắc lỗi khi nhận dạng chữ cái tiếng Ả Rập.

- Ký tự giống nhau: Một số ký tự trông rất giống nhau đến mức công cụ OCR có thể không phân biệt được. Ví dụ, khó phân biệt giữa số “0” và chữ “O”.
- Văn bản viết tay:Do sự đa dạng trong cách viết của mỗi người, công nghệ OCR thường gặp khó khăn trong việc nhận dạng chữ viết tay. Bạn có thể thấy một số ký tự được nhận dạng có lỗi trong hình ảnh bên dưới.

- Giới hạn với các tài liệu phức tạp – Gặp khó khăn khi xử lý các tài liệu có cấu trúc phức tạp như bảng biểu, đồ thị, hay văn bản đa cột.
Vì vậy, cần kiểm tra và chỉnh sửa hậu kỳ với các văn bản được công nghệ OCR chuyển đổi, đặc biệt là với các tài liệu quan trọng yêu cầu độ chính xác cao.
>>> XEM THÊM: ICR là gì? Công nghệ nhận dạng ký tự thông minh khắc phục các hạn chế của công nghệ OCR như thế nào?
Làm thế nào để đo độ chính xác của công nghệ OCR?
Độ chính xác của công nghệ nhận dạng ký tự quang học (OCR) có thể được đo bằng tỷ lệ ký tự trong văn bản mà công cụ OCR có thể trích xuất mà không có lỗi. Ví dụ, độ chính xác 99% có nghĩa là 990 trong số 1000 ký tự được nhận dạng chính xác.
Hướng nghiên cứu để khắc phục các hạn chế của công nghệ OCR
Những tiến bộ trong thị giác máy tính và thuật toán học sâu giúp các phần mềm OCR có thể nhận diện văn bản đánh máy với độ chính xác trên 99%. Tuy nhiên, vẫn cần sự kiểm tra của con người để đảm bảo không còn lỗi.
Các nhà nghiên cứu hiện đang tập trung xử lý hai thách thức chính của công nghệ OCR, bao gồm:
- Nhận dạng chữ viết tay đơn lẻ: Các nghiên cứu đang tận dụng thông tin về chuyển động của nét bút khi viết để cải thiện khả năng nhận dạng. Tuy nhiên, khó khăn lớn nhất là sự đa dạng trong cách viết của mỗi người. Mặc dù đang có những cải tiến liên tục, nhưng tiến độ của lĩnh vực này còn tương đối chậm
- Nhận dạng văn bản viết tay (nhiều chữ liền nhau): Các chữ cái được viết liền nhau khó nhận diện hơn các văn bản in do hình dạng của các chữ cái không cung cấp đủ thông tin đặc trưng để phần mềm OCR có thể tách và nhận dạng chính xác từng ký tự.

Tóm lại, mặc dù đã đạt độ chính xác trên 99% với văn bản đánh máy, công nghệ OCR vẫn đối mặt với những thách thức khi xử lý chữ viết tay, tài liệu chất lượng kém và ngôn ngữ phức tạp. Tuy nhiên, nhờ sự phát triển không ngừng của thị giác máy tính, xử lý ngôn ngữ tự nhiên và học sâu, công nghệ này đang dần vượt qua các giới hạn, khẳng định vai trò quan trọng trong việc thúc đẩy quá trình chuyển đổi số, nâng cao hiệu suất và tạo ra những giá trị mới cho cá nhân, doanh nghiệp và toàn xã hội.
>>> XEM THÊM: