Skip to main content
Reader

Số hóa tài liệu bằng công nghệ OCR - Giảm áp lực lưu trữ văn bản

by content 06.04.2021

OCR là gì?

Vậy, câu hỏi đầu tiên, OCR là gì? Optical Character Recognition hay còn được biết đến là phần mềm nhận dạng ký tự quang học (ocr) - công nghệ được áp dụng để nhận dạng ký tự trên một định dạng hình và trích xuất thông tin trên hình ảnh đó thành văn bản. Trên thực tế, ứng dụng thường gặp nhất của công nghệ này là máy scanner nhiều người đã quen thuộc nơi văn phòng. Nhưng, hiện tại, các máy scan cơ bản chỉ quét được hình ảnh và trả về hình ảnh dạng số hóa. Mặt khác, OCR tuy đã được nghiên cứu và ứng dụng ở nhiều nơi trên thế giới, song, khả năng trích xuất thành văn bản các thứ tiếng khác ngoài tiếng Anh vẫn chưa thật sự hoàn thiện.

Tại sao phải số hóa tài liệu?

Trước khi OCR được phát triển, các loại máy scan và các thiết bị ghi hình khác được ra mắt với nhiệm vụ chính là giải quyết khó khăn lớn nhất của giới văn phòng, đó chính là chuyển đổi các loại văn bản giấy tờ thành dạng file điện tử có thể lưu trữ dễ dàng trên máy tính. Những lợi ích mà việc lưu trữ số hóa các loại giấy tờ có thể đem đến cho các cơ quan, doanh nghiệp có thể được kể đến như:

Truy hồi dữ liệu nhanh chóng: Những người được chia sẻ quyền truy cập và có chung mạng lưới máy tính sẽ có thể truy cập vào kho lưu trữ văn bản dễ dàng, nhanh chóng. Nhân viên không còn mất thời gian đến tận phòng lưu trữ để xem loại văn bản cần tìm.

Nhiều không gian hơn: Thay vì tốn cả 1 văn phòng để lưu trữ công văn, tài liệu, giờ đây, những văn bản đó đã có thể được lưu trữ gọn nhẹ trong 1 ổ cứng.  

Quản lý tốt hơn: Tạo và sắp xếp các thư mục điện tử sẽ luôn dễ dàng và đạt được hiệu suất cao hơn cách truyền thống. 

An toàn hơn: Các dữ liệu điện tử có thể dễ dàng được sao lưu bằng cách copy lại toàn bộ đoạn dữ liệu trong máy tính và lưu trữ nó ở một hoặc nhiều thiết bị có chức năng lưu trữ khác để làm dữ liệu dự phòng. Điều này có thể giúp tránh các trường hợp văn bản mất hoặc bị hư hại. Ngoài ra, dữ liệu này cũng có thể được mã hóa nhằm tăng cường tính bảo mật cho dữ liệu và kiểm soát được người truy cập vào nguồn dữ liệu đó.

Chia sẻ dễ dàng hơn: Không còn cảnh phải mang giấy tờ lên từng phòng ban, việc lưu trữ dữ liệu số có thể giúp văn bản được chia sẻ nhanh chóng qua 1 mạng máy tính chung.

Tuy nhiên, với tính năng cơ bản, máy scan chỉ có thể số hóa văn bản dưới định dạng hình ảnh. Với OCR, hình ảnh điện tử này sẽ 1 lần nữa được trích xuất thành văn bản, tiện lợi hơn cho việc chỉnh sửa, sắp xếp và lưu trữ. Nói 1 cách dễ hiểu hơn, đối với máy scan thường khi scan 1 tấm vé máy bay sẽ chỉ trả về cho người dùng hình ảnh điện tử của tấm vé máy bay đó, trong khi OCR sẽ trả về các thông tin quét được như tên chủ vé, mã hiệu chuyến bay, số ghế… dưới dạng text.

OCR hoạt động như thế nào?

Để đi sâu hơn vào cơ chế hoạt động của OCR, khi các trang tài liệu đã được quét, công nghệ OCR sẽ chuyển tệp này về dạng trắng đen. Sau đó, tệp này sẽ được phân tích thành các mảng sáng tối, khi đó, các mảng tối sẽ được xác định là ký tự cần được nhận dạng và mảng trắng sẽ được xác định là phần nền ngoài của văn bản. Các mảng tối này tiếp tục được xử lý sâu hơn để xác định các ký tự chữ hay chữ số. 

OCR có thể có nhiều kỹ thuật phân tích khác nhau nhưng đều thường tập trung xác định một ký tự, từ hoặc cụm từ cùng 1 lúc. Các kí tự này được nhận dạng bằng 1 trong 2 dạng thuật toán sau:

  1. Nhận dạng mẫu (Pattern recognition): Các chương trình OCR sẽ được “dạy” các ví dụ của ký tự với nhiều font chữ và định dạng khác nhau. Điều này sẽ giúp chương trình có khả năng so sánh, nhận dạng các kí tự trên tài liệu đã được scan. 

  2. Nhận dạng đặc tính (Feature detection): Các chương trình OCR sẽ được “dạy” để áp dụng các đặc tính được xây dựng sẵn của 1 ký tự hay 1 chữ số để nhận dạng chúng trong 1 tài liệu đã được scan. Các đặc tính này có thể bao gồm số nét nghiêng, nét cắt ngang hoặc cong để cấu thành nên 1 ký tự. Ví dụ, máy có thể được dạy để nhận dạng ký tự “A” viết hoa khi có 2 nét nghiêng tiếp xúc với nhau ở đỉnh và có 1 nét ngang nằm giữa.

Một khi các ký tự, cụm từ, chữ số này đã được nhận dạng, chúng sẽ được chuyển hóa thành dạng mã ASCII để hệ thống máy tính có thể thao tác sâu hơn. Tuy nhiên, vì công nghệ này vẫn chưa được hoàn thiện 100%, đối với những hình ảnh có màu nền và màu chữ không quá tương phản nhau hoặc các tài liệu nhòe mực thì OCR vẫn chưa thể xác định chính xác các cụm từ đó.

Tại Việt Nam, công nghệ OCR được FPT.AI tích hợp trên nền tảng Trí tuệ nhân tạo, giúp máy có khả năng xác định đúng vùng và các trường thông tìn cần trích xuất, đáp ứng nhu cầu bóc tách thông tin khách hàng trên giấy tờ tùy thân. Bởi FPT.AI Reader là ứng dụng nhận dạng và trích xuất chính xác nội dung từ ảnh chụp mẫu văn bản có sẵn (giấy tờ cá nhân, hóa đơn), hoặc theo bất kì định dạng văn bản tùy biến (hợp đồng, chứng từ, v.v.), được trang bị Trí tuệ nhân tạo (AI) và Thị giác máy tính với khả năng Nhận dạng ký tự quang học (OCR) và Xử lý văn bản thông minh (IDP), kết hợp kỹ thuật xử lý ảnh nâng cao và Xử lý ngôn ngữ tự nhiên (NLP), cho phép người dùng số hóa văn bản chính xác chỉ với vài giây, độ bảo mật cao và dễ dàng lưu trữ.

 

_____________________________

? Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi

? Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội

☎ Hotline: 1900 638 399

? Email: [email protected]