Speech to Text (hay Voice to Text) là công nghệ tự động nhận diện âm thanh của người nói, phân tích sóng âm đầu và sử dụng các thuật toán ngôn ngữ học để chuyển đổi âm thanh thành các ký tự, từ và cụm từ số hóa. Hiện nay, nhờ sự phát triển của machine learning, deep learning và các mô hình ngôn ngữ lớn, công nghệ này đã đạt được những bước tiến vượt bậc về độ chính xác và khả năng xử lý.
Trong bài viết này, FPT.AI sẽ giới thiệu về cách thức hoạt động của Speech to Text, quá trình phát triển lịch sử, các ứng dụng nổi bật, ưu nhược điểm, cũng như các ứng dụng chuyển văn bản thành giọng nói hàng đầu hiện nay.
Speech to Text là gì?
Speech to Text (hay Voice to Text) là công nghệ tự động nhận diện âm thanh của người nói và biến nó thành chữ viết hoặc văn bản điện tử, thường được cung cấp như một dịch vụ phần mềm (SaaS). Speech to Text dựa trên công nghệ nhận diện giọng nói tự động (Automatic Speech Recognition) để phân tích sóng âm đầu vào và sử dụng các thuật toán ngôn ngữ học để chuyển đổi âm thành thành các ký tự, từ và cụm từ số hóa.

Nhờ học máy (Machine Learning), học sâu (Deep learning) và các mô hình ngôn ngữ lớn như Generative Pre-Trained Transformer (GPT) của OpenAI, phần mềm Speech to Text đã cải thiện khả năng phát hiện mẫu trong lời nói qua việc phân tích lượng lớn dữ liệu âm thanh và văn bản.
Trí tuệ nhân tạo tạo sinh khi kết hợp với Speech to Text có thể tạo ra các trợ lý ảo hỗ trợ khách hàng qua điện thoại hoặc ứng dụng điều khiển bằng giọng nói. Generative AI cũng có thể chuyển đổi văn bản trở lại thành giọng nói, còn được gọi là Text to Speech, với âm thanh tự nhiên và chân thực.

Cách thức hoạt động của phần mềm Speech to Text
Phần mềm Speech to Text gồm 4 thành phần chính:
- Đầu vào giọng nói (Speech input): Nơi microphone thu nhận lời nói
- Trích xuất đặc trưng (Feature extraction): Nơi máy tính xác định các âm điệu và mẫu đặc trưng trong giọng nói
- Bộ giải mã (Decoder): Nơi thuật toán khớp các đặc trưng giọng nói với các ký tự và từ thông qua Language Modeling
- Đầu ra từ (Word output): Nơi văn bản cuối cùng được định dạng với dấu câu và viết hoa chính xác để dễ đọc
Nói chung, quá trình chuyển đổi giọng nói thành văn bản bao gồm các bước sau:
- Tiền xử lý âm thanh (Audio preprocessing): Âm thanh được tiền xử lý để cải thiện chất lượng và độ chính xác của quá trình nhận dạng. Điều này bao gồm loại bỏ background noises và tần số không liên quan, ổn định mức âm lượng, phân đoạn clip và chuyển đổi tệp âm thanh thành định dạng tiêu chuẩn.
- Phân tích âm thanh và trích xuất đặc trưng (Sound analysis và feature extraction): Tín hiệu giọng nói sẽ được mô tả dưới dạng phổ âm (spectrograms – biểu diễn trực quan của tần số theo thời gian). Các phần liên quan của bản ghi âm thanh được chia thành chuỗi các âm vị (đơn vị nhỏ nhất của lời nói phân biệt từ này với từ khác, gồm 2 lớp chính là nguyên âm và phụ âm). Language models và bộ giải mã có thể khớp các âm vị với các từ, sau đó là câu. Các mô hình âm thanh dựa trên học sâu (deep learning-based acoustic models) có thể dự đoán các ký tự và từ nào có khả năng xuất hiện tiếp theo dựa trên ngữ cảnh.

Có ba phương pháp chính để nhận dạng giọng nói:
- Nhận dạng đồng bộ (Synchronous recognition): Sử dụng khi có sự chuyển đổi ngay lập tức từ giọng nói sang văn bản. Nhận dạng đồng bộ chỉ có thể xử lý các tệp âm thanh ngắn hơn một phút, thường được ứng dụng trong việc tạo phụ đề truyền hình trực tiếp.
- Nhận dạng trực tuyến (Streaming recognition): Sử dụng khi âm thanh được xử lý theo thời gian thực, cho phép các văn bản phân mảnh xuất hiện khi người dùng vẫn đang nói.
- Nhận dạng không đồng bộ (Asynchronous recognition): Sử dụng khi các tệp âm thanh dài đã được ghi sẵn để phiên âm, có thể đặt vào hàng đợi để xử lý sau.

Các công ty như Google, Microsoft, Amazon và IBM cung cấp dịch vụ Speech to Text dưới dạng cloud APIs. iPhone của Apple có tính năng đọc chính tả tích hợp Speech to Text. Người dùng Android có thể tải xuống các ứng dụng như Gboard để sử dụng chức năng chuyển đổi giọng nói thành văn bản. Một số thiết bị Pixel cho phép người dùng gõ bằng giọng nói thông qua Trợ lý. Ngoài ra còn có nhiều giải pháp mã nguồn mở và độc quyền khác.

>>> XEM THÊM: Review chi tiết 10 phần mềm chuyển văn bản thành giọng nói online miễn phí
Quá trình phát triển của các hệ thống chuyển giọng nói thành văn bản
Ban đầu, phần mềm nhận dạng giọng nói chỉ có thể nhận dạng được số lượng từ vựng rất hạn chế. Bell Laboratories đã phát triển hệ thống đầu tiên có tên AUDREY vào những năm 1950, chỉ có khả năng nhận dạng các chữ số được nói ra. Sau đó, IBM giới thiệu Shoebox năm 1962, cải thiện hơn với khả năng nhận dạng các con số và 16 từ khác nhau.
Tiếp theo, các nhà khoa học máy tính đã xây dựng nền tảng lý thuyết quan trọng cho Speech to Text bằng cách đề xuất mô hình nhận dạng âm vị và mô hình thống kê như Hidden Markov Models. Đáng chú ý là vào khoảng những năm 1970, chương trình HARPY của Carnegie Mellon đã đạt được bước tiến lớn khi cho phép máy tính nhận dạng được 1.000 từ khác nhau.
Vào những năm 1980, hệ thống phiên âm Tangora của IBM đánh dấu bước tiến quan trọng, sử dụng phương pháp thống kê để mở rộng vốn từ nhận dạng lên đến 20.000 từ. Hệ thống này được ứng dụng vào các công cụ đọc chính tả bằng giọng nói đầu tiên dành cho nhân viên văn phòng, đặt nền móng cho phần mềm chuyển đổi giọng nói thành văn bản hiện đại. Phần mềm này tiếp tục được cải tiến trước khi được thương mại hóa rộng rãi vào đầu những năm 2000.

Sự xuất hiện của các thuật toán học máy và học sâu đã mang lại bước ngoặt, thay thế các mô hình thống kê truyền thống và nâng cao đáng kể độ chính xác và quy mô nhận dạng. Deep Learning có thể nắm bắt các sắc thái ngôn ngữ và biểu đạt không chính thức. Các mô hình ngôn ngữ lớn (LLM) bổ sung ngữ cảnh, giúp giải quyết các tình huống từ ngữ mơ hồ hoặc khác biệt về giọng phát âm.
Sau đó, khi trợ lý ảo và loa thông minh trở nên phổ biến, công nghệ Speech to Text được tích hợp với LLM, xử lý ngôn ngữ tự nhiên (NLP) và các dịch vụ đám mây, mở rộng phạm vi ứng dụng của STT ra nhiều lĩnh vực, từ ô tô đến chăm sóc sức khỏe.
Hiện tại, Speech to Text đang được tích hợp với các mô hình học sâu end-to-end như transformers. Các mô hình này được huấn luyện trên tập dữ liệu lớn gồm các cặp âm thanh – văn bản không nhãn để học cách liên kết tín hiệu âm thanh với bản ghi. Trong quá trình huấn luyện, mô hình tự học cách phát âm và dự đoán trình tự xuất hiện của các từ, đồng thời suy luận quy tắc ngữ pháp và cấu trúc ngôn ngữ. Phương pháp học sâu hiện đại đã hợp nhất và tự động hóa nhiều bước thủ công của các kỹ thuật Speech to Text truyền thống.

>>> XEM THÊM: Gán nhãn dữ liệu là gì? Data Labeling trong học máy và AI
Ứng dụng nổi bật của công nghệ Speech to Text là gì?
Các ứng dụng nổi bật của phần mềm chuyển đổi giọng nói thành văn bản bao gồm:
Phân tích Call Centers và hỗ trợ nhân viên
Trong các Call Center, phần mềm chuyển đổi giọng nói thành văn bản có thể tự động phiên âm các tương tác của khách hàng, định tuyến cuộc gọi khi cần thiết, rút ra thông tin chi tiết từ các cuộc trò chuyện của khách hàng và phân tích cảm xúc (Sentiment Analysis). Các trung tâm dịch vụ khách hàng đang tối ưu hóa nguồn lực bằng cách áp dụng trợ lý AI tích hợp Speech to Text để xử lý các câu hỏi đơn giản tự động và chỉ chuyển những vấn đề phức tạp cho nhân viên.

Phiên âm và dịch thuật theo thời gian thực
Công nghệ Speech to Text có thể ghi lại biên bản cho các cuộc họp trực tuyến, hội thảo trên web và tạo phụ đề, chú thích hoặc lồng tiếng cho video. Khi kết hợp với phần mềm dịch thuật, nó có thể phiên âm các tài liệu chăm sóc sức khỏe, pháp lý và giáo dục sang nhiều ngôn ngữ. Trong thực tế, Amazon cung cấp dịch vụ phiên âm y tế sử dụng công nghệ Speech to Text để phiên âm các cuộc trò chuyện giữa bác sĩ và bệnh nhân, tạo ghi chú lâm sàng và tạo phụ đề cho các buổi tư vấn y tế từ xa.

>>> XEM THÊM: Voicebot là gì? Ứng dụng của Voicebot AI trong CSKH tự động
Nhận dạng giọng nói (Voice recognition)
Thông qua xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói có thể rút ra ý nghĩa từ văn bản được phiên âm và trích xuất các lệnh có thể thực hiện được. Điều này có thể giúp người dùng đưa ra lệnh bằng giọng nói như thực hiện cuộc gọi điện thoại, tìm kiếm trên web hoặc điều khiển đèn, bộ điều nhiệt và các thiết bị được kết nối khác trong ngôi nhà thông minh thông qua AI chatbot hoặc trợ lý ảo như Alexa, Cortana, Google Assistant và Siri.
Alexa của Amazon hiện đang sử dụng công nghệ chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói để bật đèn, điều chỉnh nhiệt độ trong phòng hoặc đề xuất công thức nấu ăn dựa trên các mặt hàng tạp hóa người dùng đã mua gần đây.

Ứng dụng gõ giọng nói và đọc chính tả (Voice typing và dictation apps)
Người khuyết tật có thể sử dụng các ứng dụng chuyển giọng nói thành văn bản để tương tác với máy tính và điện thoại thông minh, chẳng hạn như đọc tin nhắn văn bản, ghi chú, email,… mà không cần gõ phím. Học sinh bị mắc chứng khó đọc hoặc mới chấn thương cánh tay vẫn có thể gõ ghi chú bằng cách sử dụng dịch vụ Azure Speech trên máy tính Microsoft.

Giám sát nội dung
Trí tuệ nhân tạo có thể kiểm tra các bản ghi âm thanh và video để phát hiện nội dung không phù hợp, đánh dấu những tài liệu đáng ngờ cần người xem xét. Công ty Vatis Tech cung cấp công cụ sử dụng công nghệ Speech to Text để giám sát mạng xã hội trong lĩnh vực tiếp thị, giúp doanh nghiệp xác định xu hướng và hiểu rõ ý định đằng sau các tương tác của khách hàng.

>>> XEM THÊM: Lưu ngay 8 cách chuyển ghi âm thành văn bản online miễn phí
Ưu điểm, nhược điểm của công nghệ Speech to Text là gì?
Ưu điểm:
- Tiết kiệm thời gian và tăng năng suất bằng cách cho phép người dùng nói thay vì đánh máy, đặc biệt hữu ích cho các công việc phiên âm và ghi chép.
- Tạo điều kiện thuận lợi cho người khiếm thính hoặc có vấn đề về thính giác trong việc giao tiếp và tiếp cận thông tin thông qua văn bản.
- Có khả năng nhận diện từ vựng phức tạp với độ chính xác cao hơn phương pháp phiên âm thủ công.
- Cho phép chuyển đổi nội dung âm thanh và video thành văn bản, giúp tối ưu hóa việc tìm kiếm thông tin.

Nhược điểm:
- Việc triển khai hệ thống đòi hỏi nguồn lực tài chính đáng kể, đặc biệt đối với các dự án quy mô lớn.
- Hoạt động dựa trên thuật toán và trí tuệ nhân tạo, cần được đánh giá kỹ lưỡng trước khi sử dụng.
- Giới hạn về độ chính xác và có thể mắc lỗi trong quá trình chuyển đổi.
- Nhiều hệ thống chỉ hỗ trợ một số lượng ngôn ngữ và giọng nói nhất định.
- Đòi hỏi quá trình kiểm tra và hiệu chỉnh thủ công để đảm bảo kết quả chính xác.
- Thiếu khả năng tự động thêm dấu câu, người dùng cần phải chủ động nói hoặc thêm dấu câu trong quá trình sử dụng.

>>> XEM THÊM: Tổng đài AI là gì? 3 Ứng dụng của tổng đài AI trong telesale
Các ứng dụng chuyển giọng nói thành văn bản trên hàng đầu hiện nay
Gboard (Google) – Phần mềm chuyển âm thanh thành văn bản miễn phí
Gboard là giải pháp bàn phím hiện đại cho phép người dùng truy cập thông tin ngay từ giao diện nhập liệu. Nổi bật với tính năng nhận diện giọng nói, Gboard giúp người dùng tạo văn bản bằng cách đọc thay vì gõ – đặc biệt hữu ích trên thiết bị màn hình nhỏ hoặc khi cần soạn thảo nhanh chóng. Công cụ này tương thích với cả hai hệ điều hành phổ biến Android và iOS, đồng thời hoàn toàn miễn phí cho người dùng.

Laban Key (VNG) – Ứng dụng chuyển giọng nói sang văn bản Tiếng Việt
Laban Key là bàn phím tiếng Việt do VNG phát triển, tích hợp công nghệ Speech to Text hiện đại. Tương tự Gboard, ứng dụng này nâng cao trải nghiệm nhập liệu văn bản và giao tiếp trên nhiều nền tảng nhắn tin phổ biến như Zalo, Messenger, Viber và Whatsapp. Laban Key hoạt động tốt trên cả thiết bị Android và iOS, với ưu điểm là hoàn toàn miễn phí cho người dùng.

>>> XEM THÊM: Review 16 ứng dụng sách nói tiếng Việt miễn phí hàng đầu
Google Assistant (Google) – Phần mềm chuyển giọng nói sang văn bản trên điện thoại nổi tiếng
Google Assistant là trợ lý thông minh trên thiết bị di động với khả năng thực hiện đa dạng tác vụ. Công nghệ nhận diện giọng nói và chuyển đổi thành văn bản là tính năng nổi bật nhất. Người dùng có thể ra lệnh bằng giọng nói để điều khiển thiết bị, mở ứng dụng, tìm kiếm vị trí trên bản đồ, soạn tin nhắn, email, quản lý lịch và nhiều hoạt động khác.
Chỉ cần kích hoạt bằng cụm từ “Hey Google” hoặc “Ok Google”, trợ lý sẽ sẵn sàng tiếp nhận và thực thi yêu cầu. Google Assistant được cung cấp miễn phí cho smartphone Android và iOS, với phần lớn thiết bị Android đã được cài đặt sẵn.

Siri Assistant (Apple) – App chuyển giọng nói thành văn bản trên iPhone
Siri Assistant là trợ lý ảo đặc trưng của hệ sinh thái Apple. Tương tự Google Assistant, Siri cho phép điều khiển các thiết bị Apple như iPhone, iPad và Macbook thông qua giọng nói. Siri là biểu tượng độc quyền giúp phân biệt thiết bị Apple chính hãng, không có phiên bản cho Android. Trợ lý ảo này hoàn toàn miễn phí cho tất cả thiết bị Apple như iPhone, iPad, iWatch và Macbook.

Google Translate (Google) – Ứng dụng dịch giọng nói ra văn bản miễn phí
Google Translate (Google Dịch) là một trong những công cụ dịch thuật hàng đầu toàn cầu. Với ưu điểm miễn phí và hỗ trợ đa dạng ngôn ngữ, ứng dụng đã trở thành công cụ phổ biến được sử dụng rộng rãi. Ngoài khả năng dịch văn bản đa ngôn ngữ, Google Translate còn tích hợp công nghệ chuyển đổi giọng nói thành văn bản, trở thành trợ thủ đắc lực cho người dùng khi du lịch nước ngoài.

Tóm lại, công nghệ Speech to Text đang mang lại những giá trị thiết thực trong nhiều lĩnh vực của đời sống. Mặc dù vẫn còn những hạn chế về chi phí triển khai, độ chính xác và phạm vi hỗ trợ ngôn ngữ nhưng với sự phát triển không ngừng của công nghệ, các giải pháp Speech to Text như Gboard, Laban Key, Google Assistant, Siri Assistant và Google Translate đang ngày càng hoàn thiện, mở ra tương lai đầy hứa hẹn cho việc tương tác giữa con người và máy tính bằng giọng nói tự nhiên.
>>> XEM THÊM: