Dù đã xuất hiện từ lâu nhưng sách nói đã có sự trỗi dậy ngoạn mục trên khắp thế giới trong vài năm trở lại đây. Với sự phát triển mạnh mẽ của CNTT và Internet, sách nói đã khẳng định được vị thế của mình trong ngành xuất bản hiện đại. FPT.AI hiện đang tiên phong cho công nghệ chuyển văn bản thành giọng nói Text to Speech, chìa khóa vàng cho tương lai của sách nói tại Việt Nam.
1. Sự trỗi dậy của sách nói
Sách nói (audiobook) là loại sách được chuyển nội dung từ dạng văn bản sang dạng âm thanh (Text to Speech) thông qua giọng đọc của con người. Sách nói ra đời từ năm 1932 tại Mỹ với mục đích nhân văn là dành cho người khiếm thị hoặc người cao tuổi. Giờ đây, sự phát triển của công nghệ đã thay đổi thói quen tiếp nhận thông tin của con người, sách nói do đó ngày càng phổ biến và được nhiều người trẻ sử dụng.
Một góc nhìn ra thế giới
Sách nói đã phát triển trong khoảng ba năm gần đây và có sự bứt phá ngoạn mục từ năm 2020. Theo một báo cáo từ Omdia, công ty nghiên cứu thị trường viễn thông có trụ sở ở Anh, doanh thu sách nói toàn cầu đạt 4 tỷ USD năm 2020, ước đạt 4,8 tỷ USD trong năm nay và tiếp đà tăng trưởng mạnh mẽ trong những năm tiếp theo. Đến năm 2026, Omdia dự báo sẽ có hơn 337 triệu người dùng nghe sách nói hàng tháng trên khắp thế giới.
Biểu đồ về doanh thu của sách nói kỹ thuật số trên toàn cầu, theo khảo sát của Omdia năm 2020
Biểu đồ về số lượng thính giả hàng tháng của sách nói trên toàn cầu, theo khảo sát của Omdia năm 2020
Theo Hiệp hội các nhà xuất bản sách nói Mỹ (Audio Publishers Association), doanh thu sách nói ở quốc gia này đạt 1,3 tỷ USD năm 2020. Hai tháng đầu năm 2021, doanh thu sách nói ở Mỹ tiếp tục tăng 23,7% so với năm cũ, đạt con số ấn tượng với 131,6 triệu USD. Tờ The Guardian của Anh cũng thừa nhận 2020 là một năm bùng nổ của lĩnh vực sách nói.
Sách nói, cú nổ muộn tại Việt Nam
Không nằm ngoài xu thế toàn cầu, ngành công nghiệp sách nói ở Việt Nam cũng bắt đầu có những tín hiệu phát triển đầy hứa hẹn với nhiều yếu tố thuận lợi như: Thị trường đầy tiềm năng với dân số trên 90 triệu người, trong đó 56% dưới 35 tuổi – độ tuổi có nhu cầu nghe sách nói cao nhất (theo Statista); Là nước có dân số sử dụng smartphone đứng thứ hai Đông Nam Á năm 2020, với 61,3 triệu smartphone (theo Statista); Là đất nước có văn hóa chia sẻ, cập nhật thông tin mọi lúc, mọi nơi…
Tuy có tiềm năng tăng trưởng mạnh trong tương lai, dung lượng của thị trường sách nói ở Việt Nam vẫn còn rất nhỏ bé so với khu vực (châu Á) và thế giới. Doanh nghiệp trong lĩnh vực này chưa tập trung hóa dẫn đến giá trị thị trưởng nhỏ, đồng thời những hạn chế về công nghệ dẫn tới chi phí sản xuất sách nói thủ công trở nên đắt đỏ gấp nhiều lần so với sách in.
2. Ứng dụng công nghệ Text to Speech (TTS) vào xuất bản sách nói
Xu hướng ứng dụng công nghệ Text to Speech vào lĩnh vực sách nói đang dần trở thành tương lai của ngành công nghiệp này khi nó được các “ông lớn” như Google và Amazon cùng hưởng ứng: Google Play Books ra mắt chương trình trợ giảng sách nói vào tháng 3/2021, cho phép AI có thể đọc to sách, lật trang tự động và truy cập từ điển dành cho trẻ em; Amazon cũng tạo ra một gia sư sách nói AI tương tự cho trẻ em vào tháng 6/2021 và trợ lý ảo Alexa gần đây cũng đã kết nối với chương trình sách nói miễn phí của Viện Người mù Quốc gia dành cho những người bị khiếm thị…
Google Play Books cũng triển khai giọng AI tiếng Việt. Tuy nhiên, chất lượng giọng không tự nhiên, hạn chế về vùng miền.
Giải pháp cho một thị trường chập chững
Với bản chất là một xu thế công nghệ đang lên, bước đầu có những bước tiến nhất định tại thị trường Việt Nam, sách nói vẫn cần một hướng phát triển đúng đắn để thực sự trở thành cú nổ lớn của ngành xuất bản trong tương lai. Công nghệ Text to Speech (TTS) giúp tự động đọc văn bản sẽ là xu hướng tiếp theo định hình ngành công nghiệp sách nói. Việc ứng dụng công nghệ TTS vào sản xuất sách nói không những tiết kiệm chi phí thu âm trực tiếp và chỉnh sửa âm thanh, mà còn phù hợp với thị trường giá trị nhỏ và đang bị phân mảnh như Việt Nam. Nói cách khác, công nghệ TTS chính là đòn bẩy của lĩnh vực sách nói tại Việt Nam.
Tại thị trường giọng đọc tiếng Việt, công nghệ FPT.AI Text to Speech được triển khai trên nền tảng trí tuệ nhân tạo (AI) là giải pháp chuyển đổi văn bản thành giọng nói đa năng đã cho thấy nhiều tính năng vượt trội khi ứng dụng cho sách nói so với các phần mềm chuyển đổi thông thường:
✅ Phát âm chính xác: Ứng dụng công nghệ tổng hợp giọng nói và công nghệ Học Sâu (Deep Learning), giọng máy của FPT.AI TTS có thể phát âm chính xác các câu tiếng Việt, tên và các con số đến hàng triệu; tự động ngắt nghỉ giữa dấu phẩy (,) và dấu chấm (.) một cách tự nhiên, chuyên nghiệp.
✅ Giọng đọc tự nhiên, đa dạng vùng miền: Công nghệ TTS của FPT.AI có sự hoàn thiện vượt trội để giọng máy trở nên tự nhiên, mềm mại, giống với giọng người. Không còn âm thanh “chị Google” cứng nhắc, máy móc ngày trước, giờ đây giọng máy truyền tải cảm xúc rất chân thực, làm cho nội dung sách nói trở nên sinh động, lôi cuốn. Đặc biệt, được nghiên cứu và phát triển dành riêng cho thị trường Việt Nam dựa trên những nghiên cứu chuyên sâu về giọng nói của từng khu vực, FPT.AI TTS hiện có 9 giọng đọc, đến từ cả ba miền Bắc Trung Nam, đầy đủ cả nam và nữ, đáp ứng hầu hết nhu cầu của người dùng.
✅ Dễ dàng tùy chỉnh: Thích ứng với sự đa dạng thể loại của sách nói, FPT.AI TTS có sẵn các tính năng chỉnh sửa giọng đọc cho phù hợp với nội dung, chủ đề của sách. Ví dụ, trong kho sách nói, những đầu sách thể loại kỹ năng sống, sách tham khảo… thường yêu cầu giọng đọc nghiêm túc với tốc độ trung bình, trong khi sách dạy trẻ em đánh vần, truyện cổ tích cần giọng đọc chậm rãi, có âm điệu trầm bổng. Khi ấy, người dùng hoàn toàn có thể thay đổi tốc độ, giọng đọc, ngữ điệu… trên phần mềm chuyển văn bản thành giọng máy. Thậm chí, người dùng được sử dụng nhiều giọng nói trong cùng một lần chuyển đổi để phục vụ kịch bản truyện có đoạn hội thoại được thực hiện bởi nhiều người.
✅ Triển khai linh hoạt: Người dùng có thể nhanh chóng kết nối với APIs của FPT.AI hoặc chuyển đổi văn bản trực tiếp trên giao diện người dùng của website thành các file âm thanh với các định dạng thông dụng như MP3, WAV…đảm bảo dịch vụ luôn hoạt động trơn tru và nhanh nhất, ngay cả trong các trường hợp truy cập tăng đột biến trên hệ thống.
Hiện nay, nhiều trang báo điện tử và kho sách nói tại Việt Nam đã áp dụng công nghệ TTS tích hợp Trí tuệ nhân tạo AI của FPT.AI giúp chuyển văn bản thành giọng nói. Một trong số đó là chuyên trang công nghệ của tập đoàn FPT – TechInsight đã triển khai công nghệ FPT.AI TTS cho phần báo nói hay VnExpress đang dùng giọng FPT.AI TTS đọc bản tin video, phóng sự.
Một trong những yếu tố quan trọng mà giải pháp TTS của FPT.AI hướng tới là tính linh hoạt và chính xác. Tiếng Việt mang nhiều ngữ cảnh và ý nghĩa, văn phong của tác giả cũng theo từng lĩnh vực, thể loại sách viết mà hoàn toàn khác nhau, Vì vậy, giải pháp của FPT.AI phát triển, tối ưu cho thị trường Việt Nam, không chỉ là âm thanh được chuyển đổi một cách máy móc, mà là giọng đọc truyền cảm, mượt mà, chính xác, phù hợp với xu hướng xuất bản thời công nghệ.
Đặc biệt, giọng máy Acesound mới được cải tiến của FPT.AI đã nâng tầm công nghệ Text to Speech lên một tầm cao mới với giọng đọc tự nhiên và mô phỏng đến 90% giọng thật của con người, độc giả rất khó để có thể nhận ra rằng những giọng đọc ở trên trang web đều là giọng đọc nhân tạo. Trải nghiệm ngay tại: https://voicemaker.fpt.ai/
Sách nói đang phát triển và sẽ tiến xa hơn, trở thành đến tương lai của ngành xuất bản không chỉ ở Việt Nam mà còn trên toàn thế giới. Việc áp dụng công nghệ tiên tiến sẽ thay đổi trải nghiệm dịch vụ và “văn hóa đọc” cộng đồng. Phần mềm đọc văn bản tiếng Việt FPT.AI Text to Speech sẽ luôn đồng hành và cung cấp giải pháp công nghệ tân tiến nhất cho doanh nghiệp sách nói, góp phần phát triển ngành xuất bản thời 4.0.
———————————-
? Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi
? Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội
☎ Hotline: 1900 638 399
✉ Email: support@fpt.ai