Chuyển đến phần nội dung
center-gradient-cover-bg
right-gradient-cover-bg
background gradient desk
Bài viết

Chuyển văn bản thành giọng nói bằng công nghệ Text to speech

Tháng Mười Hai 1, 2020

Chia sẻ với:

FPT.AI Voicemaker là nền tảng cho phép người dùng chuyển văn bản thành giọng nói một cách tự nhiên bằng công nghệ Text to speech, với nhiều tính năng chuyên biệt, thuận tiện cho việc tùy chỉnh và lưu trữ. Sau đây chúng tôi sẽ hướng dẫn bạn cách sử dụng Voicemaker.

Hướng dẫn thiết lập các tính năng chuyển văn bản thành giọng nói trên voicemaker.fpt.ai

Để sử dụng nền tảng, bạn phải có tài khoản FPT ID. Nếu chưa có tài khoản, đăng kí tài khoản tại đây: https://id.fpt.ai/accounts/signin/?next=/accounts/profile/

Tiếp theo, truy cập https://console.fpt.ai để tạo sự Project (Dự án), API Key và Kích hoạt dự án.

chuyển văn bản thành giọng nói
Kích hoạch dự án chuyển văn bản thành giọng nói với FPT.AI Voicemaker

Sau đó, truy cập: https://voicemaker.fpt.ai/ để bắt đầu sử dụng ứng dụng chuyển đổi văn bản thành giọng nói.

chuyển văn bản thành giọng nói
Giao diện nền tảng VoiceMaker

Chọn ngôn ngữ

Nền tảng Voicemaker hỗ trợ 2 ngôn ngữ là Tiếng Anh và Tiếng Việt. Click vào biểu tượng địa cầu trên góc phải màn hình để chọn ngôn ngữ sử dụng.

text to speech
Chọn ngôn ngữ

Chọn dự án

Bạn phải chọn một dự án (Project) để bắt đầu sử dụng.

  • Nếu đã có dự án, click vào (1) để chọn dự án. Chọn 1 trong các dự án đã tạo ở (2)
  • Nếu chưa có dự án, bạn phải tạo dự án mới bằng cách click vào Create new Project (3). Bạn sẽ được link sang trang console.fpt.ai.

FPT.AI Console là nền tảng quản lí và nắm bắt thông số về mọi dịch vụ của fpt.ai. Tại đây, bạn có thể thiết lập một dự án mới. Sau đó bạn quay lại trang Voicemaker.fpt.ai để tiếp thục thực hiện dự án của mình.

chuyển văn bản thành giọng nói
Chọn dự án muốn chuyển văn bản thành giọng nói

Dán link trang web cần chuyển đổi văn bản thành giọng nói

Dán link trang web bất kì cần chuyển đổi văn bản thành giọng nói vào ô URL. Ấn Xử lý để hệ thống bóc tách phần chữ cần chuyển đổi trong trang web.

Nghe thử và chọn giọng đọc

Nghe thử và chọn giọng đọc phù hợp ở cột bên phải giao diện.

FPT.AI Text to Speech hiện đang sở hữu 8 giọng đọc chất lượng cao, đa dạng vùng miền (Bắc – Trung – Nam), giới tính (Nam/Nữ), đáp ứng nhiều nhu cầu và mục đích sử dụng khác nhau của khách hàng.

tex to speech
8 giọng đọc chất lượng cao, đa dạng vùng miền cuat FPT.AI Text to Speech

Tùy chỉnh văn bản đọc

Sau khi đã thiết lập giọng đọc chính cho cả văn bản với tốc độ phù hợp, bạn có thể tiến hành chỉnh sửa văn bản đọc với các tính năng chuyên biệt và cụ thể hơn, để tạo ra một file âm thanh chất lượng cao đúng với nhu cầu sử dụng.

text to speech
Chỉnh sửa văn bản theo nhu cầu sử dụng sau khi thiết lập giọng đọc chính

Các tính năng chỉnh sửa chuyên sâu của VoiceMaker

 Từ điển

Với từ điển, bạn có thể dạy máy phát âm các từ khó, từ nước ngoài bằng cách phiên âm sang cách đọc tiếng Việt. Chẳng hạn, trong bài báo xuất hiện danh từ riêng Mark Zuckerberg. Đây là một từ khó, máy sẽ đọc sai hoặc đọc không hay. Bạn có thể phiên âm cách đọc Việt hóa đúng nhất, sau đó ấn Thêm để dạy máy đọc theo đúng ý bạn.

text to speech
Dạy máy phát âm các từ nước ngoài bằng cách phiên âm sang cách đọc tiếng Việt

Thêm thời gian nghỉ

Các giọng đọc của FPT.AI Text to Speech đều có sự ngắt nghỉ tự nhiên, nhịp nhàng như giọng đọc thật của con người. Tuy nhiên, với những đoạn bạn muốn máy nghỉ lâu hơn, bạn có thể thêm thời gian nghỉ bằng cách thiết lập tính năng đó ở đây.

Để con trỏ sau từ bạn muốn thêm thời gian nghỉ, ấn nút Nghỉ, sau đó điều chỉnh thời gian nghỉ phù hợp với nhu cầu sử dụng bằng cách điền thời gian vào ô Break time

chuyển văn bản thành giọng nói
Thêm thời gian nghỉ để thu được kết quả tự nhiên hơn

Chọn giọng đọc khác

Trong cùng một bài đọc, bạn có thể sẽ cần nhiều giọng đọc khác nhau để đối thoại, hoặc làm nổi bật câu trích dẫn. Bạn có thể cài đặt giọng đọc khác bằng cách bôi đen đoạn cần sử dụng giọng đọc khác, click vào nút Giọng, sau đó chọn giọng đọc và điều chỉnh tốc độ tùy theo nhu cầu sử dụng.

chuyển văn bản thành giọng nói
Chọn giọng đọc khác để đối thoại hoặc làm nổi bật câu trích dẫn

Tìm kiếm và thay thế

Để tìm kiếm một từ/cụm từ trong đoạn văn bản, nhập từ đó vào ô Tìm kiếm và ấn Tìm. Văn bản sẽ bôi đậm tất cả các từ/cụm từ đó trong văn bản.

text to speech
Tìm kiếm và thay thế từ/ cụm từ trong đoạn văn bản

Bạn có thể thay thế từ đó bằng cách nhập từ thay thế vào ô Thay thế. Ấn nút Thay thế để thay thế từng từ như sau:

chuyển văn bản thành giọng nói
Thay thế từng từ

Hoặc bạn có thể ấn nút Thay thế Tất cả để thay thế hàng loạt.

chuyển văn bản thành giọng nói
Thay thế hàng loạt

 

Ở ví dụ trên, tôi đã thay thế từ “Gates” thành “Mark” và ấn Thay thế để thay thế từng từ một. Ngoài ra, để bỏ chọn các từ/cụm từ bạn tìm kiếm (các từ được bôi đậm), chọn nút Xóa.

Chọn giọng đọc và nghe thử

Để nghe thử một từ, một cụm từ hoặc một đoạn văn bản, bạn lựa chọn bằng cách bôi đen từ/cụm từ hoặc đoạn văn bản đó, chọn Giọng, chọn Tốc độ đọc và ấn Nghe thử.​​​​​​​

text to speech
Nghe thử để điều chỉnh giọng và tốc độ đọc

Undo và Redo

Để khôi phục lại một thao tác vừa thực hiện, bạn có thể nhấn vào biểu tượng nút Undo (1) trên thanh công cụ.

Để thực hiện lại các thao tác đã Undo thì nhấn vào nút Redo (2).

chuyển văn bản thành giọng nói
Khôi phục hoặc thực hiện lại các thao tác

Tải file audio

Để tải file audio, ấn vào nút Tải xuống MP3.

chuyển văn bản thành giọng nói
Tải xuống file audio đã hoàn chỉnh

Xem lịch sử

Để xem lại lịch sử hoạt động, ấn vào nút Lịch sử.

text to speech
Xem lại lịch sử hoạt động

Tại đây bạn sẽ xem được các thông tin về thời gian tạo, yêu cầu, trạng thái và đường link tải file.

chuyển văn bản thành giọng nói
Xem lại thời gian tạo, yêu cầu, trạng thái và đường link tải file

Mua thêm lưu lượng sử dụng

FPT.AI Text to Speech tặng các bạn miễn phí 100.000 kí tự/tháng. Tuy nhiên, nếu có nhu cầu sử dụng lưu lượng nhiều hơn và tốc độ chuyển đổi cao hơn, bạn có thể mua thêm các gói trả phí bằng cách ấn vào chữ Mua thêm.

Click vào gói dịch vụ bạn chọn và thực hiện thanh toán theo hướng dẫn sau đó.

text to speech
Mua thêm dung lượng sử dụng

>>>CÓ THỂ BẠN QUAN TÂM: Thông báo giao dịch bằng giọng nói – Xu thế tất yếu của Ngân hàng số

Những ứng dụng nổi bật của công nghệ Text to Speech của FPT.AI

Hiện nay, công nghệ Text to Speech được ứng dụng nhiều trong lĩnh vực dịch vụ, mang tới sự tiện lợi cho người dùng như:

1. Tổng đài tự động chăm sóc khách hàng: Với dịch vụ này, các doanh nghiệp có thể sử dụng trợ lý ảo để thực hiện các cuộc gọi đến, gọi đi, nhằm mục đích thông báo các thông tin mới, quảng cáo hoặc xác nhận đơn hàng. Đối với khách hàng ở nhiều vùng miền khác nhau, các doanh nghiệp có thể tùy chọn giọng địa phương để phù hợp với từng đối tượng.

Tại Việt Nam, công nghệ Text to Speech được FPT.AI tích hợp vào giải pháp Trợ lý Ảo tổng đài, giúp các trung tâm tổng đài tự động hóa nhiều tác vụ chăm sóc khách hàng cơ bản. Thực tế, giải pháp Trợ lý Ảo tổng đài của FPT.AI đã được công ty Tài chính tiêu dùng Home Credit Việt Nam triển khai để thực hiện hàng trăm nghìn cuộc gọi nhắc lịch thanh toán tín dụng đến khách hàng.

Bất chấp thời gian nhân sự hạn chế bởi nghị định giãn cách xã hội khi dịch Covid-19 xảy ra, giải pháp này đã mang đến những kết quả đáng mừng cho doanh nghiệp. Cụ thể, trợ lý Ảo tổng đài Home Credit đã giúp doanh nghiệp tự động thực hiện khoảng 20.000 cuộc mỗi ngày, thời lượng mỗi cuộc gọi từ 1 đến 2 phút với tỉ lệ cuộc gọi thành công lên tới 98%.

Hay như Tổng công ty Điện lực miền Trung EVN CPC cũng đã mạnh dạn đổi mới và áp dụng công nghệ Text to Speech vào dịch vụ khách hàng, để thực hiện trả lời tự động qua tổng đài IVR thông báo về sự cố mất điện, thời gian cấp lại điện đến khách hàng trên địa bàn 13 tỉnh miền Trung.

Khi khách hàng gọi tới Tổng đài 19001909 của EVN CPC, “Trợ lý ảo AI” sẽ tự truy xuất dữ liệu từ phần mềm Chăm sóc khách hàng (CRM) để nhận diện, định danh khách hàng theo thông tin số điện thoại được đăng ký. Ngay khi khách hàng xác nhận thông tin chính xác, hệ thống sẽ tự động tra cứu phần mềm CRM, xác định địa chỉ của khách hàng có thuộc khu vực mất điện do sự cố lưới điện hay do lịch công tác trên lưới.

Kết quả, thông tin chi tiết theo dạng “Quý khách hàng Nguyễn Văn A địa chỉ tại…, thuộc khu vực mất điện do sự cố lưới điện/do kế hoạch công tác trên lưới điện… Thời gian dự kiến có điện vào lúc… ngày…” sẽ được hệ thống tạo lập từ việc ghép chính xác các thông tin (Text). Tiếp đó, được chuyển đổi thành file âm thanh để “nói chuyện”, trả lời khách hàng. Toàn bộ quá trình Text to Speech được “Trợ lí ảo AI” xử lý với tốc độ cao, gần như ngay lập tức đưa ra câu phản hồi khách hàng.

Theo đánh giá từ tổng công ty Điện lực miền Trung, sau giai đoạn đầu triển khai thực tế, hầu hết khách hàng đều hài lòng bởi tổng đài tự động cung cấp đúng và đủ tất cả các thông tin khách hàng cần. FPT.AI Text to Speech đã giúp Công ty điện lực miền Trung tiếp nhận và xử lí gần 46.000 cuộc gọi từ khách hàng trong vòng 6 tháng, tiết kiệm hơn 600 triệu đồng.

>>> CÓ THỂ BẠN QUAN TÂM: Hướng dẫn tạo giọng review phim siêu nhanh và miễn phí

2. Đọc báo điện tử, sách nói: Nhiều tớ báo điện tử, trang tin đã áp dụng công nghệ Text to Speech để đôi mắt được nghỉ ngơi.

Ví dụ, trang chuyên công nghệ của tập đoàn FPT – TechInsight đã tích hợp công nghệ FPT.AI Text to Speech được phát triển bởi ban Công nghệ tập đoàn. Với nhiều giọng đọc nam/nữ và đa dạng vùng miền, FPT.AI Text to speech đã mang đến cho các độc giả yêu thích công nghệ nhiều trải nghiệm mới mẻ.

chuyển văn bản thành giọng nói
TechInsight đã tích hợp công nghệ Text to Speech của FPT.AI để tối ưu trải nghiệm cho các độc giả

Các câu hỏi thường gặp khác về chuyển văn bản thành giọng nói

Tại sao nên chọn FPT.AI Voicemaker để chuyển văn bản thành giọng nói thay vì các giải pháp khác?

FPT.AI Voicemaker nổi bật nhờ khả năng chuyển đổi văn bản thành giọng nói tiếng Việt tự nhiên, đa dạng giọng đọc AI với vùng miền và giới tính, với khả năng truyền tải cảm xúc giống người thật. Ngoài ra, các tính năng như tùy chỉnh ngắt nghỉ và điều chỉnh phát âm từ khó mang lại sự linh hoạt tối đa cho người dùng. Giải pháp này được tối ưu hóa cho người Việt, đảm bảo chất lượng cao và tiết kiệm thời gian so với các công cụ nước ngoài.

Giọng chị Ban Mai là gì và vì sao lại được ưa chuộng trong việc chuyển văn bản thành giọng nói?

Giọng chị Ban Mai là giọng đọc AI nổi bật của FPT.AI Voicemaker, mang âm sắc nữ miền Bắc nhẹ nhàng và dễ nghe. Nhờ giọng tự nhiên, dễ truyền cảm, giọng chị Ban Mai được sử dụng rộng rãi trong các video review phim, đọc sách nói, và các nội dung thuyết minh ngắn trên các mạng xã hội như TikTok, Facebook và YouTube. Giọng đọc AI này giúp người sáng tạo nội dung truyền tải thông điệp một cách rõ ràng và gần gũi, thu hút người nghe mà không cần qua chỉnh sửa hậu kỳ phức tạp.

text to speech
Giọng chị Ban Mai – Bí quyết tạo nên những video review phim cuốn hút, tự nhiên và đầy cảm xúc!

FPT.AI có giới hạn số ký tự khi sử dụng giọng đọc AI miễn phí không?

Có, FPT.AI Voicemaker cung cấp miễn phí 100.000 ký tự mỗi tháng. Nếu có nhu cầu chuyển văn bản thành giọng nói nhiều hơn, người dùng cần mua thêm dung lượng. Điều này cho phép người dùng thử nghiệm và tận dụng giải pháp với các dự án nhỏ mà không lo về chi phí ban đầu.

Làm thế nào để tạo ra giọng đọc AI phù hợp cho đối tượng khách hàng của tôi?

Bạn có thể chọn giọng đọc AI miễn phí của FPT.AI dựa trên đặc điểm vùng miền (Bắc, Trung, Nam) và giới tính (nam/nữ) để phù hợp với sở thích của từng nhóm khách hàng. Tính năng nghe thử và tùy chỉnh ngữ điệu giúp bạn dễ dàng điều chỉnh để giọng đọc phù hợp và thu hút đối tượng mong muốn, dù đó là người trẻ tuổi trên mạng xã hội hay khách hàng lớn tuổi ở các vùng miền khác nhau.

FPT.AI có cung cấp tính năng điều chỉnh tốc độ và nhấn nhá trong giọng đọc AI không?

Có. FPT.AI Voicemaker hỗ trợ điều chỉnh tốc độ, thêm ngắt nghỉ, và dạy máy phát âm các từ khó. Nhờ vậy, người dùng có thể tạo giọng đọc linh hoạt, phù hợp với nội dung khác nhau như đối thoại, bài báo, hoặc thuyết minh phim, giúp giọng đọc truyền tải được cảm xúc và nhấn nhá như người thật.

FPT.AI có cung cấp API chuyển văn bản thành giọng nói cho doanh nghiệp không?

Có, FPT.AI cung cấp API Text to Speech để doanh nghiệp tích hợp trực tiếp vào hệ thống của mình. Với API này, các doanh nghiệp có thể tạo giọng đọc AI tùy chỉnh trong các ứng dụng như tổng đài tự động, trợ lý ảo, hoặc ứng dụng đọc sách báo, nâng cao hiệu quả trong việc tự động hóa và chăm sóc khách hàng.

_____________________________

? Trải nghiệm giải pháp FPT.AI Text to Speech của #FPT_AI tại: https://fpt.ai/vi/tts

? Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi

? Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội

☎ Hotline: 1900 638 399

? Email: [email protected]

>>>XEM THÊM VỀ CÔNG NGHỆ KHÁC:

Đánh giá

Bài viết liên quan

Cập nhật mọi tin tức mới nhất về công nghệ AI

Đăng ký nhận bản tin của FPT.AI để được phủ sóng mọi xu hướng công nghệ, câu chuyện thành công và phân tích của chuyên gia.