FPT.AI Voicemaker là nền tảng tiên tiến, sử dụng công nghệ Text to Speech (TTS) để mang đến những bản ghi âm tự nhiên. Hỗ trợ 2 ngôn ngữ (Tiếng Việt, Tiếng Anh), Voicemaker không chỉ đáp ứng nhu cầu chuyển văn bản thành giọng nói mà còn cung cấp các công cụ chỉnh sửa chuyên sâu như dạy máy phát âm từ khó, thay thế từ/cụm từ nhanh chóng và thêm thời gian nghỉ giữa các câu để tạo ra trải nghiệm nghe chân thật nhất. Sau đây chúng tôi sẽ hướng dẫn cách sử dụng Text to Speech trên nền tảng AI Voice Maker của FPT.AI.
Hướng dẫn thiết lập các tính năng chuyển văn bản thành giọng nói
Để thiết lập các tính năng chuyển văn bản thành giọng nói trên FPT.AI Voicemaker, đầu tiên, bạn phải có tài khoản FPT ID. Nếu chưa có tài khoản, đăng kí tài khoản tại đây: https://id.fpt.ai/accounts/signin/?next=/accounts/profile/
Tiếp theo, truy cập https://console.fpt.ai để tạo sự Project (Dự án), API Key và Kích hoạt dự án.
Sau đó, truy cập: https://voicemaker.fpt.ai/ để bắt đầu chuyển văn bản thành giọng nói.
>>>> ĐỌC THÊM: Generative AI là gì? Xu hướng công nghệ AI tạo sinh 2024
Chọn ngôn ngữ
FPT.AI Voicemaker hỗ trợ 2 ngôn ngữ là Tiếng Anh và Tiếng Việt. Click vào biểu tượng địa cầu trên góc phải màn hình để chọn ngôn ngữ sử dụng.
Chọn dự án chuyển văn bản thành giọng nói
Bạn phải chọn một dự án (Project) để bắt đầu chuyển văn bản thành giọng nói với FPT.AI Voicemaker.
- Nếu đã có dự án, click vào (1) để chọn dự án. Chọn 1 trong các dự án đã tạo ở (2)
- Nếu chưa có dự án, bạn phải tạo dự án mới bằng cách click vào Create new Project (3). Bạn sẽ được link sang trang console.fpt.ai.
FPT.AI Console là nền tảng quản lý và nắm bắt thông số về mọi dịch vụ của FPT.AI. Tại đây, bạn có thể thiết lập một dự án mới. Sau đó bạn quay lại trang Voicemaker.fpt.ai để tiếp thục thực hiện dự án của mình.
Dán link trang web cần chuyển văn bản thành giọng nói
Dán link trang web bất kì cần chuyển văn bản thành giọng nói vào ô URL. Ấn Xử lý để hệ thống bóc tách phần chữ cần chuyển đổi trong trang web.
Nghe thử và chọn giọng đọc
Nghe thử và chọn giọng đọc phù hợp ở cột bên phải giao diện.
Nền tảng chuyển văn bản thành giọng nói FPT.AI Voicemaker hiện đang sở hữu 8 giọng đọc chất lượng cao, đa dạng vùng miền (Bắc – Trung – Nam), giới tính (Nam/Nữ), đáp ứng nhiều nhu cầu và mục đích sử dụng khác nhau của khách hàng.
Tùy chỉnh văn bản đọc
Sau khi đã thiết lập giọng đọc chính cho cả văn bản với tốc độ phù hợp, bạn có thể tiến hành chỉnh sửa văn bản đọc với các tính năng chuyên biệt và cụ thể hơn, để tạo ra một file âm thanh chất lượng cao, chuyển văn bản thành giọng nói có cảm xúc đúng với nhu cầu sử dụng.
>>> CÓ THỂ BẠN QUAN TÂM: Hướng dẫn tạo giọng review phim siêu nhanh và miễn phí
Hướng dẫn cài đặt tính năng chuyển văn bản thành giọng nói chuyên sâu
Từ điển
Với từ điển, bạn có thể dạy máy phát âm các từ khó, từ nước ngoài bằng cách phiên âm sang cách đọc tiếng Việt. Chẳng hạn, trong bài báo xuất hiện danh từ riêng Mark Zuckerberg. Đây là một từ khó, máy sẽ đọc sai hoặc đọc không hay. Bạn có thể phiên âm cách đọc Việt hóa đúng nhất, sau đó ấn Thêm để dạy máy đọc theo đúng ý bạn.
Thêm thời gian nghỉ
Các giọng đọc của FPT.AI Voicemaker đều có sự ngắt nghỉ tự nhiên, nhịp nhàng như giọng đọc thật của con người. Tuy nhiên, với những đoạn bạn muốn máy nghỉ lâu hơn, bạn có thể thiết lập tính năng thêm thời gian nghỉ.
Để con trỏ sau từ bạn muốn thêm thời gian nghỉ, ấn nút Nghỉ, sau đó điều chỉnh thời gian nghỉ phù hợp với nhu cầu sử dụng bằng cách điền thời gian vào ô Break time.
Chọn giọng đọc AI khác
Trong cùng một bài đọc, bạn có thể sẽ cần nhiều giọng đọc khác nhau để đối thoại, chuyển văn bản thành giọng nói có cảm xúc hoặc làm nổi bật câu trích dẫn. Bạn có thể cài đặt giọng đọc khác bằng cách bôi đen đoạn cần sử dụng giọng đọc khác, click vào nút Giọng, sau đó chọn giọng đọc và điều chỉnh tốc độ tùy theo nhu cầu sử dụng.
Tìm kiếm và thay thế
Để tìm kiếm một từ/cụm từ trong đoạn văn bản, nhập từ đó vào ô Tìm kiếm và ấn Tìm. Văn bản sẽ bôi đậm tất cả các từ/cụm từ đó trong văn bản.
Bạn có thể thay thế từ đó bằng cách nhập từ thay thế vào ô Thay thế. Ấn nút Thay thế để thay thế từng từ như sau:
Hoặc bạn có thể ấn nút Thay thế Tất cả để thay thế hàng loạt.
Ở ví dụ trên, tôi đã thay thế từ “Gates” thành “Mark” và ấn Thay thế để thay thế từng từ một. Ngoài ra, để bỏ chọn các từ/cụm từ bạn tìm kiếm (các từ được bôi đậm), chọn nút Xóa.
Chọn giọng đọc và nghe thử
Để nghe thử một từ, cụm từ hoặc một đoạn văn bản, bạn bôi đen từ/cụm từ hoặc đoạn văn bản đó, chọn Giọng, chọn Tốc độ đọc và ấn Nghe thử.
Undo và Redo
Để khôi phục lại một thao tác vừa thực hiện, bạn có thể nhấn vào biểu tượng nút Undo (1) trên thanh công cụ.
Để thực hiện lại các thao tác đã Undo thì nhấn vào nút Redo (2).
Tải file audio
Để tải file audio, ấn vào nút Tải xuống MP3.
Xem lịch sử
Để xem lại lịch sử hoạt động, ấn vào nút Lịch sử.
Tại đây bạn sẽ xem được các thông tin về thời gian tạo, yêu cầu, trạng thái và đường link tải file.
Mua thêm lưu lượng sử dụng
FPT.AI Voicemaker tặng bạn miễn phí 100.000 kí tự/tháng. Tuy nhiên, nếu có nhu cầu sử dụng lưu lượng nhiều hơn hoặc muốn tốc độ chuyển đổi cao hơn, bạn có thể mua thêm các gói trả phí bằng cách ấn vào chữ Mua thêm.
Click vào gói dịch vụ chuyển văn bản thành giọng nói và thực hiện thanh toán theo hướng dẫn.
>>> XEM THÊM: Thông báo giao dịch bằng giọng nói – Xu thế tất yếu của Ngân hàng số
Những ứng dụng nổi bật của FPT.AI Voicemaker
Hiện nay, nền tảng chuyển văn bản thành giọng nói FPT.AI Voicemaker được ứng dụng nhiều trong lĩnh vực dịch vụ, mang tới sự tiện lợi cho người dùng như:
Tổng đài chăm sóc khách hàng tự động
FPT.AI Voicemaker được tích hợp vào giải pháp Trợ lý Ảo tổng đài. Đối với khách hàng ở nhiều vùng miền khác nhau, các doanh nghiệp có thể tùy chọn giọng địa phương để phù hợp với từng đối tượng.
Công ty Tài chính tiêu dùng Home Credit Việt Nam đã sử dụng Trợ lý ảo của FPT.AI để nhắc lịch thanh toán tín dụng cho khách hàng. Bất chấp thời gian nhân sự hạn chế bởi nghị định giãn cách xã hội khi dịch Covid-19 xảy ra, giải pháp này đã giúp Home Credit tự động thực hiện khoảng 20.000 cuộc mỗi ngày, thời lượng mỗi cuộc gọi từ 1 đến 2 phút với tỉ lệ cuộc gọi thành công lên tới 98%.
>>> XEM THÊM: Callbot là gì? Ưu điểm khi ứng dụng callbot trong công việc
Tổng công ty Điện lực miền Trung EVN CPC cũng đã mạnh dạn áp dụng công nghệ chuyển văn bản thành giọng nói của FPT.AI để thông báo về sự cố mất điện, thời gian cấp lại điện đến khách hàng trên địa bàn 13 tỉnh miền Trung qua tổng đài IVR.
Khi khách hàng gọi tới Tổng đài 19001909 của EVN CPC, Trợ lý ảo AI sẽ tự truy xuất dữ liệu từ phần mềm Chăm sóc khách hàng (CRM) để nhận diện, định danh khách hàng theo thông tin số điện thoại được đăng ký. Ngay khi khách hàng xác nhận thông tin chính xác, hệ thống sẽ tự động tra cứu phần mềm CRM, xác định địa chỉ của khách hàng có thuộc khu vực mất điện do sự cố lưới điện hay do lịch công tác trên lưới.
Kết quả, thông tin chi tiết theo dạng “Quý khách hàng Nguyễn Văn A địa chỉ tại…, thuộc khu vực mất điện do sự cố lưới điện/do kế hoạch công tác trên lưới điện… Thời gian dự kiến có điện vào lúc… ngày…” sẽ được hệ thống tạo lập từ việc ghép chính xác các thông tin (Text). Tiếp đó, văn bản này sẽ được chuyển đổi thành file âm thanh để “nói chuyện”, trả lời khách hàng. Toàn bộ quá trình chuyển văn bản thành giọng nói được Trợ lí ảo AI xử lý với tốc độ cao, gần như ngay lập tức đưa ra câu phản hồi khách hàng.
Theo đánh giá từ tổng công ty Điện lực miền Trung, sau giai đoạn đầu triển khai thực tế, hầu hết khách hàng đều hài lòng bởi tổng đài tự động cung cấp đúng và đủ tất cả các thông tin khách hàng cần. FPT.AI Text to Speech đã giúp Công ty điện lực miền Trung tiếp nhận và xử lí gần 46.000 cuộc gọi từ khách hàng trong vòng 6 tháng, tiết kiệm hơn 600 triệu đồng.
Đọc báo điện tử, sách nói
Với sự phát triển của công nghệ Text to Speech, ngành công nghiệp sách nói đang trở nên rất phổ biến. Các sách điện tử có thể dễ dàng chuyển thành phiên bản audio mà không cần phải thu âm thủ công. Điều này mang lại các lợi ích như sau:
- Dễ dàng tiếp cận: Những người có ít thời gian, ví dụ như tài xế, nhân viên văn phòng hay người cao tuổi, có thể nghe sách trong khi làm việc hoặc di chuyển.
- Tiện lợi cho người khiếm thị: Người khiếm thị có thể tiếp cận tài liệu văn học và sách giáo khoa thông qua ứng dụng sách nói.
- Chất lượng âm thanh: Giọng đọc chuẩn và tự nhiên giúp người nghe dễ dàng theo dõi nội dung mà không cảm thấy mệt mỏi.
Trang chuyên công nghệ của tập đoàn FPT – TechInsight đã sử dụng nền tảng ứng dụng công nghệ Text to Speech của FPT.AI. Với nhiều giọng đọc nam/nữ và đa dạng vùng miền, FPT.AI Voicemaker đã mang đến cho các độc giả yêu thích công nghệ nhiều trải nghiệm mới mẻ.
Trợ lý ảo và Chatbot thông minh
Trợ lý ảo (ví dụ như Siri, Google Assistant, Alexa) đang ngày càng trở nên phổ biến trong việc cung cấp dịch vụ khách hàng và hỗ trợ người dùng. Với khả năng tương tác bằng giọng nói, các trợ lý ảo có thể thực hiện nhiều nhiệm vụ như:
- Đọc thông báo, tin nhắn và email.
- Cung cấp thông tin dự báo thời tiết, giao thông hay tin tức.
- Điều khiển các thiết bị thông minh trong nhà.
Điều này không chỉ nâng cao sự tiện lợi cho người dùng mà còn giúp các doanh nghiệp cải thiện chất lượng dịch vụ khách hàng mà không cần sự can thiệp của con người.
>>> XEM THÊM: Nhận diện giọng nói là gì? Đâu là 3 ứng dụng nổi bật của ASR?
Tạo nội dung quảng cáo và video tự động
Tạo nội dung quảng cáo một cách tự động mà không cần phải ghi âm thủ công là cách doanh nghiệp ứng dụng Text to Speech trong lĩnh vực truyền thông. Các video quảng cáo, các bài viết, các video hướng dẫn sử dụng sản phẩm trên blog, trang web hay mạng xã hội có thể được chuyển đổi thành dạng âm thanh một cách rõ ràng và dễ hiểu, giúp doanh nghiệp tiếp cận đối tượng khách hàng mới hoặc những người ít có thời gian để đọc.
Thuyết minh, lồng tiếng phim tự động
Công nghệ chuyển văn bản thành giọng nói giúp tạo ra các bản thuyết minh, lồng tiếng cho video, phim, chương trình truyền hình mà không cần sử dụng diễn viên lồng tiếng trực tiếp. Người dùng có thể điều chỉnh tốc độ, âm lượng và ngắt nghỉ giữa các câu, dạy máy phát âm các từ khó, phiên âm từ ngữ chuyên ngành hoặc ngữ âm đặc biệt để tạo bản lồng tiếng theo ý muốn.
Text to Speech giúp các kênh YouTube, các nhà sản xuất video giáo dục và các nền tảng phát thanh, truyền hình tiết kiệm chi phí, tăng tốc độ sản xuất nội dung, dễ dàng cập nhật, chỉnh sửa mà không cần thu âm lại toàn bộ. Công nghệ này cũng hỗ trợ chuyển văn bản thành giọng nói theo nhiều ngôn ngữ khác nhau, mở rộng khả năng tiếp cận và thu hút khán giả toàn cầu.
>>> XEM THÊM: Interactive Voice Response là gì? Ứng dụng & lợi ích của IVR trong các tổng đài cuộc gọi
Các câu hỏi thường gặp khác về công nghệ chuyển văn bản thành giọng nói
Giọng chị Ban Mai là gì và vì sao nó lại được ưa chuộng?
Giọng chị Ban Mai (hay còn được biết đến như là giọng chị Google) là giọng đọc AI nổi bật của FPT.AI Voicemaker, mang âm sắc nữ miền Bắc nhẹ nhàng, tự nhiên, truyền cảm và dễ nghe. Giọng Ban Mai được sử dụng rộng rãi trong các video review phim, sách nói và các nội dung thuyết minh ngắn trên các mạng xã hội như TikTok, Facebook và YouTube. Giọng đọc AI này giúp người sáng tạo nội dung truyền tải thông điệp một cách rõ ràng và gần gũi, thu hút người nghe mà không cần chỉnh sửa hậu kỳ phức tạp.
Làm thế nào để tạo ra giọng đọc AI phù hợp cho đối tượng khách hàng của tôi?
Bạn có thể chọn giọng đọc AI miễn phí của FPT.AI dựa trên đặc điểm vùng miền (Bắc, Trung, Nam) và giới tính (nam/nữ). Tính năng nghe thử và tùy chỉnh ngữ điệu giúp bạn dễ dàng điều chỉnh để giọng đọc phù hợp và thu hút đối tượng mong muốn, dù đó là người trẻ tuổi trên mạng xã hội hay khách hàng lớn tuổi ở các vùng miền khác nhau.
FPT.AI có cung cấp tính năng điều chỉnh tốc độ và nhấn nhá trong giọng đọc AI không?
Có. Lợi ích của chuyển văn bản thành giọng nói trên nền tảng FPT.AI Voicemaker là khẳ năng điều chỉnh tốc độ, thêm ngắt nghỉ và dạy máy phát âm các từ khó. Nhờ vậy, người dùng có thể tạo giọng đọc linh hoạt, phù hợp với nội dung khác nhau như đối thoại, bài báo, hoặc thuyết minh phim, chuyển văn bản thành giọng nói có cảm xúc và nhấn nhá như người thật.
Như vậy, với FPT.AI Voicemaker, bạn có thể dễ dàng chuyển văn bản thành giọng nói tự nhiên và chân thực, đồng thời tùy chỉnh theo nhu cầu sử dụng một cách linh hoạt và chính xác. Việc áp dụng công nghệ chuyển văn bản thành giọng nói (Text to Speech) không chỉ giúp tiết kiệm thời gian mà còn tối ưu hóa hiệu quả giao tiếp trong các dịch vụ khách hàng tự động. Hãy tận dụng hướng dẫn sử dụng Text to Speech trên để trải nghiệm sự tiện ích mà FPT.AI Voicemaker mang lại và nâng cao chất lượng công việc của bạn.
_____________________________
? Trải nghiệm giải pháp FPT.AI Text to Speech của #FPT_AI tại: https://fpt.ai/vi/tts
? Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi
? Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội
☎ Hotline: 1900 638 399
? Email: [email protected]
>>>XEM THÊM VỀ CÔNG NGHỆ KHÁC:
- Xử lý ngôn ngữ tự nhiên là gì? 3 Ứng dụng thực tế của NLP
- AI Agents là gì? Sự khác biệt giữa AI Agents và AI Chatbot