请先登录后使用该工具

该工具可能会消耗积分，请先登录后继续使用。

文字转语音

每 1,000 字符 10 积分

概述

文字转语音工具将输入的文本合成为自然语音音频，支持美式英语、英式英语、日语、中文、西班牙语、法语、印地语、意大利语、巴西葡萄牙语共 9 种语言，每种语言提供多个音色可选。生成的音频可在线播放或下载，英语支持词语级别的时间戳高亮。

文本长度上限与积分消耗

单次合成最多 10,000 个字符。中文字符每个算 1 个字符，英文单词的每个字母也各算 1 个字符。积分按每 1,000 字符计费，10,000 字符约等于中文 5,000 汉字或英文约 1,800 个单词，接近一篇中等篇幅的博客文章。

音频格式的选择

文件体积小，适合分享和嵌入网页
MP3 兼容性最广，几乎所有设备支持
AAC 在同等码率下音质略优于 MP3
OGG 开源格式，部分旧设备不支持

无损或未压缩，文件体积大
适合后期音频剪辑处理（需原始音质）
WAV 兼容性好，FLAC 体积比 WAV 小约 50%
PCM 为原始采样数据，多数播放器不能直接播放

语速调节范围

语速范围为 0.5 倍（约半速，语速非常慢）到 4.0 倍（约四倍速，极快）。1.0 为正常语速，1.3–1.5 倍通常是朗读音频的舒适上限，超过 2.0 倍速时发音清晰度会明显下降。

词语时间戳功能

开启词语时间戳后（仅限英语），生成语音的同时会返回每个单词的起止时间，播放时文本中对应单词会被高亮。适合制作跟读字幕、语言学习同步显示，或将生成语音嵌入需要文字同步的页面。仅英语支持此功能，其他语言选项为灰色不可选。

试听音色再生成

每个音色旁边有预览按钮，点击后会播放该音色的示例音频（约 3 秒），帮助在合成前判断音色风格是否合适。中文音色男女各有差异，建议通过预览选定后再输入完整文本生成，避免生成后发现音色不符合要求再重复消耗积分。