使用说明
Generated by AI
声音克隆
使用 AI 技术克隆您的声音并生成自然语音的在线工具。上传一段音频样本,输入想要朗读的文本,即可生成与原声音高度相似的语音。支持多种语言和丰富的参数调节,适用于配音、有声读物、语音助手等场景。
功能特点
声音克隆
上传包含您声音的音频文件,工具会分析音色、语调、语速等特征,建立声音模型。然后可以用这个模型朗读任意文本,生成的语音会保持原声音的特点。
支持的音频格式:
- MP3:常见压缩音频格式
- WAV: 无损音频格式,推荐使用
- M4A: Apple 设备常用格式
- OGG: 开源音频格式
自动转录
如果不确定音频文件的内容,可以留空文本框。工具会自动识别音频中的语音内容并转录为文字,然后使用克隆的声音重新生成。这个功能适合想要提升音频质量或修改说话风格的场景。
多语言支持
克隆的声音可以朗读不同语言的文本,不局限于原音频的语言。例如使用中文声音样本,也可以生成英文、日文等语言的语音。
参数调节
提供 11 个高级参数,可以精细控制生成效果:
创意与多样性
- 温度 (0-2):控制生成的随机性,默认 0.8。数值越高,声音变化越丰富,但可能偏离原声;数值越低,声音越稳定一致
- 核采样概率 (0-1):控制词语选择的集中度,默认 0.8。越低越保守,越高越多样
- 采样范围 (1-200):每次选词时考虑的候选数量,默认 30
情感表现
- 情感强度 (0-1):控制语音的情感表现力,默认 1。越高语音越生动富有感情,越低越平淡
- 随机化情感:为语音添加自然的情感起伏变化,让声音更接近真人
质量控制
- 束搜索宽度 (1-8):影响生成质量,默认 3。越高质量越好但速度越慢
- 重复惩罚 (1-30):防止词语或音节重复,默认 10。越高越能避免重复
- 长度惩罚 (0-5):影响生成音频的长度,默认 0
分段设置
- 最大音频标记 (256-4096):限制单次生成的音频长度,默认 1500
- 间隔静音 (0-2000 毫秒):片段之间的停顿时间,默认 200 毫秒
- 每段最大文本标记 (32-300):每个片段包含的文字数量,默认 120
在线播放和下载
生成的音频可以在页面上直接播放预听,也可以下载保存为 MP3 文件,文件名会保留原音频文件名并添加"voice-cloning"前缀。
使用方法
基础使用
- 上传音频样本
- 点击上传区域选择音频文件
- 支持 MP3、WAV、M4A、OGG 格式
- 推荐使用清晰、无背景噪音的录音
- 建议时长 5-30 秒
- 输入文本
- 在文本框中输入想要朗读的内容
- 支持中文、英文及其他语言
- 可输入多行文本或段落
- 留空则自动转录音频内容
- 生成语音
- 点击"克隆声音"按钮
- 等待处理完成
- 如果启用了自动转录,会显示"转录并克隆中..."
- 播放和下载
- 生成完成后会显示音频播放器
- 点击播放按钮试听效果
- 点击下载按钮保存音频文件
使用高级参数
- 点击"高级选项"面板展开参数设置
- 根据需求调整各项参数:
- 想要声音更稳定,降低温度和核采样概率
- 想要声音更生动,提高情感强度并启用随机化情感
- 想要更高质量,增加束搜索宽度
- 避免重复问题,提高重复惩罚
- 调整完成后点击"克隆声音"重新生成
自动转录模式
- 上传音频文件后,不输入任何文本
- 直接点击"克隆声音"
- 工具会自动识别音频中的语音,转录为文字,使用克隆声音重新生成
- 适合想要保留内容但改善音质的场景
应用场景
内容配音
为视频、演示文稿或教学内容配音。使用克隆的声音可以保持音色一致,即使在不同时间录制也能保证统一的听感。
有声读物制作
将文章、小说转换为有声版本。使用自己的声音克隆可以创建个性化的有声书,或为他人定制专属的朗读版本。
多语言内容
使用母语声音样本,生成其他语言的语音内容。适合需要多语言版本但希望保持声音一致性的场景。
语音修复
改善现有录音的质量或修正发音错误。通过转录和重新生成,可以消除背景噪音、口误等问题。
虚拟角色配音
为游戏、动画或虚拟助手创建独特的声音。克隆特定声音后可以生成大量台词,无需反复录音。
使用技巧
获得最佳效果
选择优质音频样本
- 使用清晰的录音,避免背景噪音和回声
- 说话音量稳定,不要忽大忽小
- 语速适中,不要过快或过慢
- 发音清晰标准,避免含糊不清
- 建议时长 10-20 秒,包含完整句子
优化文本输入
- 使用正确的标点符号,帮助生成自然的停顿
- 较长文本建议分段处理,每次生成 1-2 段
- 数字建议用文字形式(如"十"而非"10")
- 特殊词汇标注拼音或音译
参数调节建议
追求稳定质量
- 温度:0.6-0.8
- 核采样概率:0.7-0.8
- 束搜索宽度:4-6
- 重复惩罚:10-15
追求生动表现
- 温度:0.9-1.2
- 情感强度:0.8-1.0
- 启用随机化情感
- 核采样概率:0.8-0.9
处理长文本
- 增加每段最大文本标记到 200-250
- 调整间隔静音到 300-500 毫秒
- 分段处理,每次不超过 500 字
避免重复问题
- 提高重复惩罚到 15-20
- 降低温度到 0.7 以下
- 调整采样范围到 20-40
注意事项
- 音频样本质量直接影响克隆效果,建议使用高质量录音
- 自动转录需要额外时间,长音频可能需要等待较久
- 克隆声音仅供个人使用,请勿用于冒充他人或非法用途
- 生成的语音质量受多种因素影响,无法保证完全一致
- 某些特殊音色或方言可能克隆效果较差
- 长文本建议分段生成,避免一次性生成过长音频
- 参数调节需要多次尝试才能找到最佳组合
- 温度过高可能导致声音失真或不稳定
- 束搜索宽度过大会显著增加处理时间
- 不同语言的克隆效果可能有差异
- 生成的音频文件会在页面刷新后失效,请及时下载
- 请尊重他人的声音版权,不要克隆他人声音用于商业用途
- 网络不稳定可能导致上传或生成失败