东坡下载:内容最丰富最安全的下载站!

帮助|文件类型库|最新更新|下载分类|排行榜

视频播放器视频制作格式转换光驱相关媒体其他音乐播放器铃声制作音频转换器视频直播视频解析音乐剪辑视频压缩

首页媒体工具音频转换器 → 小米OmniVoice声音克隆工具 0.1.4 安卓版

小米OmniVoice声音克隆工具

小米OmniVoice声音克隆工具0.1.4 安卓版

  • 大小:7.42G
  • 语言:中文
  • 平台:WinAll
  • 更新:2026-04-13 17:24
  • 等级:
  • 类型:音频转换器
  • 网站:暂无
  • 授权:免费软件
  • 厂商:
  • 产地:国产软件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
软件介绍软件截图相关软件软件教程网友评论下载地址

相关推荐: OmniVoice

    这两年AI技术全面渗透到各行各业,音频领域更是迎来革新,声音克隆工具成为音乐创作、短视频配音的刚需神器,市面上工具五花八门,今天给大家安利一款小米自研的,实测效果拉满!

    小米OmniVoice声音克隆工具

    OmniVoice是什么

    OmniVoice是一款先进的大规模多语言零样本文本转语音(TTS)模型,支持600多种语言。它基于一种新颖的扩散语言模型架构,能够生成高质量的语音,具有卓越的推理速度,并支持语音克隆和语音设计。

    OmniVoice主要特点

    支持600多种语言:零样本TTS模型中最广泛的语言覆盖范围(完整列表)。

    语音克隆:最先进的语音克隆质量。

    语音设计:通过指定的说话人属性(性别、年龄、音调、方言/口音、耳语等)控制语音。

    精细控制:非语言符号(例如,[laughter])和通过拼音或音素进行发音纠正。

    快速推理:RTF低至0.025(比实时快40倍)。

    扩散语言模型风格的架构:一种简洁、精简且可扩展的设计,兼顾质量和速度。

    如何使用OmniVoice

    安装部署:用户可通过pip命令或从GitHub克隆源码,执行安装命令完成OmniVoice的部署。

    快速体验:用户无需编写代码可通过启动本地Web服务或访问HuggingFace在线Demo来快速体验OmniVoice的语音合成效果。

    语音克隆:开发者可用PythonAPI加载预训练模型,通过提供参考音频和转写文本实现零样本语音克隆功能。

    音色设计:用户可通过自然语言描述说话人的性别、年龄、音调、口音等属性来直接设计生成特定的音色。

    命令行工具:系统支持通过命令行工具进行单条语音合成或跨多GPU的批量推理任务处理。

    细粒度控制:用户可在合成文本中插入特定标签来添加笑声、叹气等副语言表达,或使用拼音和音素符号纠正多音字及专有名词的发音。

    OmniVoice的关键信息和使用要求

    技术定位:OmniVoice是小米AI实验室开源的基于扩散语言模型的非自回归TTS系统,采用极简双向Transformer架构直接映射文本至多码本声学token,摒弃传统级联pipeline,支持600+语种的零样本语音克隆与合成。

    核心参数:模型拥有0.8B参数并基于Qwen3-0.6B初始化,基于58.1万小时开源语音数据训练覆盖646个语种,推理速度达RTF0.025(40倍实时),在中英文及多语言基准测试中的说话人相似度与可懂度指标均达到SOTA水平。

    功能边界:支持3-10秒参考音频的零样本语音克隆(含带噪/混响音频去噪)、基于性别/年龄/音调/方言/口音等属性的音色设计、以及通过标签和拼音/音素实现的副语言控制与发音纠正。

    硬件环境:需要支持CUDA的NVIDIAGPU(推荐H800/H20以发挥最佳性能)或支持MPS的AppleSilicon设备来运行模型推理。

    软件依赖:需在Python虚拟环境中安装PyTorch(匹配CUDA版本)并通过pip或源码安装omnivoice包满足运行依赖。

    OmniVoice的核心优势

    架构极简高效:采用单阶段非自回归扩散语言模型架构,用一个双向Transformer直接映射文本至多码本声学token,消除传统级联pipeline的误差传播与信息瓶颈,实现架构简洁性与性能的双重突破。

    语言覆盖最广:基于58.1万小时开源数据训练,支持600+语种的零样本语音合成,在低资源小语种上仍保持极低字错误率,是目前语言覆盖范围最广的TTS模型。

    推理速度极快:通过全码本随机masking策略与高效架构设计,实现RTF低至0.025的推理速度,即40倍快于实时,显著优于自回归模型。

    音质与可懂度SOTA:借助LLM初始化继承预训练语言知识,在LibriSpeech-PC、Seed-TTS等基准测试中,说话人相似度(SIM-o)与可懂度(WER)均超越现有非自回归模型及商用系统。

    多维可控能力:支持零样本语音克隆、基于属性的音色设计、带噪音频去噪、副语言符号(笑声/叹气)插入及拼音/音素级发音纠正,满足复杂场景下的细粒度控制需求。

    更新日志

    发生了哪些变化?

    修复:infer_batch中的指令@Pastells在第72号

    文档:通过以下方式将omnivoice-server添加到社区项目@maemreyo第42号

    修复:缺少ref_text或ref_audio_path参数的batch_inference@Pastells第70号

    文档:恢复omnivoice-server对社区项目的支持(强制推送后)@maemreyo第80号

    修复infer_batch.py以支持混合模式58cf379

    请使用soundfile+librosa代替torchaudio以避免某些设备上出现问题4f4b0cc

    将文本31b8a4d中的中文括号替换为英文括号。

    在README8ede7ac中添加更多提示

    添加GoogleColab示例9361466

    PC官方
    安卓官方手机版
    IOS官方手机版

    小米OmniVoice声音克隆工具截图

    下载地址

    小米OmniVoice声音克隆工具 0.1.4 安卓版

    热门评论
    最新评论
    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)

    编辑推荐

    报错

    请简要描述您遇到的错误,我们将尽快予以修正。

    转帖到论坛
    轮坛转帖HTML方式

    轮坛转帖UBB方式