高度还原!火山语音MegaTTS算法秒级别生成你的专属AI声音!
创始人
2025-07-06 09:50:40
0

仅仅需要五秒钟就能复刻你的声音?

快来登录火山引擎官网在语音技术下的开放产品体验中心(https://www.volcengine.com/product/voicecloning)体验火山引擎声音复刻2.0版本的惊艳效果吧!

火山引擎声音复刻2.0采用了全新自研语音算法MegaTTS,经专业评测,声音复刻2.0版本与真人录音复刻的平均相似度已高达97.5%,不但超过一半的评测人员认为复刻合成效果与真并无任何差异,而且在金融客服、视频配音、智能语音助手、虚拟数字人等相关场景均可适用!

五秒钟复刻:极速获取高品质AI专属音色

传统技术下,通常声音复刻往往需要用户录制20-100句话,并训练几分钟甚至几小时后才可就绪,这样的“复刻门槛”往往让人缺乏耐心且质量也不尽如人意。

对此,火山引擎音色复刻2.0版本则在全面提升效果品质的同时,还攻克了录制量级及训练时长这两大难关。

其核心算法MegaTTS只需要五秒钟的数据量,就能对各种风格、口音以及声学环境下的音色进行克隆。同时MegaTTS算法具有大模型特有的In-context-learning能力,无需对用户音色进行Fine-tuning就能实现复刻。区别于传统的音色复刻模型,MegaTTS可以免除训练时长,即时极速复刻。

高度还原:平均相似度高达97.5%

此外MegaTTS算法还设计了基于注意力机制的细粒度无限长音色提示模块,以及基于大语言模型的韵律提示模块,在音色与韵律上都能够极高还原用户输入音频的发声特点。

在真实的评测和用户体验中,不但还原之后的平均相似度已高达97.5%,环境音也可以被完美重现。

值得提及的是,火山引擎声音复刻2.0版本为客户了提供多种接入方式,并支持云端接入和私有化集成。无论是在金融客服、视频配音、智能语音助手、虚拟数字人还是其他语音应用场景中都能快速接入。

语音大模型创新范式 MegaTTS将声音复刻带入新境界

火山引擎声音复刻2.0版本采用了火山语音团队全新自研语音算法MegaTTS,新一代算法仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。彻底攻克了传统声音复刻对录音数据量的依赖,超低门槛的数据输入即可获得超高品质的AI专属音色。

实验结果表明,当数据量在10秒到5分钟之间时,MegaTTS不仅可以在任意来源的新用户的短提示下合成保同语音,而且始终优于基于Fine-tuning的基线方法(Portaspeech 2)。

此外得益于音色和韵律独立建模的方式,火山语音的韵律语言模型可以以细粒度和可控的方式将各种说话风格转移到目标音色,甚至可以模仿Rap。未来这些功能也会陆续上线,为更多用户提供创作空间。

一直以来,火山语音团队不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上,并助力多家行业头部企业实现AI语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...