2月17日,在OpenAI拿出文生视频Sora、谷歌拿出最强聊天机器人Gemini后,亚马逊发布了目前最强的AI语音生成模型BASE TTS,能够学习模拟多语言的说话人,在超过10万小时的公共语音数据进行训练,参数达到10亿规模,标志着语音合成领域的重大突破!
得益于海量数据的训练,BASE TTS模型能够生成更加逼真、自然的语音,使用 10 万小时的音频数据进行训练,与真人语音之间的差距不断缩小,亚马逊直接将AI语音生成模型的规模推到10亿参数级别,相当于此前最大 TTS 模型参数规模的 10 倍,这标志着 TTS 领域迈入了新的里程碑!
BASE TTS同样是基于LLM的Transformer的自回归模型,泛化能力更强,能够适应不同语境和风格的文本,支持英语、中文、西班牙语等世界主流语言,亚马逊提出了一种新的 TTS 模型架构,利用新型的离散语音表示法,能够在高压缩率下保持高质量的语音合成。
论文中,亚马逊还特别强调BASE TTS也出现了像ChatGPT、Sora等模型拥有的智能“涌现”能力,亚马逊开发了一个“涌现能力”测试集,专门用于评估大规模 TTS 模型文本理解和渲染的能力,目前BASE TTS 模型在语音质量、泛化能力和多语言能力方面均取得了显著的提升。
从技术上看,亚马逊TTS代表着文本生成语音领域的重大突破,但是在现实生活中,也会造成不必要的困扰,BASE TTS模型能够生成非常逼真的语音,这也非常容易拿来造假,亚马逊因担心BASE TTS被不法分子使用,仅提供给学校或者商业公司的研究人员,暂时不会对公众开放。
ChatGPT:
聊天机器人——ChatGPT全网爆红,马斯克惊叹夸赞!
聊天机器人——ChatGPT小白注册教程,勿被电商割韭菜!
ChatGPT移动端——使用教程,5分钟注册iOS账号!
ChatGPT王炸官宣——仅需2.7美元,即可输出100万词!
火爆全网——AI生成的漂亮小姐姐,形象逼近真人!
英伟达重磅:AI读取视频,可直出3D游戏模型!
黄仁勋:给AI圈一点小小的英伟达震撼,11分钟训练ChatGPT!
ChatGPT免费开源平替——200亿参数,前OpenAI团队打造!
ChatGPT王炸升级——可识别图片,考试成绩超九成人类!
ChatGPT史诗升级——1秒生成网站,看图玩梗能力堪比真人!
ChatGPT加强版——60秒生成弹球游戏,零基础也能开发游戏!
ChatGPT王炸官宣——正式解除封印,接入互联网开放插件!
ChatGPT重磅升级——新增函数功能,价格大幅下降!
ChatGPT:预计3亿人将失业,斯坦福封神开源GPT平替版!
ChatGPT突发:iOS版应用上线,冲到总榜第二!
ChatGPT之父:重磅推出世界币,将成为AI时代“身份证”!
ChatGPT之父:奥特曼没有公司股份,因为热爱创造了GPT!
ChatGPT:微软联手奥特曼,重磅投资核聚变发电!
游戏界大变天:斯坦福最新成果,AI角色可模拟真人小镇!
人工智能“觉醒”:自主学习,AutoGPT会颠覆ChatGPT吗?
ChatGPT最强挑战者:谷歌Claude,免注册支持中文!
ChatGPT最强竞品:谷歌免费升级克劳德,20秒逆天速通百页论文!
ChatGPT:显卡每日电费500万,谷歌大脑合并阿尔法狗母公司!
ChatGPT:玩转《我的世界》,北京大学强化学习攻克复杂任务!
ChatGPT:成功让AI听懂人话,学会与人类合作!
ChatGPT:7分钟开发一款游戏,成本仅0.3美元!
OpenAI重磅突破:用AI学习AI,开创人工智能新道路!
OpenAI王炸——AI绘画集成ChatGPT,“大力3”来了!
微软重磅官宣:GPT-4接入Win11,下周二免费推送更新!
乔布斯剧本:奥特曼被OpenAI开除,美女工程师接任!
奥特曼回归?OpenAI员工施压希望召回奥特曼!
奥特曼宣布:加入微软,光速跳槽甲方!
奥特曼回归:OpenAI上演“宫斗”大结局!
GPT商店上线:“AI女友”机器人成热门应用!
OpenAI新模型:会冲击影视行业吗?技术解读
OpenAI新模型:会颠覆游戏行业吗?技术解读
#免责声明#
①本站部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责。
②若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
③如果本站有侵犯、不妥之处的资源,请联系我们。将会第一时间解决!
④本站部分内容均由互联网收集整理,仅供大家参考、学习,不存在任何商业目的与商业用途。
⑤本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与任何商业和非法行为,请于24小时之内删除!