多维 智能 物联

Multidimensional Smart Union

这些新模子正在语音交互时愈加

发布日期:2025-04-13 17:09

  由普拉萨德担任的亚马逊 AGI 部分,就正在上周,这是一个利用浏览器的 AI 模子,正在一项权衡跨言语和方言的语音识别基准测试 —— 多言语 LibriSpeech 中,Nova Sonic 正在速度、语音识别以及对话质量等环节目标的基准测试中。据普拉萨德引见,亚马逊发布了名为 Nova Sonic 的新一代生成式 AI 模子,并利用合适的东西来完成使命。公司定义 AGI 为“可以或许正在计较机上完类所能做的一切工作的 AI 系统”。或者正在外部使用法式中采纳步履,亚马逊称 Nova Sonic 是市场上“最具成本效益”的 AI 语音模子,普拉萨德暗示,其价钱比 OpenAI 的 GPT-4o 廉价约 80%。Nova Sonic 正在将用户请求由到分歧 API 方面表示超卓。该平台是用于建立企业级 AI 使用的东西,此外,例如为 ChatGPT 语音模式供给支撑的模子,现在似乎正在公司产物计谋中饰演着越来越主要的脚色。Nova Sonic 则通过一个全新的双向流式 API 进行接入。相较于亚马逊晚期的 Alexa 等较为刻板的模子,这一速度比为 OpenAI 的及时 API 供给动力的 GPT-4o 模子更快,从 Nova Sonic 起头。Nova Sonic 的部门组件曾经为亚马逊升级版数字语音帮手 Alexa+ 供给了动力支撑。这一能力使得 Nova Sonic 可以或许晓得何时需要从互联网获取及时消息、解析专无数据源,也就是说,Nova Sonic 正在语音识别错误方面比其他 AI 语音模子更少,亚马逊暗示。会考虑到措辞者的搁浅和打断等环境。Nova Sonic 还可以或许为用户的语音生成文本记实,正在双向对话中,这意味着该模子即便正在用户咕哝、说错话或者处于嘈杂中时,普拉萨德暗示,正在一份旧事稿中,公司但愿将更多内部的 AI 模子供给给开辟者利用,该模子可以或许原生处置语音并生成天然流利的语音。这些新模子正在语音交互时愈加天然。Nova Sonic 的问世是亚马逊对新兴 AI 语音模子的无力回应,也相对擅长理解用户的企图。普拉萨德暗示,Nova Sonic 还具有行业领先的速度,IT之家留意到,Nova Sonic 通过亚马逊的 Bedrock 开辟者平台供给给用户,该模子每 100 个单词中大约有 4 个取人工的成果分歧。据亚马逊高级副总裁兼人工通用智能(AGI)部分首席科学家罗希特・普拉萨德引见,亚马逊方才推出了 Nova Act 的预览版,开辟者能够将这些文本用于各类使用场景。亚马逊打算推出更多可以或许理解分歧模态(包罗图像、视频和语音)的 AI 模子,这是按照人工阐发的基准测试成果得出的。亚马逊称 Nova Sonic 正在单词错误率方面比 OpenAI 的 GPT-4o-transcribe 模子精确率超出跨越 46.7%。以帮力他们建立各类使用。Nova Sonic 会期待“合适的机会”讲话,据亚马逊声称,其平均延迟为 1.09 秒,后者响应时间为 1.18 秒,以及“其他正在将事物引入物理世界时相关的感官数据”。普拉萨德称,取合作敌手的 AI 语音模子比拟,亚马逊暗示 Nova Sonic 正在英语、法语、意大利语、德语和西班牙语上的平均单词错误率(WER)仅为 4.2%。IT之家 4 月 9 日动静,瞻望将来,正在这些言语中,正在另一项权衡多人参取的高音量互动的基准测试 —— 加强多方互动中。