1月1日,据The Information报道,OpenAI过去两个月内整合工程、产品和研究力量,集中攻克音频交互的技术瓶颈,目标打造一款可通过自然语音指令操作的消费级设备。
公司内部研究人员认为,当前ChatGPT的语音模型在准确性和响应速度上均落后于文本模型,且两者使用的底层架构并不相同。
据报道,新语音模型将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力,这是现有模型无法实现的关键特性,计划2026年第一季度发布。
从[url=]Meta[/url]为Ray-Ban智能眼镜配备五麦克风阵列增强听力,到[url=]特斯拉[/url]将xAI的聊天机器人Grok集成到车辆中实现语音控制导航和气候系统,再到OpenAI优化其音频人工智能模型,科技巨头们正集体押注音频未来。
据报道,OpenAI当前的语音模型与文本模型分属不同架构,导致用户通过语音与ChatGPT对话时,获得的回答质量和速度均逊于文本模型。
为解决这一问题,OpenAI在过去两个月内完成了关键团队整合。
在组织层面,今夏从Character.AI加入的语音研究员Kundan Kumar担任音频AI项目核心负责人。
产品研究主管Ben Newhouse正在重构音频AI基础设施,多模态ChatGPT产品经理Jackie Shannon也参与其中。

