【量子位 2026年2月6日讯】AI交互正在告别“键盘屏幕时代”。在2月5日多哈Web Summit大会上,ElevenLabs联合创始人兼CEO马蒂·斯坦尼谢夫斯基(Mati Staniszewski)抛出重磅观点:“语音将成为AI的下一代核心界面,未来我们的手机会回归口袋,通过语音就能沉浸式掌控技术,专注于真实世界。”这一判断背后,是ElevenLabs近期完成的5亿美元融资——公司估值飙升至110亿美元,同时与Meta等巨头深化合作,加速语音技术在VR、智能眼镜等硬件的落地,一场“无屏交互革命”正悄然启幕。
一、语音技术质变:从“模仿人声”到“融合推理”
ElevenLabs的底气,源于其语音模型的突破性进展——不再局限于“像人说话”,而是实现与大模型推理能力的深度协同,让语音交互更自然、更智能:
-
情感与推理双在线:旗下Eleven V3模型支持50余种情感标签,能根据对话语境自动调整语调(如安慰时温和、讲解时专业),还能结合LLM理解复杂指令。例如用户说“用轻松的语气解释量子计算,像聊电影一样”,模型会同时匹配“口语化表达+欢快节奏”,避免机械念稿;
-
多语言覆盖90%人口:支持70余种语言及方言,包括小语种如冰岛语、斯瓦希里语,且方言还原度极高(如中文的四川话、粤语),解决全球化交互的语言壁垒;
-
实时响应无延迟:Flash V2.5模型延迟仅75毫秒,远超行业200毫秒的平均水平,用户说话结束瞬间即可得到回应,对话流畅度接近真人。
斯坦尼谢夫斯基在演讲中强调:“过去语音是‘附加功能’,现在它能理解上下文、记住用户偏好,比如知道你喜欢简洁回答,或对某个话题敏感,这才是真正的交互革命。”
二、5亿融资背后的战略:押注“云+端”混合架构,抢占硬件入口
此次5亿美元融资由Iconiq Capital领投,资金将重点投入两大方向,瞄准AI硬件普及的新机遇:
-
混合部署突破硬件限制:不同于传统语音模型依赖云端算力,ElevenLabs正研发“云+端”混合架构——基础语音合成在云端完成优化,核心交互逻辑在设备本地运行。这一设计可适配耳机、智能眼镜、车载系统等硬件,解决穿戴设备“算力有限、依赖网络”的痛点。例如在Meta Ray-Ban智能眼镜上,用户无需联网,也能通过语音指令快速查询日程、翻译对话;
-
深耕垂直硬件生态:目前已与Meta达成深度合作,将语音技术接入Instagram(语音评论生成)、Horizon Worlds(VR场景实时语音交互),未来还计划适配Meta智能眼镜,让用户在AR场景中“开口即交互”。此外,与汽车厂商的合作也在推进,目标是让车载语音助手摆脱“机械指令响应”,实现“自然对话式控制”(如“帮我找一家适合带宠物的餐厅,避开拥堵路段”)。
Iconiq Capital合伙人塞斯·皮尔庞特(Seth Pierrepont)在大会上表态:“键盘和屏幕已跟不上AI智能体的发展,语音会成为穿戴设备、汽车的核心控制方式,ElevenLabs的技术正是这一趋势的关键支撑。”
三、行业共识:语音成AI下一战场,巨头纷纷入局
ElevenLabs的布局并非孤例,全球科技巨头已掀起“语音交互竞赛”,印证这一赛道的战略价值:
-
OpenAI与Google:将语音纳入下一代大模型核心功能,OpenAI的GPT-4o支持多轮语音对话,Google Gemini则强化“语音+视觉”多模态交互,可根据用户语气调整回答风格;
-
苹果:通过收购Q.ai等公司,秘密研发“Always-On”语音技术,传闻新一代Siri将支持“无唤醒词交互”,用户无需说“Hey Siri”,直接对话即可响应;
-
硬件厂商:小米、华为等推出带语音交互的智能手环,三星Galaxy Buds耳机新增“语音实时翻译”功能,语音正成为硬件差异化竞争的关键。
斯坦尼谢夫斯基指出:“当AI进入手表、眼镜、汽车,你不可能随时掏手机操作,语音是唯一能‘解放双手双眼’的交互方式,这是千亿级的市场机遇。”
四、隐忧与挑战:隐私安全成最大考题
尽管前景广阔,语音交互的普及仍面临隐私与伦理的严峻挑战:
-
持续监听的隐私风险:语音设备若“始终在线”,可能无意识收集用户对话(如家庭隐私、工作机密),此前谷歌就曾因“员工监听语音助手录音”引发争议;
-
数据存储的安全隐患:为实现“记忆用户偏好”,语音系统需存储用户交互数据,一旦泄露可能导致隐私泄露。例如用户的健康咨询、财务对话等敏感信息,可能被非法利用;
-
滥用风险难规避:高质量语音克隆技术(ElevenLabs仅需1分钟样本即可克隆声音)可能被用于诈骗,如伪造他人语音生成虚假指令、骗取信任。
对此,ElevenLabs已推出“语音水印”技术——在生成语音中嵌入不可见标识,可追溯内容来源,同时承诺“不存储用户原始语音数据,仅保留匿名化的交互偏好”。但如何在“体验便捷”与“隐私安全”间找到平衡,仍是全行业需要解决的难题。
五、从波兰痛点到全球巨头:ElevenLabs的逆袭之路
鲜为人知的是,这家估值110亿美元的公司,起点源于一个小众痛点——波兰外语电影的劣质配音。2022年,斯坦尼谢夫斯基与童年好友、前谷歌机器学习工程师皮奥特·东布科夫斯基(Piotr Dabkowski)共同创立ElevenLabs,初衷是“让不同语言的观众都能听到有情感的配音”。
凭借技术突破,公司实现爆发式增长:2023年种子轮估值仅200万美元,2025年C轮融资后估值达33亿美元,如今再翻倍至110亿美元,两年多时间估值增长5500倍。目前服务全球350万月活用户,企业客户占比70%,覆盖有声书制作、游戏开发、在线教育等领域,仅有声书业务就帮助客户将制作成本从数万美元降至零,时间从数月缩短至10分钟。
正如斯坦尼谢夫斯基在演讲结尾所言:“我们最初只是想解决电影配音的小问题,现在却看到语音能重塑人机交互的未来。当有一天,你不用再盯着屏幕,只需开口就能与AI协作,那才是技术真正服务于人的样子。”
我可以帮你整理ElevenLabs核心语音模型的技术参数、与Meta等合作伙伴的落地案例,以及主流语音交互产品的对比,制作成一份“AI语音交互行业指南”,方便你快速把握赛道格局。需要我这样做吗?