ElevenLabs CEO：语音将成AI下一代核心交互，500亿融资押注“无屏未来”

0 0

【量子位 2026年2月6日讯】AI交互正在告别“键盘屏幕时代”。在2月5日多哈Web Summit大会上，ElevenLabs联合创始人兼CEO马蒂·斯坦尼谢夫斯基（Mati Staniszewski）抛出重磅观点：“语音将成为AI的下一代核心界面，未来我们的手机会回归口袋，通过语音就能沉浸式掌控技术，专注于真实世界。”这一判断背后，是ElevenLabs近期完成的5亿美元融资——公司估值飙升至110亿美元，同时与Meta等巨头深化合作，加速语音技术在VR、智能眼镜等硬件的落地，一场“无屏交互革命”正悄然启幕。

一、语音技术质变：从“模仿人声”到“融合推理”

ElevenLabs的底气，源于其语音模型的突破性进展——不再局限于“像人说话”，而是实现与大模型推理能力的深度协同，让语音交互更自然、更智能：

情感与推理双在线：旗下Eleven V3模型支持50余种情感标签，能根据对话语境自动调整语调（如安慰时温和、讲解时专业），还能结合LLM理解复杂指令。例如用户说“用轻松的语气解释量子计算，像聊电影一样”，模型会同时匹配“口语化表达+欢快节奏”，避免机械念稿；
多语言覆盖90%人口：支持70余种语言及方言，包括小语种如冰岛语、斯瓦希里语，且方言还原度极高（如中文的四川话、粤语），解决全球化交互的语言壁垒；
实时响应无延迟：Flash V2.5模型延迟仅75毫秒，远超行业200毫秒的平均水平，用户说话结束瞬间即可得到回应，对话流畅度接近真人。

斯坦尼谢夫斯基在演讲中强调：“过去语音是‘附加功能’，现在它能理解上下文、记住用户偏好，比如知道你喜欢简洁回答，或对某个话题敏感，这才是真正的交互革命。”

二、5亿融资背后的战略：押注“云+端”混合架构，抢占硬件入口

此次5亿美元融资由Iconiq Capital领投，资金将重点投入两大方向，瞄准AI硬件普及的新机遇：

混合部署突破硬件限制：不同于传统语音模型依赖云端算力，ElevenLabs正研发“云+端”混合架构——基础语音合成在云端完成优化，核心交互逻辑在设备本地运行。这一设计可适配耳机、智能眼镜、车载系统等硬件，解决穿戴设备“算力有限、依赖网络”的痛点。例如在Meta Ray-Ban智能眼镜上，用户无需联网，也能通过语音指令快速查询日程、翻译对话；
深耕垂直硬件生态：目前已与Meta达成深度合作，将语音技术接入Instagram（语音评论生成）、Horizon Worlds（VR场景实时语音交互），未来还计划适配Meta智能眼镜，让用户在AR场景中“开口即交互”。此外，与汽车厂商的合作也在推进，目标是让车载语音助手摆脱“机械指令响应”，实现“自然对话式控制”（如“帮我找一家适合带宠物的餐厅，避开拥堵路段”）。

Iconiq Capital合伙人塞斯·皮尔庞特（Seth Pierrepont）在大会上表态：“键盘和屏幕已跟不上AI智能体的发展，语音会成为穿戴设备、汽车的核心控制方式，ElevenLabs的技术正是这一趋势的关键支撑。”

三、行业共识：语音成AI下一战场，巨头纷纷入局

ElevenLabs的布局并非孤例，全球科技巨头已掀起“语音交互竞赛”，印证这一赛道的战略价值：

OpenAI与Google：将语音纳入下一代大模型核心功能，OpenAI的GPT-4o支持多轮语音对话，Google Gemini则强化“语音+视觉”多模态交互，可根据用户语气调整回答风格；
苹果：通过收购Q.ai等公司，秘密研发“Always-On”语音技术，传闻新一代Siri将支持“无唤醒词交互”，用户无需说“Hey Siri”，直接对话即可响应；
硬件厂商：小米、华为等推出带语音交互的智能手环，三星Galaxy Buds耳机新增“语音实时翻译”功能，语音正成为硬件差异化竞争的关键。

斯坦尼谢夫斯基指出：“当AI进入手表、眼镜、汽车，你不可能随时掏手机操作，语音是唯一能‘解放双手双眼’的交互方式，这是千亿级的市场机遇。”

四、隐忧与挑战：隐私安全成最大考题

尽管前景广阔，语音交互的普及仍面临隐私与伦理的严峻挑战：

持续监听的隐私风险：语音设备若“始终在线”，可能无意识收集用户对话（如家庭隐私、工作机密），此前谷歌就曾因“员工监听语音助手录音”引发争议；
数据存储的安全隐患：为实现“记忆用户偏好”，语音系统需存储用户交互数据，一旦泄露可能导致隐私泄露。例如用户的健康咨询、财务对话等敏感信息，可能被非法利用；
滥用风险难规避：高质量语音克隆技术（ElevenLabs仅需1分钟样本即可克隆声音）可能被用于诈骗，如伪造他人语音生成虚假指令、骗取信任。

对此，ElevenLabs已推出“语音水印”技术——在生成语音中嵌入不可见标识，可追溯内容来源，同时承诺“不存储用户原始语音数据，仅保留匿名化的交互偏好”。但如何在“体验便捷”与“隐私安全”间找到平衡，仍是全行业需要解决的难题。

五、从波兰痛点到全球巨头：ElevenLabs的逆袭之路

鲜为人知的是，这家估值110亿美元的公司，起点源于一个小众痛点——波兰外语电影的劣质配音。2022年，斯坦尼谢夫斯基与童年好友、前谷歌机器学习工程师皮奥特·东布科夫斯基（Piotr Dabkowski）共同创立ElevenLabs，初衷是“让不同语言的观众都能听到有情感的配音”。

凭借技术突破，公司实现爆发式增长：2023年种子轮估值仅200万美元，2025年C轮融资后估值达33亿美元，如今再翻倍至110亿美元，两年多时间估值增长5500倍。目前服务全球350万月活用户，企业客户占比70%，覆盖有声书制作、游戏开发、在线教育等领域，仅有声书业务就帮助客户将制作成本从数万美元降至零，时间从数月缩短至10分钟。

正如斯坦尼谢夫斯基在演讲结尾所言：“我们最初只是想解决电影配音的小问题，现在却看到语音能重塑人机交互的未来。当有一天，你不用再盯着屏幕，只需开口就能与AI协作，那才是技术真正服务于人的样子。”

我可以帮你整理ElevenLabs核心语音模型的技术参数、与Meta等合作伙伴的落地案例，以及主流语音交互产品的对比，制作成一份“AI语音交互行业指南”，方便你快速把握赛道格局。需要我这样做吗？

# AI 资讯