ElevenLabs估值飙至66亿美元!CEO直言“语音业务不再是核心”,押注对话AI开辟新战场

【量子位 2025年12月11日讯】AI语音领域再添里程碑事件——以超逼真合成语音技术闻名的ElevenLabs,近期估值跃升至66亿美元,较9个月前的33亿美元实现翻倍。然而在12月10日TechCrunch《Equity》播客节目中,公司CEO马蒂·斯坦尼谢夫斯基(Mati Staniszewski)却抛出重磅观点:“未来两三年,语音模型将沦为大宗商品,真正的商业价值不在语音本身,而在基于语音的场景化创新。”这一表态,标志着这家从解决“电影糟糕配音”起家的独角兽,正式启动战略转型,将重心从“语音生成”转向“对话AI生态”。

估值翻倍背后:语音技术已渗透千行百业,年营收突破2亿美元

ElevenLabs的估值飙升并非偶然,而是建立在技术落地与商业变现的双重突破之上。这家由两位波兰工程师于2022年创立的公司,最初因不满“外语电影配音生硬、缺乏情感”而开发AI语音模型,如今已成长为全球AI音频领域的领军者:

  • 商业版图覆盖多元场景:其技术已广泛应用于游戏、客服、教育、影视等领域——为《堡垒之夜》角色定制个性化语音,为跨国企业客服机器人提供32种语言的自然对话能力,还与Spotify合作开发AI有声书功能。截至2025年11月,全球超60%的《财富》500强企业(如德勤、LG、NTT Docomo)在内部工具或客户服务中采用其技术,普通用户累计生成的音频内容时长超1000年。

  • 财务数据支撑高估值:在12月完成的1亿美元要约收购中(由红杉资本、ICONIQ领投,a16z等跟投),公司披露年经常性收入(ARR)已突破2亿美元,较2024年的8000万美元增长150%;更关键的是,其语音库分成平台已向配音演员和用户支付超200万美元,形成“创作者-平台-企业”的良性商业闭环。

  • 技术壁垒持续加固:尽管CEO预判语音模型将商品化,但目前ElevenLabs仍握有核心优势——其最新“Flash模型”将语音生成延迟降至75毫秒,是行业最快水平;情感智能框架(EIF)能让AI语音精准传递“共情”“紧迫”“沉稳”等细腻情绪,在心理健康陪伴、教育辅导等场景中表现突出,这也是其区别于OpenAI、谷歌等巨头语音产品的关键。

战略急转弯:从“语音工具”到“对话AI平台”,三大方向突破

“如果只做语音生成,我们迟早会被巨头挤压。”斯坦尼谢夫斯基在播客中直言,ElevenLabs的转型早已启动,当前核心目标是打造“以语音为入口、多模态协同的对话AI平台”,具体落地在三个维度:

  • 构建全栈对话AI能力:不再局限于“文本转语音”的单一功能,而是整合实时对话交互、自适应语言检测、大模型(LLM)联动等模块。例如,开发者可基于其平台搭建“智能客服agent”——既能通过语音理解用户问题,调用GPT-5或Claude分析需求,又能以带情感的语音反馈解决方案,全程无需人工介入。目前该功能已在金融、医疗领域试点,某跨国银行使用后将客户问题解决率提升40%,平均等待时间缩短65%。

  • 发力多模态融合创新:探索“语音+视频+文本”的跨模态协同,例如与视频生成公司合作开发“虚拟人实时互动系统”——用户输入文字指令,AI不仅能生成对应语音,还能同步驱动虚拟人面部表情、肢体动作,适用于直播带货、远程教学等场景。斯坦尼谢夫斯基透露,公司已组建专项团队研发音乐生成技术,未来计划将“语音旁白+背景音乐+场景音效”打包生成,满足内容创作者的一站式需求。

  • 深耕垂直行业解决方案:放弃“通用语音工具”路线,针对特定行业打造定制化产品。例如与AI法律平台Harvey合作,推出“多语言法律语音系统”——能将复杂法律条文转化为32种语言的口语化语音,支持方言与专业术语切换,帮助律师跨地域沟通案件;在教育领域,开发“AI语言教师”,通过语音交互纠正学生发音,根据学习进度调整语速与难度,目前已在东南亚10所学校试点。

应对“商品化危机”:安全与生态成新护城河

对于“语音模型商品化”的未来,ElevenLabs并非被动应对,而是提前布局安全技术与开发者生态,构建新的竞争壁垒:

  • 三重防护抵御深度伪造(Deepfake):针对AI语音滥用风险,公司推出“音频水印”技术——所有AI生成语音都嵌入不可见数字标识,可通过工具快速溯源;开发“AI语音检测系统”,识别准确率达99.2%,已被YouTube、TikTok用于排查虚假语音内容;试点“设备认证机制”,仅允许授权设备调用敏感语音模型(如名人克隆语音),防止技术被盗用。

  • 开放平台吸引开发者共建生态:推出“ElevenLabs开发者计划”,提供API接口、SDK工具包与免费额度,鼓励开发者基于其语音技术打造创新应用。目前平台已聚集超50万名开发者,开发出“AI有声书制作工具”“多语言会议实时翻译”等3000多款应用,公司通过API调用分成、高级功能订阅获得持续收益,开发者生态贡献的收入占比已达35%。

  • 全球化布局与IPO筹备并行:为支撑战略转型,公司加速全球扩张,计划在巴黎、新加坡、巴西等地设立新办公室,目前已在伦敦、纽约、东京等7个城市设有分支机构;CEO透露,若市场条件成熟,将在未来5年内推进IPO,上市地点优先选择“用户与营收占比最高的地区”,当前北美市场贡献50%营收,亚洲市场增速最快(年增长200%)。

行业启示:AI音频赛道进入“后技术时代”

ElevenLabs的转型,折射出AI音频行业的深层变革——当基础技术(如语音合成、克隆)逐渐普及,单纯的“技术领先”已难以支撑高估值,企业需向“场景化、生态化、安全化”突围。

从行业竞争格局看,OpenAI、谷歌等巨头虽在语音模型性能上紧追不舍,但ElevenLabs通过“垂直行业深耕+多模态创新”找到了差异化路径;而对于中小玩家,斯坦尼谢夫斯基建议“避免与巨头正面竞争,聚焦细分场景”,例如专注于方言语音生成、医疗领域专业术语语音等窄赛道。

“未来,判断一家AI音频公司的价值,不再是‘语音有多像人’,而是‘能帮用户解决什么问题’。”斯坦尼谢夫斯基的这句话,或许正是ElevenLabs估值翻倍且敢于转型的核心逻辑——在技术商品化的浪潮中,只有锚定真实需求的创新,才能成为不被淘汰的“弄潮儿”。

© 版权声明

相关文章