【量子位 2026年2月5日讯】全球语音AI赛道迎来里程碑事件。2月4日,英国伦敦初创公司ElevenLabs正式宣布完成5亿美元D轮融资,由红杉资本(Sequoia Capital)领投,红杉合伙人Andrew Reed将加入公司董事会。此次融资后,公司估值飙升至110亿美元,较2025年1月的33亿美元实现超230%增长,仅用一年就跻身全球AI独角兽第一梯队。更值得关注的是,联合创始人兼CEO Mati Staniszewski透露,公司已启动IPO筹备工作,语音AI领域首个百亿估值IPO或近在眼前。
一、融资阵容:顶级资本扎堆加码,a16z四倍追加押注
ElevenLabs此次融资的“明星阵容”,凸显行业对语音AI赛道及公司战略的高度认可:
-
领投方与核心股东力挺:领投方红杉资本并非首次入局,此前曾参与公司多轮融资,此次选择领投D轮,看重其“从语音工具向多模态智能体”的转型潜力;现有股东a16z(Andreessen Horowitz)将投资金额扩大4倍,Iconiq(上一轮领投方)追加3倍投资,BroadLight、NFDG等早期投资方也持续跟投,展现对团队执行力的长期信任;
-
新势力入局补全生态:Lightspeed Venture Partners、Evantic Capital、Bond等新机构首次加入,其中部分机构与消费电子、企业服务领域深度绑定,未来可能为ElevenLabs带来硬件适配(如智能音箱、车载系统)、企业客户资源(如客服场景落地)等协同价值;
-
融资用途明确聚焦增长:5亿美元资金将主要投向三大方向——加速多模态技术研发(语音+视频+文本交互)、拓展印度、日本、新加坡等新兴市场、扩大ElevenAgents智能体平台的企业服务团队,目标是2026年将全球客户数量从现有3000家提升至8000家。
二、业绩与产品:ARR突破3.3亿美元,从“语音合成”到“多模态智能体”转型
成立仅4年的ElevenLabs,已从单一文本转语音工具,成长为覆盖全音频栈的AI解决方案提供商,业绩增长与产品迭代形成强劲共振:
-
营收增速领跑行业:2025年底,公司年度经常性收入(ARR)突破3.3亿美元,较2024年的1亿美元增长230%,其中企业客户贡献超70%收入。值得注意的是,从2亿美元ARR增长到3亿美元仅用5个月,增速远超AI行业平均水平;
-
产品矩阵覆盖全场景:核心产品已从早期的文本转语音(TTS),扩展至语音转文本(STT)、AI音效生成、32种语言实时配音、多模态智能体(ElevenAgents)等。例如其“配音工作室”工具被《纽约客》《华盛顿邮报》用于多语言内容本地化,“AI音效模型”则为《堡垒之夜》等游戏生成场景化音频;
-
企业级服务成增长引擎:面向B端的ElevenAgents平台,已帮助德电(Deutsche Telekom)、Revolut等企业打造AI语音客服,将客户咨询响应时间从平均45秒缩短至8秒,人工转接率下降60%。目前该平台已覆盖金融、医疗、零售等12个行业,单客户年均付费额超10万美元。
三、战略转型:告别“音频模型内卷”,押注多模态智能体
不同于多数语音AI公司仍聚焦“音质优化”,ElevenLabs已开启战略升级,试图突破技术商品化陷阱:
-
不做“纯音频模型”,转向“交互生态”:CEO Mati Staniszewski在采访中直言,“音频模型1-2年内将完全商品化,单纯比拼音质没有未来”。公司当前核心目标是打造“能听、能说、能行动”的多模态智能体——例如企业客服智能体可同时处理语音咨询、调取客户数据、生成服务报告,并对接CRM系统完成工单闭环;
-
多模态布局提速:2026年1月,公司已与视频技术公司LTX达成合作,推出“音频转视频”功能,用户输入文本生成语音后,AI可自动匹配虚拟形象与场景画面,实现“语音-视频”同步生成。未来还计划整合文本理解、图像识别能力,让智能体具备“跨媒介交互”能力;
-
绑定算力巨头夯实壁垒:英伟达(Nvidia)不仅是公司C轮投资方,其创始人黄仁勋更是公开“带货”——黄仁勋在各类大会的虚拟形象,均使用ElevenLabs技术复刻声音。双方还在算力优化上深度合作,ElevenLabs的模型在英伟达Ironwood TPU上运行时, latency降低40%,成本下降35%,为大规模商业化奠定基础。
四、行业影响:重新定义“人机交互”,语音AI进入“智能体时代”
ElevenLabs的快速崛起,正在重塑语音AI行业的竞争格局,甚至推动人机交互方式的变革:
-
打破“技术同质化”僵局:当前多数语音AI公司仍陷在“音质逼真度”的内卷中,而ElevenLabs通过“智能体+生态”的打法,将竞争维度提升至“场景价值”——例如医疗领域的智能体可结合语音交互与电子病历,自动生成诊断建议,而非仅提供语音播报服务;
-
开启“语音+”商业化想象:随着多模态能力落地,语音AI的应用场景从“内容生成”(配音、音效)扩展到“业务流程重构”(客服、销售、内部协作)。据红杉资本预测,2027年全球语音智能体市场规模将突破500亿美元,ElevenLabs凭借先发优势有望占据20%以上份额;
-
IPO预期牵动行业神经:若ElevenLabs顺利推进IPO,将成为“语音AI第一股”,其估值与市值表现可能为行业设定新基准。目前公司团队仅50人,且以远程办公为主,人均创造营收超660万美元,高效的运营模式或成为IPO时的重要加分项。
对于未来,Mati Staniszewski表示:“我们的终极目标不是做‘最好的语音工具’,而是让AI像人类一样自然地与世界交互——这需要语音、视频、文本的深度融合,更需要与企业现有系统的无缝对接。”随着5亿美元融资到位与IPO筹备启动,这家诞生于伦敦的AI公司,正试图从“语音巨头”成长为“下一代人机交互的定义者”。
我可以帮你整理ElevenLabs各产品的核心功能对比表、企业级智能体的典型应用案例,以及语音AI行业主要玩家的估值与营收数据,制作成一份“语音AI行业竞争分析报告”,方便你快速把握赛道核心信息。需要我这样做吗?