【量子位 2025年12月24日讯】当 AI 聊天机器人还在依赖文字交互时,数字 avatar 技术已悄然迈入“视频交互”新阶段。12月23日,AI 数字化身初创公司 Lemon Slice 宣布完成 1050 万美元种子轮融资,由 Matrix Partners 与 Y Combinator(YC)联合领投,Dropbox 首席技术官 Arash Ferdowsi、Twitch 首席执行官 Emmett Shear 及音乐组合 The Chainsmokers 等知名人士跟投。此次融资将用于强化其核心扩散模型、扩充团队,并推动数字 avatar 技术在教育、电商、企业培训等场景的落地,目标打破当前 avatar 行业“僵硬、恐怖谷效应”的痛点,打造真正自然的交互式视频化身。
作为 2024 年刚成立的新锐公司,Lemon Slice 凭借“单图生成高保真交互式 avatar”的技术能力,已吸引多家匿名机构合作,其推出的 Lemon Slice-2 模型更是被业内视为“突破 avatar 实用化瓶颈”的关键产品。
技术核心:200 亿参数模型+单 GPU 部署,破解“交互+逼真”双难题
Lemon Slice 的核心竞争力,在于其自研的通用扩散模型 Lemon Slice-2,该模型从根本上解决了当前数字 avatar 行业“逼真度不足、交互性差、部署成本高”三大痛点:
-
单图生成,快速定制专属 avatar不同于传统 avatar 技术需要多组照片或 3D 扫描数据,Lemon Slice-2 仅需一张人脸或角色图片,即可生成具备实时交互能力的数字化身。无论是企业客服形象、教育领域的虚拟讲师,还是心理健康支持场景的虚拟陪伴者,用户都能快速定制,并随时调整 avatar 的背景、造型与外观风格——例如将虚拟客服的背景从“办公室”切换为“产品展示间”,或调整虚拟讲师的衣着风格以匹配课程主题(如学术讲座的正装、儿童教育的卡通服饰)。
-
200 亿参数+单 GPU 实时流,兼顾能力与效率该模型参数规模达 200 亿,采用视频扩散 transformer 架构,支持在单块 GPU 上以 20 帧/秒的速率生成实时视频流,远超行业平均的“10 帧/秒+多 GPU 依赖”水平。这意味着企业无需投入高昂的硬件成本,只需通过 Lemon Slice 提供的 API 或嵌入代码(仅需一行代码即可集成到官网或 App),就能快速部署交互式 avatar 服务。例如电商平台接入后,虚拟导购可实时与用户视频对话,解答产品疑问,响应延迟控制在 1 秒以内,接近真人沟通体验。
-
突破“恐怖谷效应”,交互更自然创始人 Lina Colucci 直言,当前多数 avatar 解决方案“不仅无价值,还因僵硬动作、不自然表情陷入恐怖谷”,而 Lemon Slice-2 通过两大技术优化解决这一问题:一是结合 ElevenLabs 的语音生成技术,让 avatar 语音与口型、表情精准同步,避免“声画错位”;二是通过大规模交互数据训练,让 avatar 能根据对话语境调整姿态与微表情——例如解答用户疑问时会自然点头,倾听时会做出眼神专注的反应,而非机械重复固定动作。
场景落地:覆盖教育、电商多领域,隐私防护成底线
尽管 Lemon Slice 暂未披露具体合作客户,但已明确其技术的核心应用方向,同时在隐私与安全层面建立严格防护机制:
-
四大核心场景率先落地目前其 avatar 技术已在多领域开展测试:在教育场景,虚拟教师可通过视频交互辅导作业,支持多语言教学(如英语学习中纠正发音);在电商领域,虚拟导购能实时展示产品细节,根据用户需求推荐搭配;在企业培训场景,虚拟讲师可模拟客户沟通场景,帮助员工练习销售话术;甚至在心理健康领域,虚拟陪伴者能通过温和的视频对话提供情绪支持。Matrix 合伙人 Ilya Sukhar 指出,这类场景“天然依赖视频交互,而 Lemon Slice 的技术恰好填补了‘文字 chatbot 不够直观’的空白”。
-
多重防护杜绝滥用风险针对 avatar 技术可能引发的“人脸克隆、语音滥用”问题,Lemon Slice 建立了三重防护:一是禁止未经授权的人脸与语音克隆,用户生成 avatar 需提供合法授权证明;二是利用大语言模型(LLM)进行实时内容审核,过滤不当对话与行为;三是对生成的 avatar 添加隐形数字水印,便于追溯滥用源头。Colucci 强调:“技术创新必须以安全为前提,我们不会让 avatar 成为恶意行为的工具。”
行业竞争:直面 D-ID、HeyGen 围剿,通用模型成破局关键
数字 avatar 赛道早已玩家云集,Lemon Slice 要突围,必须在技术路线与产品定位上建立差异化优势:
-
对手聚焦“垂直场景”,自身押注“通用模型”当前行业头部玩家如 D-ID、HeyGen、Synthesia 等,多聚焦特定场景(如 HeyGen 主打企业视频制作,Synthesia 侧重虚拟培训),且部分依赖定制化开发;而 Lemon Slice 采用“通用扩散模型”路线,既能生成人类 avatar,也能打造非人类角色(如卡通形象、品牌吉祥物),且无需为不同场景单独训练模型。YC 合伙人 Jared Friedman 认为,这种路线“能突破场景限制,且随着数据积累,avatar 逼真度会持续提升,不存在‘性能天花板’”。
-
技术团队成核心壁垒Lemon Slice 团队目前仅 8 人,但核心成员均有机器学习产品落地经验,而非单纯的研究背景。例如创始人团队曾参与开发大规模视频生成模型,熟悉“从算法到产品”的全流程。Ilya Sukhar 评价:“很多竞品停留在‘demo 阶段’,而 Lemon Slice 已能稳定输出可商用的技术,这是其最大优势。”
未来规划:扩招+模型迭代,剑指“avatar 图灵测试”
对于融资后的发展,Lemon Slice 已有明确规划:短期内将资金用于两方面——一是扩招团队,重点招募 AI 算法工程师与市场推广人员,将团队规模扩大至 20 人左右;二是持续投入算力,优化 Lemon Slice-2 模型,目标将实时生成帧率提升至 30 帧/秒,进一步降低部署成本。
长期来看,Lemon Slice 的野心是突破“avatar 图灵测试”——让用户无法区分视频中的化身是 AI 生成还是真人。Colucci 表示:“早期 GenAI 让文字交互变得智能,而我们希望让视频交互也能‘像真人一样自然’。未来,每个人或许都能拥有自己的数字 avatar,用于工作、学习甚至社交,而 Lemon Slice 想成为这一变革的推动者。”
随着 1050 万美元融资的注入,Lemon Slice 已正式加入数字 avatar 赛道的竞争。在 D-ID、HeyGen 等先行者已占据一定市场份额的情况下,这家新锐公司能否凭借“通用模型+高交互性”的组合拳突围,成为行业新标杆?2026 年,随着其技术的进一步落地与迭代,答案或将逐步清晰。