AI重构视频传输法则:中国电信GVC技术实现0.02%极致压缩,1GB视频仅需200KB

【量子位 2026年1月18日讯】视频传输领域迎来颠覆性突破。1月15日,中国电信人工智能研究院(TeleAI)正式发布生成式视频压缩技术(GVC,Generative Video Compression),将原生1GB的视频压缩至仅200KB即可传输,压缩率低至0.02%,却能保持高清画质与关键信息准确性。这项被业内称为“重写视频传输物理法则”的技术,通过“用计算换带宽”的创新逻辑,让远洋货轮、地震灾区等极端低带宽场景下的高清视频传输成为现实,更标志着视频通信从“像素搬运”迈入“语义生成”的新阶段。

一、技术革命:从“传画面”到“传指令”,颠覆传统压缩逻辑

传统视频压缩技术在低带宽场景下的“马赛克困境”,早已成为用户与行业的共同痛点。而GVC技术的核心突破,在于彻底抛弃“像素级传输”的固有思路,转而通过AI生成实现“指令级传输”,将通信压力从“带宽”转移到“算力”。

1. 传统压缩的瓶颈:像素搬运难抵低带宽

当前主流的HEVC(H.265)、VVC(H.266)等传统编码技术,本质是“像素的极致搬运”——编码器通过计算像素的静止与运动轨迹,尽可能保留画面信息后压缩传输。这种模式在宽带充足时表现优异,但一旦带宽不足(如卫星信号1-2格、灾区应急通信),就只能通过丢弃高频细节妥协,导致画面模糊、卡顿甚至卡死。例如在远洋船舶上,用传统技术传输1分钟高清视频,可能需要等待半小时,且播放时满屏马赛克。

2. GVC的创新逻辑:AI“画师”现场作画

GVC技术跳出了“传画面”的框架,改为传输“如何画出画面”的指令,核心流程分为三步:

  • 神经编码器拆解关键信息:将原始视频转化为极小的“压缩Token”数据包,仅包含两类核心内容——语义信息(场景结构、物体类别,如“足球比赛场景,球员、绿色草坪、球门”)与运动信息(物体轨迹,如“足球从左向右移动,球员奔跑速度5m/s”),相当于画面的“骨架”与“灵魂”;

  • 极致压缩传输:这些Token的大小可低至0.005-0.008 bpp(比特每像素),而传统高清视频的bpp至少为0.1,数据量直接减少两个数量级——1GB视频的Token仅200KB,相当于一首短音频的大小;

  • 生成式解码器现场重建:接收端的扩散模型(AI“画师”)结合预训练的海量世界知识(如足球纹理、海浪形态),根据Token指令实时生成视频。例如收到“C罗在绿茵场射门”的指令,AI会调用已学习的“足球运动员形态”“草坪光影规律”等知识,生成与原画面视觉一致的连贯影像。

这种“用计算换带宽”的思路,在通信理论上实现了跨越。按照香农-韦弗通信模型,传统压缩专注于“传得准不准”(Level A),而GVC直接聚焦“任务能不能完成”(Level C)——它不追求每一个像素与原图完全一致,却能确保人眼看到清晰画面、机器识别关键信息,完美适配低带宽场景需求。

二、实测硬核:画质、准确性、算力三达标,打破“技术炫技”质疑

极端压缩率难免让人质疑“画质是否妥协”“关键信息是否失真”“普通设备能否运行”。而TeleAI团队在权威数据集与真实场景中的测试,用数据回应了这些疑问,证明GVC是“实验室突破”更是“实用技术”。

1. 画质碾压传统技术:渣网速下看清C罗表情

在MCL-JCV权威数据集测试中,当压缩率低至0.005 bpp(约0.005%)时,传统HEVC技术的画面已完全崩坏,LPIPS画质评价指标(数值越低越好)飙升至0.8以上(满屏马赛克);而GVC生成的画面仍保持清晰纹理,LPIPS数值仅0.2,视觉效果接近原画质。

更直观的对比显示:要达到同等视觉体验,传统HEVC需要消耗6倍以上的带宽。例如在带宽仅1Mbps的偏远地区,用GVC观看世界杯直播,能清晰看到C罗的面部表情、球衣号码;而用HEVC,画面中球员仅能分辨为“移动的色块”。

2. 关键信息零失真:机器识别也精准

针对“AI生成是否会丢失关键信息”的担忧,团队在DAVIS2017视频分割任务中验证:在bpp=0.01的极限压缩下,GVC重建视频的J&F指标(衡量物体分割准确度)达0.82,显著高于HEVC的0.65。这意味着即使是AI生成的画面,球员、足球、球门等关键物体的位置、轮廓依然精准,完全不影响后续的AI分析(如赛事越位判断、监控人脸识别)。

3. 消费级设备可运行:RTX 4090就能hold住

生成式AI常被诟病“算力黑洞”,但TeleAI通过模型小型化、知识蒸馏等优化,大幅降低了GVC的落地门槛。实测数据显示,在消费级GPU(如RTX 4090)上,生成一组29帧的1080P画面仅需0.95-1.35秒。虽然比传统解码器的毫秒级速度慢,但在直播(允许3-5秒延迟)、视频点播、远程医疗指导等场景中,已完全满足实用需求。团队还透露,针对手机、平板的轻量化模型正在研发,未来普通用户可直接在移动设备上体验。

三、场景落地:从远洋救命到日常省流,重构多领域视频传输

GVC技术的价值远不止“省流量”,其在极端场景与日常场景中的应用潜力,正逐步重塑多个行业的视频传输逻辑。

1. 极端通信场景:破解“无网可用”困境

  • 远洋海事通信:远洋货轮的卫星通信带宽稀缺且昂贵(1MB流量成本超10美元),传统技术连刷朋友圈都困难。而GVC技术让船员通过200KB数据流即可观看高清球赛直播,更关键的是能支撑远程医疗——医生通过压缩后的清晰视频,指导船员处理骨折、突发疾病等紧急情况,无需等待船舶靠岸;

  • 应急救援:地震、洪水等灾害中,基站损毁后仅剩微弱应急信号,救援无人机拍摄的4K现场视频根本无法实时传输。GVC压缩后的Token数据,能让指挥中心10秒内获取清晰画面,快速判断受灾人数、房屋倒塌结构,为救援决策争取黄金时间;

  • 深空探测:火星车发回的视频数据量庞大,传输延迟超20分钟。GVC技术可将视频压缩至原大小的0.02%,让地球接收端快速获取火星表面清晰影像,提升探测效率。

2. 消费级场景:流量党狂喜,企业成本大降

  • 个人用户省流:按照实测,观看1小时4K视频,GVC仅消耗120MB流量,是HEVC的1/6。对于每月10GB流量的用户,相当于“10GB变60GB”,刷短视频、看直播无需再担心流量超额;

  • 视频平台降本:某短视频平台每天上传视频总量达10PB,采用GVC技术后,存储需求可从10PB降至0.2PB,传输带宽成本减少90%以上,每年能节省数亿元运营费用;

  • 远程办公提效:在偏远地区的分支机构,员工用GVC进行4K视频会议,即使带宽仅2Mbps,画面仍清晰流畅,避免传统技术下“听声辨位”的尴尬。

四、行业意义:通信范式跃迁,为6G沉浸式通信奠基

GVC技术的发布,不仅是一项单点技术突破,更代表着视频通信领域的“范式革命”——从香农时代的“数据传输”,迈向AI时代的“智能分发”。

中国电信集团CTO、TeleAI院长李学龙教授提出的“智传网(AI Flow)”理论,为这一革命提供了底层支撑。该理论认为,AI时代的通信本质是“智能的传递与协同”,而GVC正是这一理论的最佳实践:当带宽成为瓶颈时,通过燃烧算力实现通信自由。这种“轻传输、重计算”的模式,也为6G时代的沉浸式通信(如元宇宙会议、全息投影)提供了关键技术支撑——未来,流淌在网络中的可能不再是庞大的原始数据,而是高度浓缩的“智能指令”。

目前,GVC技术的技术报告已发布于arXiv平台,中国电信正联合海事、应急、航天等领域的企业推进试点。随着后续轻量化模型的落地与行业标准的完善,这项“中国电信造”的技术,有望成为全球视频压缩领域的新标杆。

结语:AI改写规则,视频传输进入“语义时代”

从1GB到200KB,GVC技术用0.02%的压缩率,不仅打破了视频传输的物理限制,更重新定义了“通信”的内涵——未来的视频传输,不再是“尽可能多传像素”,而是“精准传递关键智能”。

对于用户而言,这意味着“在哪都能看高清视频”的体验升级;对于行业而言,这标志着视频通信从“带宽依赖”转向“算力驱动”的新赛道;对于国家而言,这是央企在“AI+通信”融合创新中的重要突破,为极端场景通信安全与6G技术布局奠定了基础。

正如李学龙教授所言:“通信的终极目标,是让智能在任何场景下自由流动。GVC只是第一步,未来我们还将通过智传网理论,让AI与通信的融合创造更多可能。”

© 版权声明

相关文章