爱AI工具库,国内AIGC产品探索者分享平台
注册
99%工具无需特殊网络!
当前位置:首页

一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限

爱AI工具库 2024-10-28
30

长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。Video-XL 借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,而且在长视频理解上展现了出色的泛化能力。Video-XL 相较于同等参数规模的模型,在多个主流长视频理解基准评测的多项任务中排名第一。此外,Video-XL 在效率与性能之间实现了良好的平衡,仅需一块 80G 显存的显卡即可处理 2048 帧输入(对小时级长度视频采样),并在视频「大海捞针」任务中取得了接近 95% 的准确率。▲ 仅需几秒钟,VideoXL 便可以准确检索长视频中植入的广告内容,也可以像人类一样准确理解电影中发生的主要事件未来,Video-XL 有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。论文标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding论文链接:https://arxiv.org/abs/2409.14485模型链接:https://huggingface.co/sy1998/Video_XL项目链接:https://github.com/VectorSpaceLab/Video-XL图 1 不同长视频模型在单块 80G 显卡上支持的最大帧数及在 Video-MME 上的表现背景介绍使用 MLLM 进行长视频理解具有极大的研究和应用前景。然而,当前的视频理解模型往往只能处理较短的视频,无法处理十分钟以上的视频。尽管最近研究社区出现了一些长视频理解模型,但这些工作主要存在以下问题:压缩视觉 token 带来的信息损失为了使语言模型的固定窗口长度适应长视频带来的大量视觉 token,众多方法尝试设计机制对视觉 token 进行压缩,例如 LLaMA-VID 主要降低 token 的数量,而 MovieChat,MALMM 则设计 memory 模块对帧信息进行压缩。然而,压缩视觉信息不可避免带来信息的损失和性能降低。性能和效率的不平衡相关工作 LongVA 尝试 finetune 语言模型扩大其上下文窗口,并成功将短视频理解能力泛化到了长视频上。LongVila 优化了长视频训练的开销,提出了高效训练长视频训练的范式。然而,这些工作并未考虑推理时视频帧数增加带来的计算开销。方法介绍1. 模型结构图 2 Video-XL 模型结构图如图 2 所示,Video-XL 的整体模型结构和主流的 MLLMs 结构相似,由视觉编码器(CLIP),视觉-语言映射器(2-layer MLP)以及语言模型(Qwen-7B)构成。特别之处在于,为了处理各种格式的多模态数据(单图,多图和视频),Video-XL 建立了一个统一的视觉编码机制。针对多图和视频数据,将每帧分别输入 CLIP;针对单图,将其划分为多个图像块,并将图像块输入 CLIP 进行编码。因此,一个 N 帧的视频或者一个 N 图像块的图片都将统一标记成 N×M 视觉 token。2. 视觉上下文隐空间压缩相比于以往长视频模型直接对视觉 token 压缩,Video-XL 尝试利用语言模型对上下文的建模能力对长视觉序列进行无损压缩。对于视觉语言连接器输出的视觉信号序列:其中 n 为视觉 token 的数量。Video-XL 的目标在于将 X 压缩成更为紧凑的视觉表示 C (|C|

来源:IT之家

相关推荐

暂无数据

评论 ( 0 )

aiaitool@163.com

打开微信扫一扫

qrcode

回顶部

×

我的收藏

请先登录登录

请先登录登录