用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

当前视频检索研究正陷入一个闭环困境：以MSRVTT为代表的窄域基准，长期主导模型在粗粒度文本查询上的优化，导致训练数据有偏、模型能力受限，难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。

要突破这一瓶颈，亟需重构视频检索的范式——从“专用”走向“通用”。

在这一“大一统”愿景下，香港科技大学（广州）联合阿里巴巴通义实验室展开系统性探索，首次提出通用视频检索概念，并构建了包含16个数据集、覆盖多任务与多领域的综合评测基准UVRB；合成了155万条高质量、多模态、任务多样化的视频-语言训练对；并为多模态大模型底座量身设计了任务金字塔课程训练策略。

由此推出的通用视频嵌入模型GVE（含3B与7B两个版本），在严格零样本设置下全面超越现有14个主流模型，展现出卓越的泛化能力。

这项工作不仅带来了当前性能最强的视频嵌入模型，更通过基准—数据—训练的全链条创新，为视频检索的通用化奠定了方法论基础。

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

问题动机：高分模型为何难以应对真实视频检索需求？

当前主流视频检索模型（如微软的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等）在MSRVTT等经典基准上表现优异，但其能力边界往往局限于粗粒度的文本-视频匹配任务。

这类基准通常使用简短、泛化的文本描述（如“一个人在跳舞”），评估模型是否能从候选集中找到大致对应的视频。然而，真实世界中的用户需求远比这复杂。

例如，用户可能希望通过“文字 + 参考图像”组合查询特定视频，用一段视频片段作为示例进行相似性检索，精确指定空间关系（如“画面左侧穿红衣者”），时间动态（如“从跳跃到落地的连续动作”）或部分相关性（如“只要视频中提及”无人机”即视为相关”）等等。

遗憾的是，现有模型和评测体系对这类多模态输入和细粒度语义理解支持有限，根本原因在于：当前训练数据多源自网络爬取的噪声标签，任务设计高度单一，且评估指标未能反映模型在复杂场景下的鲁棒性与泛化性。

相比之下，图像检索领域已逐步走向统一的多模态表征框架，能够灵活支持文本、图像乃至属性等多种查询形式。

这一趋势表明，通用性（universality）正成为视觉检索系统的核心目标。

受此启发，团队主张将视频检索从“针对特定任务优化”的范式，转向支持多任务、多粒度、多域的通用建模。

团队不仅关注模型在标准测试集上的性能，更致力于构建一个能真正编码复杂视频语义、适应多样化检索需求的系统性解决方案。

迈向视频检索通用化：评测-数据-模型三位一体的全新范式

体育知识更多>>