当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。
要突破这一瓶颈,亟需重构视频检索的范式——从“专用”走向“通用”。
在这一“大一统”愿景下,香港科技大学(广州)联合阿里巴巴通义实验室展开系统性探索,首次提出通用视频检索概念,并构建了包含16个数据集、覆盖多任务与多领域的综合评测基准UVRB;合成了155万条高质量、多模态、任务多样化的视频-语言训练对;并为多模态大模型底座量身设计了任务金字塔课程训练策略。
由此推出的通用视频嵌入模型GVE(含3B与7B两个版本),在严格零样本设置下全面超越现有14个主流模型,展现出卓越的泛化能力。
这项工作不仅带来了当前性能最强的视频嵌入模型,更通过基准—数据—训练的全链条创新,为视频检索的通用化奠定了方法论基础。

问题动机:高分模型为何难以应对真实视频检索需求?
当前主流视频检索模型(如微软的CLIP4Clip、上海AI Lab的InternVideo2和快手的Unite等)在MSRVTT等经典基准上表现优异,但其能力边界往往局限于粗粒度的文本-视频匹配任务。
这类基准通常使用简短、泛化的文本描述(如“一个人在跳舞”),评估模型是否能从候选集中找到大致对应的视频。然而,真实世界中的用户需求远比这复杂。
例如,用户可能希望通过“文字 + 参考图像”组合查询特定视频,用一段视频片段作为示例进行相似性检索,精确指定空间关系(如“画面左侧穿红衣者”),时间动态(如“从跳跃到落地的连续动作”)或部分相关性(如“只要视频中提及”无人机”即视为相关”)等等。
遗憾的是,现有模型和评测体系对这类多模态输入和细粒度语义理解支持有限,根本原因在于:当前训练数据多源自网络爬取的噪声标签,任务设计高度单一,且评估指标未能反映模型在复杂场景下的鲁棒性与泛化性。
相比之下,图像检索领域已逐步走向统一的多模态表征框架,能够灵活支持文本、图像乃至属性等多种查询形式。
这一趋势表明,通用性(universality)正成为视觉检索系统的核心目标。
受此启发,团队主张将视频检索从“针对特定任务优化”的范式,转向支持多任务、多粒度、多域的通用建模。
团队不仅关注模型在标准测试集上的性能,更致力于构建一个能真正编码复杂视频语义、适应多样化检索需求的系统性解决方案。
迈向视频检索通用化:评测-数据-模型三位一体的全新范式