Video Tree

motivate:

  1. 信息冗余, 大量查询无关信息
  2. 查询没有粒度的区分. 部分信息密集区域可能需要更细粒度的时序理解

Method

Adaptive Breadth Expansion

Visual Clustering

根据semantic similarity对视频帧进行聚类以减少冗余.

定义视频帧序列, 其中是时间步处的frame, 是视频长度. 使用pretrained visual encoder (EVA-CLIP-18B) 提取features . 然后使用K-means根据features进行cluster.

Cluster Captioning

使用Captioner对每一个cluster的keyframe(cluster中心的frame)或者keyframe及周围的frame转换为文本描述, 将这些文本描述作为相应cluster的关键语义描述.

Relevance Scoring

使用LLM的推理能力来评估提取信息是否足以回答给定的query.

  • 输入: Captioning 和query .
  • 输出: 相关性分数, 是第个cluster的分数. 分成三个级别:
    1. not relevant
    2. somewhat relevant
    3. highly relevant

设置, 作为阈值, 决定Adaption过程是否停止. 设置聚类数量的最大值以避免无限循环.

Relevance-Guided Depth Expansion

对于Somewhat Relevant的cluster, 将其重新聚类成个sub-cluster, 为树的branch width.

对于highly relevant的cluster, 将其重新聚类成具有宽度的两级树, 同时保留前一级别的信息

LLM Video Reasoning

inference的时候, 从树的root节点开始遍历, 扩展到叶子节点, 从tree的所有cluster中提取keyframe, 并使用captioner生成caption. 然后将这些keyframe的caption按照时间顺序排序, 并连接成一个视频的文本描述.

最终, 向LLM提供基于文本的视频描述.