Video Tree

Paper

motivate:

信息冗余, 大量查询无关信息
查询没有粒度的区分. 部分信息密集区域可能需要更细粒度的时序理解

Method

Adaptive Breadth Expansion

Visual Clustering

根据semantic similarity对视频帧进行聚类以减少冗余.

定义视频帧序列 $V = (F_{1}, \dots, F_{n})$ , 其中 $F_{i}$ 是时间步 $i$ 处的frame, $n$ 是视频长度. 使用pretrained visual encoder (EVA-CLIP-18B) 提取features $f_{i} = E (F_{i}) \in R^{d}$ . 然后使用K-means根据features进行cluster.

Cluster Captioning

使用Captioner对每一个cluster的keyframe(cluster中心的frame)或者keyframe及周围的frame转换为文本描述, 将这些文本描述作为相应cluster的关键语义描述.

Relevance Scoring

使用LLM的推理能力来评估提取信息是否足以回答给定的query.

输入: Captioning ${t_{i} ∣ i = 1, \dots, k}$ 和query $q$ .
输出: 相关性分数 ${r_{i} ∣ i = 1, \dots, k}$ , $r_{i}$ 是第 $i$ 个cluster的分数. 分成三个级别:
1. not relevant
2. somewhat relevant
3. highly relevant

设置 $rele_num_thresh$ , 作为阈值, 决定Adaption过程是否停止. 设置聚类数量的最大值 $max_breadth$ 以避免无限循环.

Relevance-Guided Depth Expansion

对于Somewhat Relevant的cluster, 将其重新聚类成 $w$ 个sub-cluster, $w$ 为树的branch width.

对于highly relevant的cluster, 将其重新聚类成具有 $w$ 宽度的两级树, 同时保留前一级别的信息

LLM Video Reasoning

inference的时候, 从树的root节点开始遍历, 扩展到叶子节点, 从tree的所有cluster中提取keyframe, 并使用captioner生成caption. 然后将这些keyframe的caption按照时间顺序排序, 并连接成一个视频的文本描述.

Knowledge Base

Explorer

VideoTree

Video Tree

Method

Adaptive Breadth Expansion

Relevance-Guided Depth Expansion

LLM Video Reasoning

Graph View

Table of Contents

Backlinks