Knowledge Base

❯

❯

❯

LLoVi

Jun 09, 20251 min read

paper
LLM
Vision
DL

LLoVi

Paper

motivate: 短视频理解是可行的, 但是拓展到长视频并不简单. 通过短期视觉描述器结合LLM, 完成长视频的理解.

将长视频输入segment into多个短视频, 使用pretrained visual captioner (BLIP2, LaViLa, LLaVA, …)提取textual descriptions
按顺序拼接caption, 给LLM(如, GPT-3.5, GPT-4, LLaMA, …)

Details:

down sample到2 fps, 使用CogAgent为每一帧生成caption
对于长序列, 进行多轮LLM生成, 第一步是总结(将大量的caption进行总结)
使用GPT-4作为LLM进行问答

相关文章: VideoTree

Graph View

Backlinks

Pre

GitHub
Contact Me