Enhancing Long Video Question Answering with Scene-Localized Frame Grouping

Xuyi Yang^1* Wenhao Zhang^1,2* Hongbo Jin^2* Lin Liu³ Hongbo Xu¹ Yongwei Nie⁴ Fei Yu¹ Fei Ma¹

¹Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, China ²School of Electronic and Computer Engineering, Peking University, Shenzhen, China ³School of Computer Science, Wuhan University, Wuhan, China ⁴University of Science and Technology of China, Hefei, China

Paper Code Dataset Leaderboard

图1: SLFG方法

图2a: SceneQA 任务定义

图2b: LVBench vs LVSQA

引用

@article{your_paper_2024,
  title={你的论文标题},
  author={作者1 and 作者2 and 作者3},
  journal={期刊或会议名称},
  year={2024}
}