ARC-Hunyuan-Video-7B
扫码查看

用于理解真实世界短视频的结构化视频理解模型

ARC-Hunyuan-Video-7B

综合介绍

ARC-Hunyuan-Video-7B 是一个由腾讯开发并开源的强大的多模态模型,专门用于深入理解真实的短视频内容。在当今这个由微信视频号和抖音等平台主导的时代,用户原创的短视频内容变得越来越普遍。这类视频通常包含复杂的视觉元素、密集的音频信息和快节奏的叙事,旨在快速传达情感和观点。传统的视频模型在处理这类内容时往往力不从心。ARC-Hunyuan-Video-7B通过端到端地处理视觉、音频和文本三种信号,实现了对视频内容的深度结构化理解。它不仅仅停留在描述视频画面的层面,而是能够深入分析创作者的意图、情感表达和核心信息。通过在真实世界的部署测试,该模型显著提升了视频检索的点击率和用户的观看时长,证明了其在实际应用中的价值。

功能列表

  • 深度理解真实世界的短视频: ARC-Hunyuan-Video-7B 能够精准分析来自微信视频号、抖音等平台的用户生成内容,深入理解创作者的意图、情感和核心信息。
  • 同步音视频推理: 模型能够同步处理原始的视频和音频信号,从而解答仅靠单一模态无法解决的复杂问题,例如理解小品中的幽默或产品评测中的细节。
  • 精准的时间感知: 模型不仅知道视频中发生了什么,还能准确地知道事件发生的时间点。它支持多粒度的时间戳字幕、时序视频定位和详细的事件摘要。
  • 高级推理和应用通用性: 经过多阶段的强化学习训练,模型展现出强大的推理能力。它支持零样本或少样本的微调,可以轻松适应各种下游应用,如视频标签、推荐和检索。
  • 开源: 模型权重和推理代码完全开源,开发者可以免费使用,并在此基础上进行二次开发。

使用帮助

安装流程

在开始使用 ARC-Hunyuan-Video-7B 之前,你需要先配置好运行环境。模型的推理过程可以在单张 NVIDIA A100 40GB GPU 上完成。如果使用 vLLM 进行部署,官方推荐使用两张 NVIDIA A100 40GB GPU。

1. 克隆仓库并安装依赖

首先,从 GitHub 上克隆项目的代码仓库,并进入项目目录。

git clone https://github.com/TencentARC/ARC-Hunyuan-Video-7B.git
cd ARC-Hunyuan-Video-7B```
**2. 安装 PyTorch**
模型需要特定版本的 PyTorch,你可以使用以下命令进行安装:
```bash
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

3. 安装其他依赖

接着,安装 requirements.txt 文件中列出的所有依赖包。

pip install -r requirements.txt
pip install git+https://github.com/liyz15/transformers.git@arc_hunyuan_video

4. 安装 flash-attention

为了提升模型的运行效率,建议安装 flash-attention。请根据你的 Python 版本选择合适的安装包。如果安装失败,你也可以在 video_inference.py 文件中将 attn_implementation 参数修改为 "sdpa"

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

5. (可选) 安装 vLLM

如果你希望使用 vLLM 加速推理,可以按照以下步骤进行安装:

git submodule update --init --recursive
cd model_vllm/vllm/
export SETUPTOOLS_SCM_PRETEND_VERSION="0.8.5"
wget https://wheels.vllm.ai/ed2462030f2ccc84be13d8bb2c7476c84930fb71/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl
export VLLM_PRECOMPILED_WHEEL_LOCATION=$(pwd)/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl
pip install --editable .
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

模型权重

你需要下载 ARC-Hunyuan-Video-7B 的模型权重,其中包括 ViT、LLM 和原始的 whisper-large-v3。

如何使用

模型目前最擅长处理 5 分钟以内的短视频。如果你的视频超过 5 分钟,建议将视频分割成多个片段进行推理,然后使用一个大语言模型(LLM)来整合结果。

不使用 vLLM 进行推理

进入项目根目录,然后运行以下命令:

cd ARC-Hunyuan-Video-7B
python3 video_inference.py

使用 vLLM 进行推理

同样,在项目根目录下运行:

cd ARC-Hunyuan-Video-7B
python3 video_inference_vllm.py

应用场景

  1. 视频内容分析对视频平台上的海量内容进行自动化的分析和打标,提取视频的关键信息、情感倾向和主题,为内容推荐和审核提供数据支持。
  2. 智能视频检索用户可以通过自然语言描述来搜索视频内容,例如“查找关于制作红烧肉的教程”,模型能够准确地定位到相关的视频片段。
  3. 视频摘要和精彩集锦生成自动为长视频生成简短的摘要或精彩集锦,方便用户快速了解视频内容,提升视频的吸引力。
  4. 视频问答用户可以针对视频内容提出开放式问题,模型能够根据视频的画面和声音信息给出精准的回答。

QA

  1. ARC-Hunyuan-Video-7B 和其他视频模型有什么不同?ARC-Hunyuan-Video-7B 最大的不同在于它对“真实世界”短视频的深度理解能力。它不仅仅是简单地描述画面,而是能够结合音频和文本信息,理解视频的叙事结构、情感表达和创作者的意图,并且能够精确到时间戳。
  2. 我可以在自己的电脑上运行这个模型吗?可以,但你需要一块性能较好的 GPU。官方推荐至少使用 NVIDIA A100 40GB GPU。如果你只是想体验模型的功能,可以考虑使用官方提供的 API 服务。
  3. 这个模型支持中文吗?是的,模型支持中英文视频,并且在处理中文视频方面表现尤为出色。
微信微博Email复制链接