ARC-Hunyuan-Video-7B

2025-07-30基础模型 / 视觉识别模型2364 次浏览

综合介绍

ARC-Hunyuan-Video-7B 是一个由腾讯开发并开源的强大的多模态模型，专门用于深入理解真实的短视频内容。在当今这个由微信视频号和抖音等平台主导的时代，用户原创的短视频内容变得越来越普遍。这类视频通常包含复杂的视觉元素、密集的音频信息和快节奏的叙事，旨在快速传达情感和观点。传统的视频模型在处理这类内容时往往力不从心。ARC-Hunyuan-Video-7B通过端到端地处理视觉、音频和文本三种信号，实现了对视频内容的深度结构化理解。它不仅仅停留在描述视频画面的层面，而是能够深入分析创作者的意图、情感表达和核心信息。通过在真实世界的部署测试，该模型显著提升了视频检索的点击率和用户的观看时长，证明了其在实际应用中的价值。

功能列表

深度理解真实世界的短视频: ARC-Hunyuan-Video-7B 能够精准分析来自微信视频号、抖音等平台的用户生成内容，深入理解创作者的意图、情感和核心信息。
同步音视频推理: 模型能够同步处理原始的视频和音频信号，从而解答仅靠单一模态无法解决的复杂问题，例如理解小品中的幽默或产品评测中的细节。
精准的时间感知: 模型不仅知道视频中发生了什么，还能准确地知道事件发生的时间点。它支持多粒度的时间戳字幕、时序视频定位和详细的事件摘要。
高级推理和应用通用性: 经过多阶段的强化学习训练，模型展现出强大的推理能力。它支持零样本或少样本的微调，可以轻松适应各种下游应用，如视频标签、推荐和检索。
开源: 模型权重和推理代码完全开源，开发者可以免费使用，并在此基础上进行二次开发。

使用帮助

安装流程

在开始使用 ARC-Hunyuan-Video-7B 之前，你需要先配置好运行环境。模型的推理过程可以在单张 NVIDIA A100 40GB GPU 上完成。如果使用 vLLM 进行部署，官方推荐使用两张 NVIDIA A100 40GB GPU。

1. 克隆仓库并安装依赖

首先，从 GitHub 上克隆项目的代码仓库，并进入项目目录。

git clone https://github.com/TencentARC/ARC-Hunyuan-Video-7B.git
cd ARC-Hunyuan-Video-7B```
**2. 安装 PyTorch**
模型需要特定版本的 PyTorch，你可以使用以下命令进行安装：
```bash
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

3. 安装其他依赖

接着，安装 requirements.txt 文件中列出的所有依赖包。

pip install -r requirements.txt
pip install git+https://github.com/liyz15/transformers.git@arc_hunyuan_video

4. 安装 flash-attention

为了提升模型的运行效率，建议安装 flash-attention。请根据你的 Python 版本选择合适的安装包。如果安装失败，你也可以在 video_inference.py 文件中将 attn_implementation 参数修改为 "sdpa"。

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

5. (可选) 安装 vLLM

如果你希望使用 vLLM 加速推理，可以按照以下步骤进行安装：

git submodule update --init --recursive
cd model_vllm/vllm/
export SETUPTOOLS_SCM_PRETEND_VERSION="0.8.5"
wget https://wheels.vllm.ai/ed2462030f2ccc84be13d8bb2c7476c84930fb71/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl
export VLLM_PRECOMPILED_WHEEL_LOCATION=$(pwd)/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl
pip install --editable .
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

模型权重

你需要下载 ARC-Hunyuan-Video-7B 的模型权重，其中包括 ViT、LLM 和原始的 whisper-large-v3。

如何使用

模型目前最擅长处理 5 分钟以内的短视频。如果你的视频超过 5 分钟，建议将视频分割成多个片段进行推理，然后使用一个大语言模型（LLM）来整合结果。

不使用 vLLM 进行推理

进入项目根目录，然后运行以下命令：

cd ARC-Hunyuan-Video-7B
python3 video_inference.py

使用 vLLM 进行推理

同样，在项目根目录下运行：

cd ARC-Hunyuan-Video-7B
python3 video_inference_vllm.py

应用场景

视频内容分析对视频平台上的海量内容进行自动化的分析和打标，提取视频的关键信息、情感倾向和主题，为内容推荐和审核提供数据支持。
智能视频检索用户可以通过自然语言描述来搜索视频内容，例如“查找关于制作红烧肉的教程”，模型能够准确地定位到相关的视频片段。
视频摘要和精彩集锦生成自动为长视频生成简短的摘要或精彩集锦，方便用户快速了解视频内容，提升视频的吸引力。
视频问答用户可以针对视频内容提出开放式问题，模型能够根据视频的画面和声音信息给出精准的回答。

QA

ARC-Hunyuan-Video-7B 和其他视频模型有什么不同？ARC-Hunyuan-Video-7B 最大的不同在于它对“真实世界”短视频的深度理解能力。它不仅仅是简单地描述画面，而是能够结合音频和文本信息，理解视频的叙事结构、情感表达和创作者的意图，并且能够精确到时间戳。
我可以在自己的电脑上运行这个模型吗？可以，但你需要一块性能较好的 GPU。官方推荐至少使用 NVIDIA A100 40GB GPU。如果你只是想体验模型的功能，可以考虑使用官方提供的 API 服务。
这个模型支持中文吗？是的，模型支持中英文视频，并且在处理中文视频方面表现尤为出色。