Bernini核心功能全揭秘:文本生成视频、图像编辑、视频修复一网打尽
Bernini核心功能全揭秘文本生成视频、图像编辑、视频修复一网打尽【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/BerniniBernini是字节跳动推出的一款功能强大的视频生成与编辑框架它结合了基于MLLM的语义规划器和基于DiT的渲染器为用户提供了从文本生成视频、图像编辑到视频修复的一站式解决方案。无论是新手还是专业用户都能通过Bernini轻松实现各种创意需求。✨ Bernini的核心亮点Bernini作为一款先进的视频生成与编辑工具具有诸多令人瞩目的亮点。它采用了统一的框架能够灵活应对多种任务包括文本到图像t2i、图像到图像i2i、文本到视频t2v、视频到视频v2v、参考视频编辑rv2v以及参考到视频r2v等。在视频编辑方面Bernini在领先的闭源商业模型中处于第一梯队。其性能通过自建的竞技场平台进行评估人类标注员对成对编辑进行盲投投票结果被聚合为Bradley-Terry分数和成对胜率矩阵充分证明了其卓越的编辑能力。 简单三步快速上手Bernini1️⃣ 环境准备要运行Bernini需要满足以下要求Python3.11.2CUDA GPU推荐使用Hopper GPUH100/H800/H200以支持FlashAttention-3其他CUDA GPU可回退到FlashAttention-2或PyTorch SDPACUDA toolkit12.4与固定的torch2.5.1cu124匹配最低要求12.3如果要构建FlashAttention-3此外requirements.txt中固定了一些关键依赖包如torch2.5.1cu124、diffusers0.35.2、accelerate0.34.2、transformers4.57.3等。2️⃣ 安装步骤首先克隆仓库git clone https://gitcode.com/hf_mirrors/ByteDance/Bernini.git bernini cd bernini然后安装依赖pip install -r requirements.txt对于可选的额外功能如多GPU序列并行和更快的注意力机制可根据需求进行安装。多GPU序列并行需要Open-VeOmni而更快的注意力机制可选择FlashAttention-2适用于一般CUDA GPU或FlashAttention-3仅适用于Hopper GPU。3️⃣ 模型权重下载Bernini-R使用两组权重Wan2.2 base可从Hugging Face上的Wan-AI/Wan2.2-T2V-A14B-Diffusers获取它提供了VAE、UMT5文本编码器、分词器和Transformer架构/基础权重。在首次运行时会自动下载可通过configs/bernini_renderer_wan22/config.json中的wan22_base进行配置。Bernini-R checkpoint训练好的高噪声/低噪声Transformer权重safetensors可从Hugging Face获取通过--high_noise_ckpt/--low_noise_ckpt参数传入支持本地目录和Hugging Face仓库ID。可以使用huggingface-cli下载模型pip install -U huggingface_hub hf download Wan-AI/Wan2.2-T2V-A14B-Diffusers --local-dir Wan2.2-T2V-A14B-Diffusers hf download ByteDance/Bernini --local-dir Bernini 丰富功能满足多样创作需求文本到图像t2i只需提供文本描述Bernini就能生成对应的图像。在单GPU上运行生成一帧图像需传递--num_frames 1参数python infer_single_gpu.py --high_noise_ckpt hi --low_noise_ckpt lo \ --case assets/testcases/t2i/t2i.json --num_frames 1图像编辑i2i对现有图像进行编辑同样在单GPU上运行生成一帧图像python infer_single_gpu.py --high_noise_ckpt hi --low_noise_ckpt lo \ --case assets/testcases/i2i/i2i.json --num_frames 1文本到视频t2v根据文本描述生成视频可在多GPU上运行torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/t2v/t2v.json视频编辑v2v/mv2v提供了两种视频编辑案例。对于主体保持普通运动的编辑使用v2v任务类型torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/v2v/v2v_case1.json对于需要改变主体运动的编辑mv2v任务类型能提供更好的结果torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/v2v/v2v_case2.json参考视频编辑rv2v有两种参考视频编辑案例。案例1是参考图像引导的视频编辑将源视频中的服装替换为参考图像中的服装torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case1.json案例2是视频插入示例将内容插入源视频可设置为720p/24fps以更清晰地展示插入结果torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case2.json \ --num_frames 121 --fps 24 --max_image_size 1280参考到视频r2v从一个或多个参考图像生成视频torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/r2v/r2v.json️ Gradio演示直观体验操作流程gradio_demo.py通过Gradio UI展示了相同的 pipeline。任务类型下拉菜单会自动填充guidance_mode仍可用户编辑上传的媒体会路由到匹配的插槽结果会内联渲染。单GPU运行python gradio_demo.py --high_noise_ckpt hi --low_noise_ckpt lo --port 78608 GPU运行8路Ulysses序列并行torchrun --nproc-per-node 8 gradio_demo.py --ulysses 8 \ --high_noise_ckpt hi --low_noise_ckpt lo --port 7860 --share添加--use_pe并export OPENAI_API_KEY.../BERNINI_PE_API_KEY...可启用GPT提示增强UI中的复选框是在此标志之上的每个请求开关。 总结Bernini作为一款功能全面的视频生成与编辑框架凭借其强大的性能和丰富的功能为用户提供了便捷高效的创作体验。无论是文本生成视频、图像编辑还是视频修复Bernini都能出色完成。通过简单的安装和操作步骤用户可以快速上手尽情发挥创意打造出令人惊艳的视觉作品。如果你正在寻找一款专业的视频处理工具Bernini绝对是一个值得尝试的选择【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/Bernini创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考