Bernini核心功能全揭秘：文本生成视频、图像编辑、视频修复一网打尽

张

张建站

2026/6/4 10:07:21

10分钟阅读

Bernini核心功能全揭秘文本生成视频、图像编辑、视频修复一网打尽【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/BerniniBernini是字节跳动推出的一款功能强大的视频生成与编辑框架它结合了基于MLLM的语义规划器和基于DiT的渲染器为用户提供了从文本生成视频、图像编辑到视频修复的一站式解决方案。无论是新手还是专业用户都能通过Bernini轻松实现各种创意需求。✨ Bernini的核心亮点Bernini作为一款先进的视频生成与编辑工具具有诸多令人瞩目的亮点。它采用了统一的框架能够灵活应对多种任务包括文本到图像t2i、图像到图像i2i、文本到视频t2v、视频到视频v2v、参考视频编辑rv2v以及参考到视频r2v等。在视频编辑方面Bernini在领先的闭源商业模型中处于第一梯队。其性能通过自建的竞技场平台进行评估人类标注员对成对编辑进行盲投投票结果被聚合为Bradley-Terry分数和成对胜率矩阵充分证明了其卓越的编辑能力。简单三步快速上手Bernini1️⃣ 环境准备要运行Bernini需要满足以下要求Python3.11.2CUDA GPU推荐使用Hopper GPUH100/H800/H200以支持FlashAttention-3其他CUDA GPU可回退到FlashAttention-2或PyTorch SDPACUDA toolkit12.4与固定的torch2.5.1cu124匹配最低要求12.3如果要构建FlashAttention-3此外requirements.txt中固定了一些关键依赖包如torch2.5.1cu124、diffusers0.35.2、accelerate0.34.2、transformers4.57.3等。2️⃣ 安装步骤首先克隆仓库git clone https://gitcode.com/hf_mirrors/ByteDance/Bernini.git bernini cd bernini然后安装依赖pip install -r requirements.txt对于可选的额外功能如多GPU序列并行和更快的注意力机制可根据需求进行安装。多GPU序列并行需要Open-VeOmni而更快的注意力机制可选择FlashAttention-2适用于一般CUDA GPU或FlashAttention-3仅适用于Hopper GPU。3️⃣ 模型权重下载Bernini-R使用两组权重Wan2.2 base可从Hugging Face上的Wan-AI/Wan2.2-T2V-A14B-Diffusers获取它提供了VAE、UMT5文本编码器、分词器和Transformer架构/基础权重。在首次运行时会自动下载可通过configs/bernini_renderer_wan22/config.json中的wan22_base进行配置。Bernini-R checkpoint训练好的高噪声/低噪声Transformer权重safetensors可从Hugging Face获取通过--high_noise_ckpt/--low_noise_ckpt参数传入支持本地目录和Hugging Face仓库ID。可以使用huggingface-cli下载模型pip install -U huggingface_hub hf download Wan-AI/Wan2.2-T2V-A14B-Diffusers --local-dir Wan2.2-T2V-A14B-Diffusers hf download ByteDance/Bernini --local-dir Bernini 丰富功能满足多样创作需求文本到图像t2i只需提供文本描述Bernini就能生成对应的图像。在单GPU上运行生成一帧图像需传递--num_frames 1参数python infer_single_gpu.py --high_noise_ckpt hi --low_noise_ckpt lo \ --case assets/testcases/t2i/t2i.json --num_frames 1图像编辑i2i对现有图像进行编辑同样在单GPU上运行生成一帧图像python infer_single_gpu.py --high_noise_ckpt hi --low_noise_ckpt lo \ --case assets/testcases/i2i/i2i.json --num_frames 1文本到视频t2v根据文本描述生成视频可在多GPU上运行torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/t2v/t2v.json视频编辑v2v/mv2v提供了两种视频编辑案例。对于主体保持普通运动的编辑使用v2v任务类型torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/v2v/v2v_case1.json对于需要改变主体运动的编辑mv2v任务类型能提供更好的结果torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/v2v/v2v_case2.json参考视频编辑rv2v有两种参考视频编辑案例。案例1是参考图像引导的视频编辑将源视频中的服装替换为参考图像中的服装torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case1.json案例2是视频插入示例将内容插入源视频可设置为720p/24fps以更清晰地展示插入结果torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case2.json \ --num_frames 121 --fps 24 --max_image_size 1280参考到视频r2v从一个或多个参考图像生成视频torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt hi --low_noise_ckpt lo --ulysses 8 \ --case assets/testcases/r2v/r2v.json️ Gradio演示直观体验操作流程gradio_demo.py通过Gradio UI展示了相同的 pipeline。任务类型下拉菜单会自动填充guidance_mode仍可用户编辑上传的媒体会路由到匹配的插槽结果会内联渲染。单GPU运行python gradio_demo.py --high_noise_ckpt hi --low_noise_ckpt lo --port 78608 GPU运行8路Ulysses序列并行torchrun --nproc-per-node 8 gradio_demo.py --ulysses 8 \ --high_noise_ckpt hi --low_noise_ckpt lo --port 7860 --share添加--use_pe并export OPENAI_API_KEY.../BERNINI_PE_API_KEY...可启用GPT提示增强UI中的复选框是在此标志之上的每个请求开关。总结Bernini作为一款功能全面的视频生成与编辑框架凭借其强大的性能和丰富的功能为用户提供了便捷高效的创作体验。无论是文本生成视频、图像编辑还是视频修复Bernini都能出色完成。通过简单的安装和操作步骤用户可以快速上手尽情发挥创意打造出令人惊艳的视觉作品。如果你正在寻找一款专业的视频处理工具Bernini绝对是一个值得尝试的选择【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/Bernini创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

豆包2026高效使用地图：中文AI助手工作流实战指南

1. 这不是一份“说明书”，而是一张豆包高效使用地图“豆包使用手册（2026完整版）”——看到这个标题，你可能下意识点开想查某个功能怎么用，比如“怎么让豆包写周报”“怎么导出对话记录”“为什么图片生成功能突然变慢了…...

2026/6/4 10:06:04 阅读更多 →

混合专家架构解析：Gemma 4-31B MoE模型的工作原理

混合专家架构解析：Gemma 4-31B MoE模型的工作原理【免费下载链接】gemma-4-31B 项目地址: https://ai.gitcode.com/hf_mirrors/google/gemma-4-31B Gemma 4-31B是Google DeepMind推出的前沿大语言模型，采用了创新的混合专家（MoE&…...

2026/6/4 10:05:57 阅读更多 →

基于PyABSA框架的deberta-v3-base-absa-v1.1模型：从理论到实践的完整指南

基于PyABSA框架的deberta-v3-base-absa-v1.1模型：从理论到实践的完整指南【免费下载链接】deberta-v3-base-absa-v1.1 项目地址: https://ai.gitcode.com/hf_mirrors/NingBo_Ascend/deberta-v3-base-absa-v1.1 deberta-v3-base-absa-v1.1是一款基于PyABSA框…...

2026/6/4 10:05:38 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/4 8:09:45 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/6/4 3:07:29 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/6/4 2:07:02 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/6/4 8:10:02 阅读更多 →