FSQ量化技术:TinyWorlds如何将连续视频压缩为离散 token 词汇表?
FSQ量化技术TinyWorlds如何将连续视频压缩为离散 token 词汇表【免费下载链接】tinyworldsA minimal implementation of DeepMinds Genie world model项目地址: https://gitcode.com/gh_mirrors/ti/tinyworldsTinyWorlds是一个受DeepMind Genie世界模型启发的轻量级实现它通过创新的视频压缩技术将连续视频数据转换为离散token词汇表。其中有限标量量化FSQ技术是这一过程的核心它能够高效地将高维连续视频嵌入转换为可处理的离散表示。什么是FSQ量化技术有限标量量化FSQ是一种将连续数值映射到有限离散集合的技术。在TinyWorlds中FSQ负责将视频编码器生成的连续嵌入转换为离散的视频token这一步骤对于后续的序列建模和世界状态预测至关重要。从上图可以看到FSQ的工作流程包括将输入值调整到[-1, 1]范围应用tanh函数进行非线性变换转换到[0, bins]范围四舍五入为整数索引最终生成离散视频token这一过程通过Straight through gradient技术解决了量化过程中的梯度传递问题使得整个模型可以端到端训练。视频token化的完整流程FSQ是TinyWorlds视频tokenizer的关键组成部分。视频tokenizer的完整流程包括像素到补丁的转换、时空Transformer编码和FSQ量化三个主要步骤。视频tokenizer的工作流程如下Pixel-to-Patch Conv2D将原始视频帧转换为空间补丁Space-Time Transformer对时空信息进行编码FSQ量化将连续嵌入转换为离散token逆过程通过视频detokenizer重建视频这一过程能够将原始视频高效压缩为离散token序列同时保留关键的时空信息为后续的动态模型预测奠定基础。FSQ在TinyWorlds整体架构中的作用FSQ量化技术是TinyWorlds整个架构的核心环节之一它连接了视频编码器和动态预测模型。在TinyWorlds架构中原始视频通过视频tokenizer包含FSQ转换为视频token动作通过动作tokenizer转换为动作token动态模型结合视频token和动作token预测未来视频token预测的视频token通过视频detokenizer重建为视频FSQ确保了视频数据能够以高效的离散形式进行处理和预测大大降低了后续动态模型的计算复杂度同时保持了高保真的视频重建能力。如何开始使用TinyWorlds要开始使用TinyWorlds项目您可以通过以下步骤克隆仓库git clone https://gitcode.com/gh_mirrors/ti/tinyworlds项目提供了完整的训练和推理脚本您可以在scripts/目录下找到这些工具包括train_video_tokenizer.py训练视频tokenizertrain_dynamics.py训练动态模型run_inference.py运行推理预测通过配置文件configs/video_tokenizer.yaml您可以调整FSQ量化的参数如量化 bins 数量等以适应不同的应用场景和性能需求。FSQ量化技术为TinyWorlds提供了高效的视频压缩方案使得在资源受限的环境中部署复杂的世界模型成为可能。无论是游戏AI、机器人控制还是视频预测TinyWorlds都展示了将连续视频转换为离散token词汇表的强大能力。【免费下载链接】tinyworldsA minimal implementation of DeepMinds Genie world model项目地址: https://gitcode.com/gh_mirrors/ti/tinyworlds创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考