CANN/catlass动态优化量化矩阵乘法示例

张

张建站

2026/5/10 0:33:59

10分钟阅读

DynamicOptimizedQuantMatmulPerTokenBasic Example Readme【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass1 背景基于泛化性要求本样例在样例102之外新增了处理量化Matmul的泛化工程实现本样例目前支持PerToken-PerChannel量化Matmul基础模板。量化被广泛应用于现代高性能计算的深度学习模型中特别是在推理过程中。通过量化模型可以在硬件上更高效地运行减少计算资源的消耗和加速推理过程同时降低模型的存储需求。目前支持的量化计算模式包括PerToken量化和PerChannel量化。在以下的介绍中m、n、k变量分别表示Tensor计算的不同轴大小。左矩阵、右矩阵分别指进行矩阵乘法计算的两个输入Tensor。PerToken量化通常用于量化左矩阵对每个Token即左矩阵的一行使用独立的量化参数进行计算。假设左矩阵shape为(m, k)k为reduce轴则生成的PerToken量化参数的shape为(m,)。PerChannel量化通常用于量化右矩阵对每个Channel即右矩阵的一列使用独立的量化参数进行计算。假设右矩阵shape为(k, n)k为reduce轴则生成的PerChannel量化参数的shape为(n,)。一般左矩阵代表激活activationA、右矩阵代表权重weightW本样例目前支持左右矩阵输入数据类型为int8、对左矩阵进行PerToken量化对右矩阵进行PerChannel量化的场景可简记为W8A8 PerToken-PerChannel 全量化Matmul场景。2 文档索引和约束说明2.1 工程说明泛化量化Matmul工程结构说明可参考工程结构说明。本工程遵循与样例102类似的模板生成、Tiling计算、模板选择等流程并根据量化Matmul计算特点进行了适配修改。工程编译前会调用python脚本生成代码具体包括调用各模板的外围代码以及launch_map.h(包含tilingKey和具体Kernel的映射关系)。本工程默认编译为动态库编译完成执行样例前请export动态库路径export LD_LIBRARY_PATH/path/to/catlass/output/shared_lib/lib/:$LD_LIBRARY_PATH2.2 工程结构├── CMakeLists.txt ├── README.md ├── dynamic_optimized_quant_matmul_per_token_basic.cpp ├── impl │ ├── kernel │ │ ├── per_token_matmul_kernel.h │ ├── scripts │ │ ├── templates │ │ │ ├── per_token_matmul_template.py │ │ ├── utils │ │ │ └── config.py │ │ └── wrapper_code_gen.py │ └── wrapper # 自动生成 │ ├── per_token_matmul_kernel_int8_t_layout00.cpp # 自动生成 │ ├── per_token_matmul_kernel_int8_t_layout01.cpp # 自动生成 │ ├── per_token_matmul_kernel_int8_t_layout10.cpp # 自动生成 │ ├── per_token_matmul_kernel_int8_t_layout11.cpp # 自动生成 └── include ├── do_tiling_b8.h ├── dynamic_optimized_matmul_w8a8.h ├── launch_map.h # 自动生成 ├── platform_info.h ├── select_kernel_b8.h ├── tiling_params.h └── utils.h2.3 模板文档模板名称说明PerTokenBasicMatmulPerToken 基础模板文档待补充...2.4 约束说明A、B矩阵的数据类型支持int8。C矩阵的数据类型支持fp16。A、B、C矩阵的数据格式支持NDRowMajor和ColumnMajor。3 编译指定用例bash scripts/build.sh 103_dynamic_optimized_quant_matmul_per_token_basic export LD_LIBRARY_PATH/path/to/catlass/output/shared_lib/lib/:$LD_LIBRARY_PATH cd output/bin # 可执行文件名 |矩阵m轴|n轴|k轴|LayoutA|LayoutB|Device ID # 0 is RowMajor, 1 is ColumnMajor ./103_dynamic_optimized_quant_matmul_per_token_basic 256 512 1024 0 1 0执行结果如下说明精度比对成功。Compare success.如果需要进行批量性能测试请注释掉精度比较代码由于精度比较使用CPU计算golden耗时较长。当前样例输出数据类型为fp16如需修改为bf16请进行以下代码修改后重新编译执行在examples/103_dynamic_optimized_quant_matmul_per_token_basic/include/do_tiling_b8.h中将所有DoTilingB8LayoutXX函数中使用的fp16_t替换为bfloat16。在examples/103_dynamic_optimized_quant_matmul_per_token_basic/dynamic_optimized_quant_matmul_per_token_basic.cpp中搜索fp16_t替换为bfloat16。在examples/103_dynamic_optimized_quant_matmul_per_token_basic/impl/scripts/per_token_matmul_template.py中将element_c由half替换为bfloat16_t。【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

可控RAG智能体：基于LangGraph构建可解释的多跳问答系统

1. 项目概述：一个面向复杂问题的可控RAG智能体如果你正在构建基于大语言模型（LLM）的问答系统，大概率已经体验过传统RAG（检索增强生成）的局限性。简单地将用户问题与文档块进行语义相似度匹配，然…...

2026/5/10 0:33:30 阅读更多 →

胶囊内镜出血检测：从评估指标到深度学习模型的技术演进与实践指南

1. 项目概述：为什么评估指标是胶囊内镜出血检测的“标尺”？在医疗影像分析，尤其是胶囊内镜（Video Capsule Endoscopy, VCE）的出血检测任务中，我们常常听到某个模型的准确率达到了99%，或者召回率…...

2026/5/10 0:32:39 阅读更多 →

MI-CLAIM-GEN：临床生成式AI研究的透明化报告清单深度解析

1. 项目概述：为什么我们需要一份AI临床研究的“说明书”？最近几年，生成式AI在医疗领域的应用热度居高不下，从自动生成病历摘要、辅助诊断报告，到合成医学影像数据用于模型训练，各种新模型、新应用层出不穷。…...

2026/5/10 0:30:35 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/10 0:00:42 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/10 0:01:42 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/10 0:09:21 阅读更多 →