CANN/catlass 3D卷积偏置算子示例

张

张建站

2026/5/9 15:43:36

10分钟阅读

ConvBias Example Readme【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass代码组织├── 24_conv_bias │ ├── CMakeLists.txt # CMake编译文件 │ ├── README.md | ├── gen_data.py # 生成输入及标杆数据 │ └── conv_bias.cpp # 主文件功能介绍实现3D卷积功能。计算公式我们假定输入input的shape是 $(N, C_{\text{in}}, D_i, H_i, W_i)$ weight的shape是 $(C_{\text{out}}, C_{\text{in}}, K_d, K_h, K_w)$输出output的shape是 $(N, C_{\text{out}}, D_o, H_o, W_o)$那输出将被表示为$$ \text{out}(N_i, C_{\text{out}j}) \text{bias}(C{\text{out}j}) \sum{k 0}^{C_{\text{in}} - 1} \text{weight}(C_{\text{out}_j}, k) \star \text{input}(N_i, k) $$其中$\star$表示互相关的计算。$N$代表batch size$C$代表通道数$D$、$H$和$W$分别代表深度、高度和宽度相应输出维度的计算公式如下$$ D_o[(D_i 2 * padding[0] - dilation[0] * (K_d - 1) - 1 ) / stride[0]] 1 \ H_o[(H_i 2 * padding[1] - dilation[1] * (K_h - 1) - 1 ) / stride[1]] 1 \ W_o[(W_i 2 * padding[2] - dilation[2] * (K_w - 1) - 1 ) / stride[2]] 1 $$当前实现相较于cann仅支持w轴全载的基础Conv3D功能不涉及weight bypass、L1开doublebuffer、pointwise以及w轴切分等优化手段和分支输入input、weight和bias在L1上的搬运量不能超过硬件限制即需要满足以下条件 $$ weightL1Size K_h * K_w * 512 \ hoInL1Max 16 / W_o 2 \ hiInL1Max (hoInL1Max - 1) * stride[1] 1 (K_h - 1) * dilation[1] \ hiInL1Max min(H_i, hiInL1Max) \ inputL1Size hiInL1Max * W_i * 32 \ biasL1Size 64 \ weightL1Size inputL1Size biasL1Size 524288 $$使用示例获取代码之后编译相应的算子可执行文件可参考quickstart第一步首先执行gen_data.py生成测试样例测试用例需要从命令行输入。# python3 ./examples/24_conv_bias/gen_data.py |batch|cin|di|hi|wi|cout|kd|kh|kw|sD|sH|sW|dD|dH|dW|pD|pH|pW|dtype # 最后一个参数指明数据类型为**float16**或 **bfloat16** python3 ./examples/24_conv_bias/gen_data.py 32 64 1 32 48 128 1 1 1 1 1 1 1 1 1 0 0 0 float16执行该命令后会在当前路径下生成data目录包含算子的输入数据和用于精度验证的golden数据├── data │ ├── fmap.bin # 卷积的featureMapNDC1HWC0的私有格式数据排布为[batch, di, cin1, hi, wi, cin0]其中cin0 16cin1 ceilDiv(cin, cin0) │ ├── weight.bin # 卷积的weightFRACTAL_Z_3D的私有格式数据排布为[kdc1khkw, n1, n0, cin0]其中n0 16n1 ceilDiv(cout, n0) | ├── bias.bin # 卷积的biasND格式数据排布为[cout] │ └── golden.bin # cpu计算卷积的标杆结果 NDC1HWC0的私有格式数据排布为[batch, do, cout1, ho, wo, cout0]其中cout016cout1 ceilDiv(cout, cout0)第二步执行算子这里需要注意的是执行算子的输入shape和上面第一步生成数据的shape一致。# 编译指定用例 bash scripts/build.sh 24_conv_bias cd output/bin # 可执行文件名 |batch|di|cin1|hi|wi|cin0|cout|kd|kh|kw|sD|sH|sW|dD|dH|dW|pD|pH|pW|Device ID # Device ID可选默认为0 ./24_conv_bias 32 1 4 32 48 16 128 1 1 1 1 1 1 1 1 1 0 0 0 0执行结果如下说明精度比对成功。Compare success.【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

云原生架构重塑医疗影像：从数据孤岛到联邦学习的智能演进

1. 项目概述：当磁共振成像遇上云端智能磁共振成像（MRI）作为现代医学诊断的基石，每年在大型医疗机构中产生的数据量早已突破PB级。这些海量的原始k空间数据和重建后的影像，不仅对存储构成了巨大压力，更在传输…...

2026/5/9 15:39:42 阅读更多 →

STM32F103C8T6核心板驱动MPU6050：从I2C时序到OLED显示的保姆级教程

STM32F103C8T6核心板驱动MPU6050：从I2C时序到OLED显示的保姆级教程当你第一次拿到STM32F103C8T6核心板和MPU6050模块时，可能会被I2C通信、寄存器配置、数据解析等一系列概念搞得晕头转向。这篇文章将带你从零开始，一步步实现MPU6050数据的读…...

2026/5/9 15:36:18 阅读更多 →

评价中心成本高难普及，AI介入能否解决规模与严谨性难题？

评价中心：严谨却稀缺的人才选拔方法当一家大公司选拔新任CEO时，会将候选人关进屋子三天，进行模拟董事会、处理危机邮件、带队谈判等活动，六位专家在隔壁观察。这就是评价中心（Assessment Centers）&#xf…...

2026/5/9 15:34:59 阅读更多 →

环境配置与基础教程：2026自动化标注黑科技：使用 Segment Anything (SAM) 零样本辅助标注 YOLO 分割与检测数据集

编者按在计算机视觉项目中，数据标注一直是最让人头疼的环节。根据社区普遍反馈（源自多个CSDN项目经验和公开技术报告），传统人工标注一张包含精细多边形掩码的图像需要3到10分钟，而一个完整的实例分割数据集往往需要上千张图片。如果你曾经带领团队连续加班数周只为了完成…...

2026/5/8 18:17:36 阅读更多 →

如何3步完成TikTok评论数据采集：开源工具的高效实战指南

如何3步完成TikTok评论数据采集：开源工具的高效实战指南【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper TikTokCommentScraper是一个专为抖音内容创作者、市场分析师和社区运营者设计的开源数据…...

2026/5/8 11:05:15 阅读更多 →