CANN/catlass基础矩阵乘示例

张

张建站

2026/5/9 21:44:35

10分钟阅读

BasicMatmul Example Readme【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass功能说明算子功能完成基础矩阵乘计算计算公式$$ \begin{aligned} C A \times B \ C_{i,j} \Sigma_{k} A_{i,k}B_{k,j} \end{aligned} $$ 其中$A$和$B$分别是形如(m,k)(k,n)的输入矩阵$C$是形如(m,n)的输出矩阵。参数说明以下是本样例的运行参数参数名描述约束m矩阵乘中左矩阵A的行-n矩阵乘中右矩阵B的列-k矩阵乘中左矩阵A的列也即右矩阵的行数-deviceId使用的NPU卡ID默认0在设备NPU有效范围内BasicMatmul所涉及的关键模板参数如下:模板参数说明有效范围ElementA左矩阵的数据类型float|fp16_t|bfloat16_t|int8_tElementB右矩阵的数据类型float|fp16_t|bfloat16_t|int8_tElementC结果矩阵的数据类型float|fp16_t|bfloat16_t|int8_tLayoutA左矩阵的排布方式layout::RowMajor|layout::ColumnMajorLayoutB右矩阵的排布方式layout::RowMajor|layout::ColumnMajorLayoutC结果矩阵的排布方式layout::RowMajor约束说明左、右矩阵及结果矩阵的类型应满足下述类型映射条件。ElementAElementBElementCfloatfloatfloat|fp16_t|bfloat16_tfp16_tfp16_tfloat|fp16_t|bfloat16_tbfloat16_tbfloat16_tfloat|fp16_t|bfloat16_tint8_tint8_tint32_t代码组织├── 00_basic_matmul │ ├── CMakeLists.txt # CMake编译文件 │ ├── README.md │ └── basic_matmul.cpp # 主文件使用示例编译样例代码并编译生成相应的算子可执行文件。bash scripts/build.sh 00_basic_matmul切换到可执行文件的编译目录output/bin下执行算子样例程序。测试样例数据随机生成尺寸从命令行输入。cd output/bin ./00_basic_matmul 256 512 1024 0• 256矩阵m轴• 512n轴• 1024k轴• 0Device ID可选默认为0执行结果如下说明样例执行成功。Compare success.【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

电赛小白必看：从LM35到DS18B20，手把手教你搞定温度传感器选型与电路设计

电子设计竞赛实战指南：温度传感器选型与电路设计全解析参加电子设计竞赛的同学们，是否曾在"温度测量"题目前犹豫不决？面对琳琅满目的传感器型号和复杂的电路设计，新手往往感到无从下手。本文将聚焦两种经典温度传感器…...

2026/5/9 21:40:13 阅读更多 →

[具身智能-619]：激光雷达：一维扫描 / 二维扫描本质 + 为什么 3D 靠「多线」就能实现

一、先给结论（一句话）普通单线激光雷达只有一维机械扫描多线激光雷达一维机械旋转多层垂直排布 → 等效实现二维 3D 扫描不用做复杂二维摆动扫描，靠多线分层低成本拼成 3D。一、什么是一维扫描、什么是二维扫描？1. 一维扫描…...

2026/5/9 21:39:34 阅读更多 →

基于Node.js与Telegram Bot构建本地AI助手：远程调用Claude Code实战

1. 项目概述：将本地Claude Code打造成24小时在线的Telegram机器人如果你和我一样，经常在手机或平板电脑上突然冒出一些代码调试的想法，或者想远程查看一下服务器上的日志，但又懒得打开电脑，那么这个项目绝对值得你花时…...

2026/5/9 21:36:59 阅读更多 →

环境配置与基础教程：2026自动化标注黑科技：使用 Segment Anything (SAM) 零样本辅助标注 YOLO 分割与检测数据集

编者按在计算机视觉项目中，数据标注一直是最让人头疼的环节。根据社区普遍反馈（源自多个CSDN项目经验和公开技术报告），传统人工标注一张包含精细多边形掩码的图像需要3到10分钟，而一个完整的实例分割数据集往往需要上千张图片。如果你曾经带领团队连续加班数周只为了完成…...

2026/5/9 20:36:48 阅读更多 →

如何3步完成TikTok评论数据采集：开源工具的高效实战指南

如何3步完成TikTok评论数据采集：开源工具的高效实战指南【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper TikTokCommentScraper是一个专为抖音内容创作者、市场分析师和社区运营者设计的开源数据…...

2026/5/9 21:12:10 阅读更多 →