DataCopyL1ToUB【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品xAtlas A2 训练系列产品/Atlas A2 推理系列产品xAtlas 200I/500 A2 推理产品xAtlas 推理系列产品AI CorexAtlas 推理系列产品Vector CorexAtlas 训练系列产品xKirin X90xKirin 9030x功能说明提供从L1 Buffer搬运数据到Unified Buffer的基础能力数据在传输过程中保持原始格式和内容不变支持连续和非连续的数据搬运。函数原型// 连续搬运 template typename T, uint8_t subBlockId 0 __aicore__ inline void DataCopyL1ToUB(const LocalTensorT dst, const LocalTensorT src, const uint32_t count) // 同时支持非连续搬运和连续搬运 template typename T, uint8_t subBlockId 0 __aicore__ inline void DataCopyL1ToUB(const LocalTensorT dst, const LocalTensorT src, const DataCopyParams repeatParams)参数说明表 1模板参数说明参数名描述T操作数的数据类型。支持的数据类型为b8、b16、b32、b64。subBlockIdAI Core上的Vector核ID。根据输入的Vector核ID将数据搬运至对应核上的UB地址。可通过GetSubBlockIdx.md)接口获取Vector核ID。表 2参数说明参数名输入/输出描述dst输出目的操作数类型为LocalTensor。LocalTensor的起始地址要求32字节对齐。src输入源操作数类型为LocalTensor。LocalTensor的起始地址要求32字节对齐。repeatParams输入搬运参数DataCopyParams类型。通过该参数可配置搬运的数据块大小、个数、间隔等信息同时支持非连续和连续搬运。具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_data_copy.h${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。count输入参与搬运的元素个数。说明count * sizeof(T)需要32字节对齐若不对齐搬运量将对32字节做向下取整。表 3DataCopyParams结构体参数定义参数名描述blockCount待搬运的连续传输数据块个数。uint16_t类型取值范围blockCount∈[1, 4095]。blockLen待搬运的每个连续传输数据块的长度单位为DataBlock32字节。uint16_t类型取值范围blockLen∈[1, 65535]。srcGap源操作数相邻连续数据块的间隔前面一个数据块的尾与后面一个数据块的头的间隔单位为DataBlock32字节。uint16_t类型srcGap不要超出该数据类型的取值范围。dstGap目的操作数相邻连续数据块的间隔前面一个数据块的尾与后面一个数据块的头的间隔单位为DataBlock32字节。uint16_t类型dstGap不要超出该数据类型的取值范围。返回值说明无约束说明如果需要执行多个DataCopyL1ToUB指令且DataCopyL1ToUB的目的地址存在重叠需要通过调用PipeBarrier(ISASI).md)来插入同步指令保证多个DataCopyL1ToUB指令的串行化防止出现异常数据。调用示例// srcLocal、dstLocal为half类型的LocalTensor // 使用传入count参数的搬运接口完成连续搬运 AscendC::DataCopyL1ToUB(dstLocal, srcLocal, 512); // 使用传入DataCopyParams参数的搬运接口支持连续和非连续搬运 DataCopyParams intriParams; intriParams.blockCount 1; // 连续数据块个数为1 intriParams.blockLen 512 * sizeof(half) / 32; // 连续数据块长度单位为DataBlock此处长度为512个half元素 intriParams.srcGap 0; // 源操作数做连续搬运 intriParams.dstGap 0; // 目的操作数连续排布 AscendC::DataCopyL1ToUB(dstLocal, srcLocal, intriParams);【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考