CANN/asc-devkit Ands API文档
Ands【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品xAtlas A2 训练系列产品 / Atlas A2 推理系列产品x功能说明矢量内每个元素和标量间做与操作支持标量在前和标量在后两种场景其中标量输入支持配置LocalTensor单点元素。计算公式如下idx表示LocalTensor单点元素的位置系数。函数原型Tensor前n个数据计算template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Ands(const U dst, const S src0, const V src1, const int32_t count)Tensor高维切分计算mask逐比特模式template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Ands(const U dst, const S src0, const V src1, uint64_t mask[], const uint8_t repeatTime, const UnaryRepeatParams repeatParams)mask连续模式template typename T BinaryDefaultType, bool isSetMask true, const BinaryConfig config DEFAULT_BINARY_CONFIG, typename U, typename S, typename V __aicore__ inline void Ands(const U dst, const S src0, const V src1, uint64_t mask, const uint8_t repeatTime, const UnaryRepeatParams repeatParams)参数说明表 1模板参数说明参数名描述T预留参数暂未启用为后续的功能扩展做保留需要指定时传入默认值BinaryDefaultType即可。isSetMask是否在接口内部设置mask模式和mask值。true表示在接口内部设置。Tensor高维切分计算API/Tensor前n个数据计算API内部使用了mask的Normal模式/Counter模式一般情况下保持isSetMask默认值即可表示在API内部进行根据开发者传入的mask/count参数进行mask模式和mask值的设置。false表示在接口外部设置。针对Tensor高维切分计算接口对性能要求较高的部分场景下开发者需要使用SetMaskNorm/SetMaskCount设置mask模式并通过SetVectorMask接口设置mask值。本接口入参中的mask值必须设置为MASK_PLACEHOLDER。针对Tensor前n个数据计算接口对性能要求较高的部分场景下开发者需要使用SetMaskCount设置mask模式为Counter模式并通过SetVectorMask接口设置mask值。本接口入参中的count不生效建议设置成1。针对以下型号Tensor前n个数据计算API中的isSetMask参数不生效保持默认值即可。针对Ascend 950PR/Ascend 950DTconfig类型为BinaryConfig当标量为LocalTensor单点元素类型时生效用于指定单点元素操作数位置。默认值DEFAULT_BINARY_CONFIG表示右操作数为标量。struct BinaryConfig { int8_t scalarTensorIndex 1; // 用于指定标量为LocalTensor单点元素时标量的位置0表示左操作数1表示右操作数 }; constexpr BinaryConfig DEFAULT_BINARY_CONFIG {1};ULocalTensor类型根据输入参数dst自动推导相应的数据类型开发者无需配置该参数保证dst满足数据类型的约束即可。SLocalTensor类型或标量类型根据输入参数src0自动推导相应的数据类型开发者无需配置该参数保证src0满足数据类型的约束即可。VLocalTensor类型或标量类型根据输入参数src1自动推导相应的数据类型开发者无需配置该参数保证src1满足数据类型的约束即可。表 2参数说明参数名称类型说明dst输出目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。Ascend 950PR/Ascend 950DT支持的数据类型为int16_t/uint16_t/int64_t/uint64_tsrc0/src1输入源操作数。类型为LocalTensor时支持当作矢量操作数或标量单点元素支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。Ascend 950PR/Ascend 950DT支持的数据类型为int16_t/uint16_t/int64_t/uint64_t类型为标量时Ascend 950PR/Ascend 950DT支持的数据类型为int16_t/uint16_t/int64_t/uint64_t数据类型需要与目的操作数保持一致。count输入参与计算的元素个数。mask[]/mask输入mask用于控制每次迭代内参与计算的元素。逐bit模式可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。mask为数组形式数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时数组长度为2mask[0]、mask[1]∈[0, 264-1]并且不同时为0当操作数为32位时数组长度为1mask[0]∈(0, 264-1]当操作数为64位时数组长度为1mask[0]∈(0, 232-1]。例如mask[8, 0]80b1000表示仅第4个元素参与计算。连续模式表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。当操作数为16位时mask∈[1, 128]当操作数为32位时mask∈[1, 64]当操作数为64位时mask∈[1, 32]。repeatTime输入重复迭代次数。 矢量计算单元每次读取连续的256Bytes数据进行计算为完成对输入数据的处理必须通过多次迭代repeat才能完成所有数据的读取与计算。repeatTime表示迭代的次数。repeatParams输入元素操作控制结构信息具体请参考UnaryRepeatParams。返回值说明无约束说明使用Tensor高维切分计算接口时节省地址空间开发者可以定义一个Tensor供源操作数与目的操作数同时使用即地址重叠相关约束如下对于单次repeatrepeatTime1且源操作数与目的操作数之间要求100%完全重叠不支持部分重叠。对于多次repeatrepeatTime1操作数与目的操作数之间存在依赖的情况下即第N次迭代的目的操作数是第N1次的源操作数不支持地址重叠。源操作数为LocalTensor单点元素的场景不支持源操作数和目的操作数地址重叠。操作数地址对齐要求请参见通用地址对齐约束。针对Ascend 950PR/Ascend 950DTuint64_t/int64_t数据类型仅支持Tensor前n个数据计算接口。左操作数及右操作数中必须有一个为矢量当前不支持左右操作数同时为标量。本接口传入LocalTensor单点数据作为标量时idx参数需要传入编译期已知的常量传入变量时需要声明为constexpr。调用示例Tensor高维切分计算样例-mask连续模式uint64_t mask 128; // repeatTime 4, 单次迭代处理128个数计算512个数需要迭代4次 // dstBlkStride, srcBlkStride 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride 8, 相邻迭代间的地址间隔为8个datablock表示相邻迭代间数据连续读取和写入 // 标量在后示例 AscendC::Ands(dstLocal, src0Local, src1Local[0], mask, 4, { 1, 1, 8, 8 }); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::AndsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, mask, 4, {1, 1, 8, 8});Tensor高维切分计算样例-mask逐bit模式uint64_t mask[2] { UINT64_MAX, UINT64_MAX }; // repeatTime 4, 单次迭代处理128个数计算512个数需要迭代4次 // dstBlkStride, srcBlkStride 1, 每个迭代内src0参与计算的数据地址间隔为1个datablock表示单次迭代内数据连续读取和写入 // dstRepStride, srcRepStride 8, 相邻迭代间的地址间隔为8个datablock表示相邻迭代间数据连续读取和写入 // 标量在后示例 AscendC::Ands(dstLocal, src0Local, src1Local[0], mask, 4, {1, 1, 8, 8}); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::AndsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, mask, 4, {1, 1, 8, 8});Tensor前n个数据计算样例// 标量在后示例 AscendC::Ands(dstLocal, src0Local, src1Local[0], 512); // 标量在前示例 static constexpr AscendC::BinaryConfig config { 0 }; AscendC::AndsBinaryDefaultType, true, config(dstLocal, src0Local[0], src1Local, 512);结果示例如下// 标量在后src1Local[0]作为标量 输入数据src0Local: [1 2 3 ... 512] 输入数据src1Local: [0] 输出数据dstLocal: [0 0 0 ... 0] // 标量在前src0Local[0]作为标量 输入数据src0Local: [0] 输入数据src1Local: [1 2 3 ... 512] 输出数据dstLocal: [0 0 0 ... 0]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考