首页
商城
  • English
  • 简体中文
首页
商城
  • English
  • 简体中文
  • 产品系列

    • FPGA+ARM

      • GM-3568JHF

        • 一、简介

          • GM-3568JHF 简介
        • 二、快速开始

          • 00 前言
          • 01 环境搭建
          • 02 编译说明
          • 03 烧录指南
          • 04 调试工具
          • 05 软件更新
          • 06 查看信息
          • 07 测试命令
          • 08 应用编译
          • 09 源码获取
        • 三、外设与接口

          • 01 USB
          • 02 显示与触摸
          • 03 以太网
          • 04 WIFI
          • 05 蓝牙
          • 06 TF-Card
          • 07 音频
          • 08 串口
          • 09 CAN
          • 10 RTC
        • 四、应用开发

          • 01 UART读写案例
          • 02 按键检测案例
          • 03 LED灯闪烁案例
          • 04 MIPI屏幕检测案例
          • 05 读取 USB 设备信息案例
          • 06 FAN 检测案例
          • 07 FPGA FSPI 通信案例
          • 08 FPGA DMA 读写案例
          • 09 GPS调试案例
          • 10 以太网测试案例
          • 11 RS485读写案例
          • 12 FPGA IIC 读写案例
          • 13 PN532 NFC读卡案例
          • 14 TF卡读写案例
        • 五、QT开发

          • 01 ARM64交叉编译器环境搭建
          • 02 QT 程序加入开机自启服务
        • 六、RKNN_NPU开发

          • 01 RK3568 NPU 概述
          • 02 开发环境搭建
          • 运行官方 YOLOv5 示例
        • 七、FPGA开发

          • ARM与FPGA通讯
          • FPGA开发手册
        • 八、其他

          • 01 根目录文件系统的修改
          • 02 系统自启服务
        • 九、资料下载

          • 资料下载
    • ShimetaPi

      • M4-R1

        • 一、简介

          • M4-R1简介
        • 二、快速上手

          • 01 OpenHarmony概述
          • 02 镜像烧录
          • 03 应用开发快速上手
          • 04 设备开发快速上手
        • 三、应用开发

          • 01 ArkUI

            • 1 ArkTS语言简介
            • 2 UI 组件-Row 容器介绍
            • 3 UI 组件-Column 容器介绍
            • 4 UI 组件-Text 组件
            • 5 UI 组件-Toggle 组件
            • 6 UI 组件-Slider 组件
            • 7 UI 组件-Animation 组件&Transition 组件
          • 02 资料获取

            • 1 OpenHarmony 官方资料
          • 03 开发须知

            • 1 Full-SDK替换教程
            • 2 引入和使用三方库
            • 3 HDC调试
            • 4 命令行恢复出厂模式
            • 5 升级App为system权限
          • 04 构建第一个应用

            • 1 构建第一个ArkTs应用-HelloWorld
          • 05 案例

            • 01 串口调试助手应用案例
            • 02 手写板应用案例
            • 03 数字时钟应用案例
            • 04 WIFI 信息获取应用案例
        • 四、设备开发

          • 1 Ubuntu环境开发

            • 01 环境搭建
            • 02 下载源码
            • 03 编译源码
          • 2 使用DevEco Device Tool 工具

            • 01 工具简介
            • 02 开发环境的搭建
            • 03 导入SDK
            • 04 HUAWEI DevEco Tool 功能介绍
        • 五、内核外设与接口

          • 01 指南
          • 02 设备树介绍
          • 03 NAPI 入门
          • 04 ArkTS入门
          • 05 NAPI开发实战演示
          • 06 GPIO介绍
          • 07 I2C通讯
          • 08 SPI通信
          • 09 PWM 控制
          • 10 串口通讯
          • 11 TF卡
          • 12 屏幕
          • 13 触摸
          • 14 Ethernet(以太网)
          • 15 M.2 硬盘
          • 16 音频
          • 17 WIFI & BT
          • 18 摄像头
        • 六、资料下载

          • 资料下载
      • M5-R1

        • 一、简介

          • M5-R1 开发文档
        • 二、快速上手

          • 镜像烧录
          • 环境搭建
          • 下载源码
        • 三、外设与接口

          • 树莓派接口
          • GPIO 接口
          • I2C 接口
          • SPI通信
          • PWM控制
          • 串口通讯
          • TF Card
          • 屏幕
          • 触摸
          • 音频
          • RTC
          • Ethernet
          • M.2
          • MINI-PCIE
          • Camera
          • WIFI&BT
        • 四、资料下载

          • 资料下载
      • Pico-G1

        • 一、产品概述

          • 01 芯片与硬件平台介绍
          • 02 SDK版本说明
        • 二、快速入门

          • 01 开发环境搭建
          • 02 镜像编译
          • 03 镜像烧录
          • 04 系统登录
          • 05 网络配置
          • 06 文件传输
          • 07 SDK目录结构
          • 08 部署第一个应用程序
          • 09 部署第一个驱动程序
          • 10 SD卡挂载
        • 三、外设与接口

          • 01 GPIO控制
          • 02 UART串口通信
          • 03 I2C 通信
          • 04 SPI 通信
        • 四、MPP媒体开发

          • 01 MPP媒体处理软件
          • 02 图像处理链路
          • 03 视频输入
          • 04 图像编码
        • 五、NPU与AI

          • 01 NPU驱动与运行库架构
          • 02 .xmm 模型加载
          • 03 SVP视频处理
          • 04 AI降噪 (AI_NR)
        • 六、应用程序示例

          • 01 区域运动检测应用
          • 02 MTCNN 人脸检测应用
    • 开源鸿蒙

      • SC-3568HA

        • 一、简介

          • SC-3568HA简介
        • 二、快速上手

          • OpenHarmony概述
          • 镜像烧录
          • 开发环境准备
          • Hello World应用以及部署
        • 三、应用开发

          • ArkUI

            • 第一章 ArkTS语言简介
            • 第二章 UI组件介绍和实际应用(上)
            • 第三章 UI组件介绍和实际应用(中)
            • 第四章 UI组件介绍和实际应用(下)
          • 拓展

            • 第一章 入门指引
            • 第二章 三方库的引用和使用
            • 第三章 应用编译以及部署
            • 第四章 命令行恢复出厂设置
            • 第五章 系统调试--HDC调试
            • 第六章 APP 稳定性测试
            • 第七章 应用测试
        • 四、设备开发

          • 第一章 环境搭建
          • 第二章 下载源码
          • 第三章 编译源码
        • 五、内核的外设与接口

          • 树莓派接口
          • GPIO 接口
          • I2C 接口
          • SPI通信
          • PWM控制
          • 串口通讯
          • TF Card
          • 屏幕
          • 触摸
          • 音频
          • RTC
          • Ethernet
          • M.2
          • MINI-PCIE
          • Camera
          • WIFI&BT
          • 树莓派拓展板
        • 六、资料下载

          • 资料下载
      • M-K1HSE

        • 一、简介

          • M-K1HSE 简介
        • 二、快速开始

          • 开发环境搭建
          • 源码获取
          • 编译说明
          • 烧录指南
        • 三、应用开发

          • 00 应用开发环境搭建
          • 01 第一个应用-Hello World
        • 四、外设与接口

          • 01 Audio
          • 02 RS485
          • 03 Display
        • 五、系统定制开发

          • 系统移植
          • 系统定制
          • 驱动开发
          • 系统调试
          • OTA升级
        • 六、资料下载

          • 资料下载
    • EVS相机

      • CF-NRS1

        • 一、简介

          • 01-产品介绍
          • 02-相关概念
          • 03-MultiVision Studio 介绍
        • 二、开发

          • 01-ShiMetaPi Hybrid vision SDK 介绍
          • 02-Hybrid_vision_toolkit
          • 03-Hybrid_vision_toolkit API (C++)
          • 04 Hybrid Vision algo
          • 05 Hybrid vision algo API
          • 06 EVS Network Server
          • 07 EVS Time Sync
          • 08 Web Window
        • 三、资料下载

          • 资料下载
        • 四、常见问题

          • 常见问题解决指南
      • CF-CRA2

        • 一、简介

          • CF-NRS2 简介
        • 二、资料下载

          • 资料下载
      • EVS模块

        • 一、相关概念
        • 二、硬件准备与环境配置
        • 三、示例程序使用指南
        • 资料下载
    • AI硬件

      • 1684XB-32T

        • 一、简介

          • AIBOX-1684XB-32简介
        • 二、快速上手

          • 初次使用
          • 网络配置
          • 磁盘使用
          • 内存分配
          • 风扇策略
          • 固件升级
          • 交叉编译
          • 模型量化
        • 三、应用开发

          • 开发简介

            • Sophgo SDK开发
            • SOPHON-DEMO简介
          • 大语言模型

            • 部署Llama3示例
            • Sophon LLM_api_server开发
            • 部署MiniCPM-V-2_6
            • Qwen-2-5-VL图片视频识别DEMO
            • Qwen3-chat-DEMO
            • Qwen3-Qwen Agent-MCP开发
            • Qwen3-langchain-AI Agent
          • 深度学习

            • ResNet(图像分类)
            • LPRNet(车牌识别)
            • SAM(通用图像分割基础模型)
            • YOLOv5(目标检测)
            • OpenPose(人体关键点检测)
            • PP-OCR(光学字符识别)
        • 四、资料下载

          • 资料下载
      • 1684X-416T

        • 简介

          • AIBOX-1684X-416简介
        • Demo简单操作指引

          • shimeta智慧监控demo的简单使用说明
      • RDK-X5

        • 简介

          • RDK-X5 硬件简介
        • 快速开始

          • RDK-X5 快速开始
        • 应用开发

          • AI在线模型开发

            • 实验01-接入火山引擎豆包 AI
            • 实验02-图片分析
            • 实验03-多模态视觉分析定位
            • 实验04-多模态图文比较分析
            • 实验05-多模态文档表格分析
            • 实验06-摄像头运用-AI视觉分析
          • 大语言模型

            • 实验01-语音识别
            • 实验02-语音对话
            • 实验03-多模态图片分析-语音对话
            • 实验04-多模态图片比较-语音对话
            • 实验05-多模态文档分析-语音对话
            • 实验06-多模态视觉运用-语音对话
          • ROS2基础开发

            • 实验01-搭建环境
            • 实验02-工作包的创建及编译
            • 实验03-运行 ROS2 话题通信节点
            • 实验04-ROS2 相机应用
          • 40pin-IO开发

            • 实验01-GPIO 输出(LED闪烁)
            • 实验02-GPIO 输入
            • 实验03-按键控制 LED
            • 实验04-PWM 输出
            • 实验05-串口输出
            • 实验06-IIC 实验
            • 实验07-SPI 实验
          • USB模块开发使用

            • 实验01-USB 语音模块使用
            • 实验02-声源定位模块使用
          • 机器视觉技术实战

            • 实验01-打开 USB 摄像头
            • 实验02-颜色识别检测
            • 实验03-手势识别体验
            • 实验04-YOLOv5物体检测
      • RDK-S100

        • 简介

          • RDK-S100 硬件简介
        • 快速开始

          • RDK-S100 硬件简介
        • 应用开发

          • AI在线模型开发

            • 实验01-接入火山引擎豆包 AI
            • 实验02-图片分析
            • 实验03-多模态视觉分析定位
            • 实验04-多模态图文比较分析
            • 实验05-多模态文档表格分析
            • 实验06-摄像头运用-AI视觉分析
          • 大语言模型

            • 实验01-语音识别
            • 实验02-语音对话
            • 实验03-多模态图片分析-语音对话
            • 实验04-多模态图片比较-语音对话
            • 实验05-多模态文档分析-语音对话
            • 实验06-多模态视觉运用-语音对话
          • ROS2基础开发

            • 实验01-搭建环境
            • 实验02-工作包的创建及编译
            • 实验03-运行 ROS2 话题通信节点
            • 实验04-ROS2 相机应用
          • 40pin-IO开发

            • 实验01-GPIO 输出(LED闪烁)
            • 实验02-GPIO 输入
            • 实验03-按键控制 LED
            • 实验04-PWM 输出
            • 实验05-串口输出
            • 实验06-IIC 实验
            • 实验07-SPI 实验
          • USB模块开发使用

            • 实验01-USB 语音模块使用
            • 实验02-声源定位模块使用
          • 机器视觉技术实战

            • 实验01-打开 USB 摄像头
            • 实验02-图像处理基础
            • 实验03-目标检测
            • 实验04-图像分割
    • 核心板

      • C-3568BQ

        • 简介

          • C-3568BQ 简介
      • C-3588LQ

        • 简介

          • C-3588LQ 简介
      • GC-3568JBAF

        • 简介

          • GC-3568JBAF 简介
      • C-K1BA

        • 简介

          • C-K1BA 简介

02 .xmm 模型加载

.xmm 是 GK7206 NPU 的专有神经网络模型格式,它是一个二进制文件,主要包含以下内容:

内容说明
模型权重 (Weights)量化后的网络参数
计算图结构算子编排、层间连接关系
私有数据 (Private Data)输入/输出 tensor 描述、量化参数等
文件头以 "ZZZZ" 魔数开头

模型来源:通常由训练框架(如 PyTorch/ONNX)导出后,经过 Goke 提供的XMTVM模型转换工具量化并编译生成 .xmm 文件。

说明

.bin 格式的模型文件是更高层 SVP 接口封装使用的模型格式(内部同样调用 NPU 加载 .xmm)

GK7206 提供了两套 API,适用场景不同:

方式API 层级头文件适用场景
底层 CL 接口xmedia_cl_*xmedia_cl.h直接加载 .xmm,完全控制推理流程
高层 SVP 接口xmedia_svp_*xmedia_svp.h使用 .bin 模型,内置前后处理(NMS 等),开箱即用

提示

高层SVP接口请参考SVP视频处理

底层 CL 接口:加载 .xmm 模型的完整步骤

阶段关键操作说明
阶段 1系统初始化初始化 XMedia 系统模块,并初始化 Compute Library(NPU 运行时)
阶段 2获取 NPU 设备并创建上下文先获取设备数量,再获取设备 ID,最后创建上下文作为资源管理基础
阶段 3查询模型所需内存通过 xmedia_cl_graph_querysize_from_file() 获取 workspace 和 weight 的大小
阶段 4分配 NPU 专用内存(MMZ)为 workspace 和 weight 分配物理连续内存,不能使用普通 malloc()
阶段 5加载模型使用 xmedia_cl_graph_loadmodel_from_file_withmem() 或简化版接口加载 .xmm 模型
阶段 6获取输入/输出 Tensor 信息查询输入输出数量并获取完整的 tensor 描述信息
阶段 7准备数据并执行推理分配输入输出缓冲区,设置 tensor 地址,刷新 cache 后执行推理
阶段 8释放资源卸载模型、释放上下文、释放设备、反初始化并释放 MMZ 内存

阶段 1:系统初始化

#include "xmedia_cl.h"
#include "xmedia_mmz.h"
#include "xmedia_sys.h"

// 初始化 XMedia 系统模块
ret = xmedia_sys_init(XMEDIA_NULL);

// 初始化 Compute Library(NPU 运行时)
ret = xmedia_cl_init();

阶段 2:获取 NPU 设备 & 创建上下文

xmedia_cl_u32 num_devices = 0;
xmedia_cl_device_id *devices = NULL;
xmedia_cl_context context = NULL;

// 第一次调用:获取设备数量
ret = xmedia_cl_get_device_ids(XMEDIA_CL_DEVICE_NPU, NULL, &num_devices);

// 分配设备数组
devices = calloc(num_devices, sizeof(xmedia_cl_device_id));

// 第二次调用:获取设备 ID
ret = xmedia_cl_get_device_ids(XMEDIA_CL_DEVICE_NPU, devices, &num_devices);

// 创建上下文(所有资源管理的基础)
xmedia_cl_s32 err_code = 0;
context = xmedia_cl_create_context(num_devices, devices, &err_code);

阶段 3:查询模型所需内存

xmedia_cl_u32 worksize, weightsize;

// 查询模型需要的 workspace 和 weight 大小
ret = xmedia_cl_graph_querysize_from_file("data/neuron_network.xmm",
                                           &worksize, &weightsize);
  • worksize:推理中间结果的临时缓冲区(workspace)
  • weightsize:模型权重占用的空间

阶段 4:分配 NPU 专用内存(MMZ)

xmedia_u64 phy_addr[4] = {0};
void *virt_addr[4] = {0};

// 分配 workspace
if (worksize) {
    XMEDIA_API_SYS_MmzAlloc_Cached(&phy_addr[0], &virt_addr[0],
        "npu_workspace", NULL, worksize);
}

// 分配 weight
if (weightsize) {
    XMEDIA_API_SYS_MmzAlloc_Cached(&phy_addr[1], &virt_addr[1],
        "npu_weight", NULL, weightsize);
}

注意

NPU 使用的是物理连续内存(MMZ),不能用普通 malloc(),必须用 xmedia_mmz_alloc() / xmedia_mmz_map()。

阶段 5:加载模型

xmedia_cl_graph graph = NULL;

// 从文件加载,使用用户提供的内存
ret = xmedia_cl_graph_loadmodel_from_file_withmem(
    &context,
    "data/neuron_network.xmm",   // .xmm 文件路径
    virt_addr[0],                 // workspace 地址
    worksize,                     // workspace 大小
    virt_addr[1],                 // weight 地址
    weightsize,                   // weight 大小
    &graph                        // 输出: graph 句柄
);

也有简化版本(SDK 自动分配内存):

ret = xmedia_cl_graph_loadmodel_from_file(&context, "data/neuron_network.xmm", &graph);

阶段 6:获取输入/输出 Tensor 信息

xmedia_cl_tensor_info_inout input = {0}, output = {0};
xmedia_cl_u32 input_num = 0, output_num = 0;

// 第一次:获取输入数量
ret = xmedia_cl_graph_get_input(graph, input_num, &input);
input_num = input.num;

// 分配 tensor 数组内存
malloc_inout_tensor_mem(&input);

// 第二次:获取完整的输入 tensor 描述(shape, size, type, quant)
ret = xmedia_cl_graph_get_input(graph, input_num, &input);

// 同样方式获取输出
ret = xmedia_cl_graph_get_output(graph, output_num, &output);
output_num = output.num;
malloc_inout_tensor_mem(&output);
ret = xmedia_cl_graph_get_output(graph, output_num, &output);

每个 tensor 包含:

typedef struct {
    xmedia_cl_u32 tensor_id;
    void *addr;              // 数据地址(用户需要设置)
    xmedia_cl_tensor_shape shape;  // 维度信息 (N,C,H,W)
    xmedia_cl_tensor_quant quant;  // 量化参数 (scale, zero_point)
    xmedia_cl_u32 size;      // 数据字节大小
    xmedia_cl_s8 *name;      // tensor 名称
} xmedia_cl_tensor;

阶段 7:准备数据 & 执行推理

// 分配输入/输出缓冲区
XMEDIA_API_SYS_MmzAlloc_Cached(&phy_addr[2], &virt_addr[2],
    "npu_input", NULL, inputsize);
XMEDIA_API_SYS_MmzAlloc_Cached(&phy_addr[3], &virt_addr[3],
    "npu_output", NULL, outputsize);

// 设置输入数据地址(将预处理后的数据写入)
input.tensor[0].addr = virt_addr[2];
// ... 拷贝实际图像数据到 input.tensor[i].addr ...

// 设置输出数据地址
output.tensor[0].addr = virt_addr[3];

// 刷新 cache(确保 NPU 看到最新数据)
XMEDIA_API_SYS_MmzFlushCache(phy_addr[2], virt_addr[2], inputsize);

// 绑定输入输出到 graph
ret = xmedia_cl_graph_set_inout(graph, &input, &output);

// 执行推理(同步)
ret = xmedia_cl_graph_process(graph);

推理完成后,output.tensor[i].addr 中就是推理结果。

阶段 8:释放资源

// 卸载模型
xmedia_cl_graph_unload(graph);

// 释放上下文
xmedia_cl_release_context(context);

// 释放设备
xmedia_cl_release_device_ids(devices, &num_devices);
free(devices);

// 反初始化
xmedia_cl_uninit();
xmedia_sys_exit();

// 释放 MMZ 内存
for (i = 0; i < 4; i++) {
    if (virt_addr[i]) XMEDIA_API_SYS_MmzFree(phy_addr[i], virt_addr[i]);
}

提示

  1. 在使用 NPU 之前,需要先加载内核驱动:
    • 加载 ko 驱动(在 out/xm7206xxx/ko 目录下):./load xm7206v11a -i
    • 或者手动加载 NPU 模块:insmod xm_npu.ko
  2. 详细.xmm模型使用可参考sample/npu/xmm
在 GitHub 上编辑此页
上次更新:
贡献者: ljh
Prev
01 NPU驱动与运行库架构
Next
03 SVP视频处理