首页
商城
  • English
  • 简体中文
首页
商城
  • English
  • 简体中文
  • 产品系列

    • FPGA+ARM

      • GM-3568JHF

        • 一、简介

          • GM-3568JHF 简介
        • 二、快速开始

          • 00 前言
          • 01 环境搭建
          • 02 编译说明
          • 03 烧录指南
          • 04 调试工具
          • 05 软件更新
          • 06 查看信息
          • 07 测试命令
          • 08 应用编译
          • 09 源码获取
        • 三、外设与接口

          • 01 USB
          • 02 显示与触摸
          • 03 以太网
          • 04 WIFI
          • 05 蓝牙
          • 06 TF-Card
          • 07 音频
          • 08 串口
          • 09 CAN
          • 10 RTC
        • 四、应用开发

          • 01 UART读写案例
          • 02 按键检测案例
          • 03 LED灯闪烁案例
          • 04 MIPI屏幕检测案例
          • 05 读取 USB 设备信息案例
          • 06 FAN 检测案例
          • 07 FPGA FSPI 通信案例
          • 08 FPGA DMA 读写案例
          • 09 GPS调试案例
          • 10 以太网测试案例
          • 11 RS485读写案例
          • 12 FPGA IIC 读写案例
          • 13 PN532 NFC读卡案例
          • 14 TF卡读写案例
        • 五、QT开发

          • 01 ARM64交叉编译器环境搭建
          • 02 QT 程序加入开机自启服务
        • 六、RKNN_NPU开发

          • 01 RK3568 NPU 概述
          • 02 开发环境搭建
          • 运行官方 YOLOv5 示例
        • 七、FPGA开发

          • ARM与FPGA通讯
          • FPGA开发手册
        • 八、其他

          • 01 根目录文件系统的修改
          • 02 系统自启服务
        • 九、资料下载

          • 资料下载
    • ShimetaPi

      • M4-R1

        • 一、简介

          • M4-R1简介
        • 二、快速上手

          • 01 OpenHarmony概述
          • 02 镜像烧录
          • 03 应用开发快速上手
          • 04 设备开发快速上手
        • 三、应用开发

          • 01 ArkUI

            • 1 ArkTS语言简介
            • 2 UI 组件-Row 容器介绍
            • 3 UI 组件-Column 容器介绍
            • 4 UI 组件-Text 组件
            • 5 UI 组件-Toggle 组件
            • 6 UI 组件-Slider 组件
            • 7 UI 组件-Animation 组件&Transition 组件
          • 02 资料获取

            • 1 OpenHarmony 官方资料
          • 03 开发须知

            • 1 Full-SDK替换教程
            • 2 引入和使用三方库
            • 3 HDC调试
            • 4 命令行恢复出厂模式
            • 5 升级App为system权限
          • 04 构建第一个应用

            • 1 构建第一个ArkTs应用-HelloWorld
          • 05 案例

            • 01 串口调试助手应用案例
            • 02 手写板应用案例
            • 03 数字时钟应用案例
            • 04 WIFI 信息获取应用案例
        • 四、设备开发

          • 1 Ubuntu环境开发

            • 01 环境搭建
            • 02 下载源码
            • 03 编译源码
          • 2 使用DevEco Device Tool 工具

            • 01 工具简介
            • 02 开发环境的搭建
            • 03 导入SDK
            • 04 HUAWEI DevEco Tool 功能介绍
        • 五、内核外设与接口

          • 01 指南
          • 02 设备树介绍
          • 03 NAPI 入门
          • 04 ArkTS入门
          • 05 NAPI开发实战演示
          • 06 GPIO介绍
          • 07 I2C通讯
          • 08 SPI通信
          • 09 PWM 控制
          • 10 串口通讯
          • 11 TF卡
          • 12 屏幕
          • 13 触摸
          • 14 Ethernet(以太网)
          • 15 M.2 硬盘
          • 16 音频
          • 17 WIFI & BT
          • 18 摄像头
        • 六、资料下载

          • 资料下载
      • M5-R1

        • 一、简介

          • M5-R1 开发文档
        • 二、快速上手

          • 镜像烧录
          • 环境搭建
          • 下载源码
        • 三、外设与接口

          • 树莓派接口
          • GPIO 接口
          • I2C 接口
          • SPI通信
          • PWM控制
          • 串口通讯
          • TF Card
          • 屏幕
          • 触摸
          • 音频
          • RTC
          • Ethernet
          • M.2
          • MINI-PCIE
          • Camera
          • WIFI&BT
        • 四、资料下载

          • 资料下载
      • Pico-G1

        • 一、产品概述

          • 01 产品介绍
          • 02 SDK版本基本信息
        • 二、快速入门

          • 01 开发环境搭建
          • 02 镜像编译
          • 03 镜像烧录
          • 04 系统登录
          • 05 网络配置
          • 06 文件传输
          • 07 SDK目录结构
          • 08 部署第一个应用程序
          • 09 部署第一个驱动程序
          • 10 SD卡挂载
        • 三、外设与接口

          • 01 GPIO控制
          • 02 UART串口通信
          • 03 I2C 通信
          • 04 SPI 通信
        • 四、MPP媒体开发

          • 01 MPP媒体处理软件
          • 02 图像处理链路
          • 03 视频输入
          • 04 图像编码
        • 五、NPU与AI

          • 01 NPU驱动与运行库架构
          • 02 .xmm 模型加载
          • 03 SVP视频处理
          • 04 AI降噪 (AI_NR)
        • 六、应用程序示例

          • 01 区域运动检测应用
          • 02 MTCNN 人脸检测应用
    • 开源鸿蒙

      • SC-3568HA

        • 一、简介

          • SC-3568HA简介
        • 二、快速上手

          • OpenHarmony概述
          • 镜像烧录
          • 开发环境准备
          • Hello World应用以及部署
        • 三、应用开发

          • ArkUI

            • 第一章 ArkTS语言简介
            • 第二章 UI组件介绍和实际应用(上)
            • 第三章 UI组件介绍和实际应用(中)
            • 第四章 UI组件介绍和实际应用(下)
          • 拓展

            • 第一章 入门指引
            • 第二章 三方库的引用和使用
            • 第三章 应用编译以及部署
            • 第四章 命令行恢复出厂设置
            • 第五章 系统调试--HDC调试
            • 第六章 APP 稳定性测试
            • 第七章 应用测试
        • 四、设备开发

          • 第一章 环境搭建
          • 第二章 下载源码
          • 第三章 编译源码
        • 五、内核的外设与接口

          • 树莓派接口
          • GPIO 接口
          • I2C 接口
          • SPI通信
          • PWM控制
          • 串口通讯
          • TF Card
          • 屏幕
          • 触摸
          • 音频
          • RTC
          • Ethernet
          • M.2
          • MINI-PCIE
          • Camera
          • WIFI&BT
          • 树莓派拓展板
        • 六、资料下载

          • 资料下载
      • M-K1HSE

        • 一、简介

          • M-K1HSE 简介
        • 二、快速开始

          • 开发环境搭建
          • 源码获取
          • 编译说明
          • 烧录指南
        • 三、应用开发

          • 00 应用开发环境搭建
          • 01 第一个应用-Hello World
        • 四、外设与接口

          • 01 Audio
          • 02 RS485
          • 03 Display
        • 五、系统定制开发

          • 系统移植
          • 系统定制
          • 驱动开发
          • 系统调试
          • OTA升级
        • 六、资料下载

          • 资料下载
    • EVS相机

      • CF-NRS1

        • 一、简介

          • 01-产品介绍
          • 02-相关概念
          • 03-MultiVision Studio 介绍
        • 二、开发

          • 01-ShiMetaPi Hybrid vision SDK 介绍
          • 02-Hybrid_vision_toolkit
          • 03-Hybrid_vision_toolkit API (C++)
          • 04 Hybrid Vision algo
          • 05 Hybrid vision algo API
          • 06 EVS Network Server
          • 07 EVS Time Sync
          • 08 Web Window
        • 三、资料下载

          • 资料下载
        • 四、常见问题

          • 常见问题解决指南
      • CF-CRA2

        • 一、简介

          • CF-NRS2 简介
        • 二、资料下载

          • 资料下载
      • EVS模块

        • 一、相关概念
        • 二、硬件准备与环境配置
        • 三、示例程序使用指南
        • 资料下载
    • AI硬件

      • 1684XB-32T

        • 一、简介

          • AIBOX-1684XB-32简介
        • 二、快速上手

          • 初次使用
          • 网络配置
          • 磁盘使用
          • 内存分配
          • 风扇策略
          • 固件升级
          • 交叉编译
          • 模型量化
        • 三、应用开发

          • 开发简介

            • Sophgo SDK开发
            • SOPHON-DEMO简介
          • 大语言模型

            • 部署Llama3示例
            • Sophon LLM_api_server开发
            • 部署MiniCPM-V-2_6
            • Qwen-2-5-VL图片视频识别DEMO
            • Qwen3-chat-DEMO
            • Qwen3-Qwen Agent-MCP开发
            • Qwen3-langchain-AI Agent
          • 深度学习

            • ResNet(图像分类)
            • LPRNet(车牌识别)
            • SAM(通用图像分割基础模型)
            • YOLOv5(目标检测)
            • OpenPose(人体关键点检测)
            • PP-OCR(光学字符识别)
        • 四、资料下载

          • 资料下载
      • 1684X-416T

        • 简介

          • AIBOX-1684X-416简介
        • Demo简单操作指引

          • shimeta智慧监控demo的简单使用说明
      • RDK-X5

        • 简介

          • RDK-X5 硬件简介
        • 快速开始

          • RDK-X5 快速开始
        • 应用开发

          • AI在线模型开发

            • 实验01-接入火山引擎豆包 AI
            • 实验02-图片分析
            • 实验03-多模态视觉分析定位
            • 实验04-多模态图文比较分析
            • 实验05-多模态文档表格分析
            • 实验06-摄像头运用-AI视觉分析
          • 大语言模型

            • 实验01-语音识别
            • 实验02-语音对话
            • 实验03-多模态图片分析-语音对话
            • 实验04-多模态图片比较-语音对话
            • 实验05-多模态文档分析-语音对话
            • 实验06-多模态视觉运用-语音对话
          • ROS2基础开发

            • 实验01-搭建环境
            • 实验02-工作包的创建及编译
            • 实验03-运行 ROS2 话题通信节点
            • 实验04-ROS2 相机应用
          • 40pin-IO开发

            • 实验01-GPIO 输出(LED闪烁)
            • 实验02-GPIO 输入
            • 实验03-按键控制 LED
            • 实验04-PWM 输出
            • 实验05-串口输出
            • 实验06-IIC 实验
            • 实验07-SPI 实验
          • USB模块开发使用

            • 实验01-USB 语音模块使用
            • 实验02-声源定位模块使用
          • 机器视觉技术实战

            • 实验01-打开 USB 摄像头
            • 实验02-颜色识别检测
            • 实验03-手势识别体验
            • 实验04-YOLOv5物体检测
      • RDK-S100

        • 简介

          • RDK-S100 硬件简介
        • 快速开始

          • RDK-S100 硬件简介
        • 应用开发

          • AI在线模型开发

            • 实验01-接入火山引擎豆包 AI
            • 实验02-图片分析
            • 实验03-多模态视觉分析定位
            • 实验04-多模态图文比较分析
            • 实验05-多模态文档表格分析
            • 实验06-摄像头运用-AI视觉分析
          • 大语言模型

            • 实验01-语音识别
            • 实验02-语音对话
            • 实验03-多模态图片分析-语音对话
            • 实验04-多模态图片比较-语音对话
            • 实验05-多模态文档分析-语音对话
            • 实验06-多模态视觉运用-语音对话
          • ROS2基础开发

            • 实验01-搭建环境
            • 实验02-工作包的创建及编译
            • 实验03-运行 ROS2 话题通信节点
            • 实验04-ROS2 相机应用
          • 40pin-IO开发

            • 实验01-GPIO 输出(LED闪烁)
            • 实验02-GPIO 输入
            • 实验03-按键控制 LED
            • 实验04-PWM 输出
            • 实验05-串口输出
            • 实验06-IIC 实验
            • 实验07-SPI 实验
          • USB模块开发使用

            • 实验01-USB 语音模块使用
            • 实验02-声源定位模块使用
          • 机器视觉技术实战

            • 实验01-打开 USB 摄像头
            • 实验02-图像处理基础
            • 实验03-目标检测
            • 实验04-图像分割
      • RK1828

        • 一、简介

          • RK1828 AI 协处理器
        • 二、快速开始

          • 硬件安装与验证
          • 视美泰AI龙虾一键部署
        • 三、开发指南

          • ClawChips 架构与原理
          • SKILL 使用手册
          • LLM 推理
          • CNN 推理
          • 模型转换
          • SDK 参考

            • RKNN3 SDK 概述
            • RKNN3 Toolkit 安装与使用
            • RKLLM
        • 四、资料下载

          • 资料下载
        • 五、常见问题

          • 常见问题
    • 核心板

      • C-3568BQ

        • 简介

          • C-3568BQ 简介
      • C-3588LQ

        • 简介

          • C-3588LQ 简介
      • GC-3568JBAF

        • 简介

          • GC-3568JBAF 简介
      • C-K1BA

        • 简介

          • C-K1BA 简介

部署MiniCPM-V-2_6

一、 简介

MiniCPM-V-2_6 是一个基于 MiniCPM 架构的多模态预训练模型,专为视觉和语言任务设计,具备高效处理图像和文本的能力,该模型基于 SigLip-400M 和 Qwen2-7B 构建,共有 8B 参数。

1、特性

  • 支持中文。
  • 支持单张图片、多张图片上传。

二、运行步骤

1、克隆项目安装环境和下载模型

1.1 克隆LLM-TPU项目

    git clone https://github.com/sophgo/LLM-TPU.git
    或者下载之后传到板子上根目录/data路径,可以使用MobaXterm 登录ssh后,直接通过自带的SFTP拖进去
    然后在/data/下解压

1.2 安装环境,若已安装请跳过,非ubuntu系统视情况使用yum或其他方式安装

    sudo apt-get update
    sudo apt-get install pybind11-dev
    pip3 install sentencepiece transformers==4.40.0
    pip3 install gradio==3.39.0 mdtex2html==1.2.0 dfss

1.3 下载模型

    ##首先需要先进入到python_demo目录中
    /data/LLM-TPU-main/models/MiniCPM-V-2_6/python_demo/
    ##直接下载编译好的模型
    python3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/minicpmv26_bm1684x_int4_seq1024_imsize448.bmodel

2、python例程

2.1 编译库文件

    mkdir build && cd build                             ##创建编译目录并进入其中
    cmake ..                                            ##cmake 生成Makefile
    make                                                ##编译
    cp *chat* ..                                        ##将编译出来的库拷贝到运行目录

2.2 运行demo

    cd /data/LLM-TPU-main/models/MiniCPM-V-2_6/python_demo/    ##进入python_demo目录
    python3 pipeline.py --model_path minicpmv26_bm1684x_int4_seq1024_imsize448.bmodel --processor_path ../support/processor_config/ --devid 0##运行demo

三、运行效果

    linaro@bm1684:/data/LLM-TPU-main/models/MiniCPM-V-2_6/python_demo$ python3 pipeline.py --model_path minicpmv26_bm1684x_int4_seq1024_imsize448.bmodel --processor_path ../support/processor_config/ --devid 0
    Load ../support/processor_config/ ...
    Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
    Device [ 0 ] loading .....
    bmcpu init: skip cpu_user_defined
    open usercpu.so, init user_cpu_init
    Model[minicpmv26_bm1684x_int4_seq1024_imsize448.bmodel] loading ....
    Done!

    =================================================================
    1. If you want to quit, please enter one of [q, quit, exit]
    2. To create a new chat session, please enter one of [clear, new]
    =================================================================

    Question: 请逐步详细分析,这张图片里有两只狗,对吗?

    Image Num: 1

    Image Path 0: cat.png
    请注意,目前不支持图片size可变,因此图片会进行resize。目标size为export_onnx时的图片size
    请注意,如果你export_onnx.py时使用的是其他图片size,请修改下面这行代码: single_imsize = (448, 448)

    Answer:
    这张图片里有一只狗,不是两只。这只狗是一它的毛色和特征,比如尖耳朵、黑色口吻和红色项圈,可以被识别出来。猫和狗之间亲密的姿势,以及它们相似的毛色,可能会导致混淆,但仔细观察它们的特征,比如狗的口吻形状和耳朵,可以清楚地看出它们之间存在差异。因此,这张图片里有一只狗。
    FTL: 1.784 s
    TPS: 9.662 token/s

四、笔者环境

    Package                   Version
    ------------------------- -----------
    aiofiles                  23.2.1
    aiohappyeyeballs          2.4.4
    aiohttp                   3.10.11
    aiosignal                 1.3.1
    altair                    5.4.1
    annotated-types           0.7.0
    anyio                     4.5.2
    async-timeout             5.0.1
    attrs                     25.1.0
    certifi                   2019.11.28
    chardet                   3.0.4
    click                     8.1.3
    contourpy                 1.1.1
    cycler                    0.12.1
    dbus-python               1.2.16
    dfss                      1.9.2
    distlib                   0.3.9
    distro                    1.9.0
    distro-info               0.23ubuntu1
    exceptiongroup            1.2.2
    fastapi                   0.115.8
    ffmpy                     0.5.0
    filelock                  3.16.1
    Flask                     2.2.2
    fonttools                 4.54.0
    frozenlist                1.5.0
    fsspec                    2025.2.0
    gradio                    3.39.0
    gradio_client             1.3.0
    h11                       0.14.0
    httpcore                  1.0.7
    httpx                     0.28.1
    huggingface-hub           0.29.1
    idna                      2.8
    importlib-metadata        6.0.0
    importlib_resources       6.4.5
    itsdangerous              2.1.2
    Jinja2                    3.1.2
    jiter                     0.9.0
    jsonschema                4.23.0
    jsonschema-specifications 2023.12.1
    kiwisolver                1.4.7
    latex2mathml              3.77.0
    linkify-it-py             2.0.3
    Markdown                  3.7
    markdown-it-py            2.2.0
    MarkupSafe                2.1.2
    matplotlib                3.7.5
    mdit-py-plugins           0.3.3
    mdtex2html                1.2.0
    mdurl                     0.1.2
    mpmath                    1.3.0
    multidict                 6.1.0
    narwhals                  1.28.0
    netifaces                 0.10.4
    networkx                  3.1
    numpy                     1.24.1
    openai                    1.74.0
    orjson                    3.10.15
    packaging                 24.1
    pandas                    2.0.3
    pillow                    10.4.0
    pip                       25.0.1
    pkgutil_resolve_name      1.3.10
    platformdirs              4.3.6
    propcache                 0.2.0
    psutil                    5.9.4
    pydantic                  2.10.6
    pydantic_core             2.27.2
    pydub                     0.25.1
    PyGObject                 3.36.0
    pymacaroons               0.13.0
    PyNaCl                    1.3.0
    pyparsing                 3.1.4
    pyserial                  3.5
    python-apt                2.0.0
    python-dateutil           2.9.0.post0
    python-multipart          0.0.20
    pytz                      2025.1
    PyYAML                    5.3.1
    referencing               0.35.1
    regex                     2024.11.6
    requests                  2.22.0
    requests-unixsocket       0.2.0
    rpds-py                   0.20.1
    safetensors               0.5.2
    semantic-version          2.10.0
    sentencepiece             0.2.0
    setuptools                45.2.0
    six                       1.14.0
    sniffio                   1.3.1
    sophon-arm                3.10.0
    sse-starlette             2.1.3
    ssh-import-id             5.10
    starlette                 0.44.0
    sympy                     1.13.3
    tokenizers                0.19.1
    torch                     2.4.1
    torchaudio                2.4.1
    torchvision               0.19.1
    tqdm                      4.67.1
    transformers              4.40.0
    typing_extensions         4.12.2
    tzdata                    2025.1
    ubuntu-advantage-tools    20.3
    uc-micro-py               1.0.3
    unattended-upgrades       0.1
    urllib3                   1.25.8
    uvicorn                   0.33.0
    virtualenv                20.30.0
    websockets                11.0.3
    Werkzeug                  2.2.2
    wheel                     0.34.2
    yarl                      1.15.2
    zipp                      3.11.0
在 GitHub 上编辑此页
上次更新:
贡献者: xwdong
Prev
Sophon LLM_api_server开发
Next
Qwen-2-5-VL图片视频识别DEMO