SKILL 使用手册

ClawChips 内置了一系列基于 RK1828 模组运行的算法 SKILL，可通过 QQ 机器人直接对话触发。

使用前提

算法模型已安装：ASR/TTS/VLM 模型权重随 ClawChips 固件预装，位于 /userdata/ 下
RK1828 NPU 正常：rknn3_transfer_proxy devices 能检测到设备
ModelHub 运行中：负责调度底层模型服务
未运行本地大模型：本地 LLM 会占满 RK1828 内存，导致 SKILL 不可用

重要

本地大模型和 SKILL 算法互斥。启动本地大模型后，RK1828 内存基本占满，无法同时使用 ASR/TTS/VLM/RAG。推荐使用云端模型对话 + 本地 NPU 跑 SKILL。

rk-remind 定时提醒

通过 QQ 机器人对话创建、查询、取消提醒，支持一次性和周期性任务。

用户发送提醒请求

提醒触发

提醒时间更改与触发

用户说法	Agent 行为
"5分钟后提醒我喝水"	计算绝对时间 → 创建一次性提醒
"每天8点提醒我打卡"	创建 cron 周期任务 `0 8 * * *`
"工作日9点提醒开会"	创建 cron 任务 `0 9 * * 1-5`
"我有哪些提醒"	查询列表 `openclaw cron list`
"取消喝水提醒"	查询后删除 `openclaw cron remove <id>`

取消提醒

morning-briefing 早安播报

视美泰自研 Skill。每天早上自动推送一条消息，包含：问候 + 天气 + 今日提醒。（图中示例因时间关系选择下午进行展示）

早安播报效果

早上好！今天是 6月13日 星期五。

深圳今天 31°C 多云，紫外线强，记得防晒。

你今天有 2 个安排：
- 14:00 需求评审会
- 18:30 买猫粮

加油，打工人！

在 QQ 中对机器人说 "每天早上8点给我发早安播报" 即可开启。自定义：

需求	操作
改时间	"把早安播报改到7点半"
改周期	"工作日才播报"
取消	"取消早安播报"

rk-vl 图片识别

基于 Qwen3-VL-2B 的视觉语言模型，支持 USB 摄像头监控和 QQ 发图识别两种场景。

USB 摄像头监控

用户：帮我监控摄像头，当有快递出现的时候提醒我
机器人：已开启摄像头监控，目标为「快递」。检测到时会立即提醒你。

重要

使用摄像头监控需要外接 USB 摄像头。

QQ 发图识别

手机拍照发送给 QQ 机器人即可获取相关信息，AI 自动识别并描述内容。

工作原理：

用户在 QQ 发图 → OpenClaw 接收图片 → AI 调用 vl.sh → VLM 服务推理 → 返回描述

VLM 推理服务以 systemd 常驻方式运行，视美泰封装的 VLM 推理服务端口 127.0.0.1:7879：

# 检查服务状态
systemctl status vlm.service

# 调用测试
bash /userdata/models/Qwen3-VL-2B/vl.sh "/path/to/image.jpg" "<image>描述这张图片"
# 返回 JSON: {"text": "图片描述...", "vision_ms": 130, "llm_ms": 500}

基于 rknn3-toolkit-lite Python API，支持图片路径输入、Base64 输入、自定义 prompt、线程安全多请求并发。

VLM 性能数据

阶段	耗时	说明
Vision 推理	~130ms	图片编码到 embedding
LLM 推理	300-700ms	根据 prompt 复杂度
端到端	<1s	从收到图到返回描述

组件	NPU 内存占用
VLM 常驻服务	~2GB / 5GB
云端 API 对话	0
可用剩余	~3GB

关键：VLM 常驻 + 云端 API 对话可以同时工作，VLM 只占 NPU 内存，对话走网络不占 NPU。

rk-asr 语音识别

将音频文件转换为文字，支持板端音频路径和 QQ 直接上传。

用户：帮我转录音频文件：/userdata/40s_rkdc.wav
机器人：（返回转录文字，长音频生成 TXT 文档）

短音频（30 秒内）直接返回文字，长音频（超过 30 秒）生成 TXT 文档。在 QQ 聊天框直接发送音频文件也可触发。

rk-tts 语音合成

文字转语音，支持返回音频文件或开发板直接播放。

用户：帮我把下面这段话转成音频："夜幕笼罩着古老的城堡..."
机器人：（发送音频文件）

rk-rag 知识库问答

将 Markdown 文档分块、向量化并存储到本地 SQLite 数据库，基于语义相似度检索相关内容，结合云端大模型生成回答。

用户发送建库请求

用户：帮我将 RK1828-FAQ.md 加入 rk 知识库
机器人：目标知识库：rk1828.db / 新增 chunk：16 条 / chunk 总数：16 条

用户：根据 rk1828 知识库，RK1828 的推理速度是多少
机器人：（基于知识库内容生成回答）

部署 Embedding Server

RAG 检索依赖 Embedding Server（bge-small-zh-v1.5 模型，512 维），纯 numpy 推理，CPU 上运行，不占用 NPU。

# 下载模型
pip3 install modelscope
modelscope download --model BAAI/bge-small-zh-v1.5 --local-dir ~/embedding-server/models/bge-small-zh

# 安装依赖
python3 -m venv ~/embedding-server
source ~/embedding-server/bin/activate
pip install fastapi uvicorn numpy safetokens

# 启动
~/embedding-server/bin/python3 ~/embedding-server/server.py
# 默认监听 http://0.0.0.0:18080

# 验证
curl -s http://localhost:18080/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{"model":"bge-small-zh-v1.5","input":"测试文本"}' \
  | python3 -c "import sys,json; d=json.load(sys.stdin); print('维度:', len(d['data'][0]['embedding']))"
# 输出: 维度: 512

rk-meeting-watcher 会议监控

实时监听会议语音，匹配预设关键词，命中后推送 QQ 提醒。

重要

需提前安装 alsa-utils：sudo apt install alsa-utils。建议搭配外接 USB 麦克风。

用户：开启会议监听，关键词"龙虾"
机器人：已开启会议监听。

（命中关键词后推送）
机器人：您设置的关键词已触发，请关注会议！

rk-binary-image-decoder 二进制图片解码

将摄像头/ISP 输出的裸像素数据（.bin/.raw/.yuv）转换为 PNG 图片。支持 NV12/NV16/NV24/AB24/BG24/NV15/NV20 格式。

python3 <技能目录>/scripts/CVT_NV12.py camera_capture.bin 1920 1080 1920 output.png

NV12	NV16	NV24

自定义 Skill 开发

每个 Skill 位于 ~/.openclaw/workspace/skills/<skill-name>/ 目录下：

skills/
└── my-skill/
    ├── TOOLS.md          # Skill 工具定义（OpenClaw 读取）
    ├── run.py            # Skill 主逻辑
    ├── config.yaml       # Skill 配置（可选）
    └── requirements.txt  # Python 依赖（可选）

TOOLS.md 定义 Skill 提供给 Agent 的工具描述：

# My Skill Tools

## my_tool_name
**Description**: 对这个工具的描述，当用户说xxx时调用此工具
**Parameters**:
- `param1` (string, required): 参数1说明
**Returns**: 返回结果的描述

开发流程：

在 ~/.openclaw/workspace/skills/ 下创建 Skill 目录
编写 TOOLS.md 定义工具描述
编写 run.py 实现工具逻辑
通过 QQ 机器人对话触发测试

参考链接：

← 上一篇：ClawChips 架构与原理 | → 下一篇：LLM 推理