OpenClaw技能扩展:用Qwen3.5-9B-AWQ-4bit构建个人图片管理助手

张开发
2026/4/7 9:25:29 15 分钟阅读

分享文章

OpenClaw技能扩展:用Qwen3.5-9B-AWQ-4bit构建个人图片管理助手
OpenClaw技能扩展用Qwen3.5-9B-AWQ-4bit构建个人图片管理助手1. 为什么需要图片管理助手作为一个经常需要处理大量截图和素材的内容创作者我的电脑里常年堆积着数千张未整理的图片。手动整理这些图片不仅耗时耗力还经常出现明明记得存过某张图却死活找不到的情况。直到我发现OpenClaw可以通过安装自定义Skill来扩展能力结合Qwen3.5这类多模态模型完全可以打造一个智能图片管理助手。这个想法的核心价值在于自动化重命名让AI根据图片内容生成描述性文件名告别IMG_20240501_123456.jpg这类无意义命名敏感内容过滤自动识别可能不适合公开的图片如含个人信息的截图OCR辅助从图片中提取文字信息方便后续搜索和引用2. 环境准备与模型部署2.1 基础环境搭建我选择在MacBook ProM1芯片16GB内存上部署这套方案。首先确保已经安装好OpenClaw核心框架curl -fsSL https://openclaw.ai/install.sh | bash openclaw onboard --install-daemon在配置向导中我选择了Advanced模式因为需要自定义模型接入。关键配置项包括Provider: 选择Custom后续手动配置Qwen3.5Channels: 跳过暂时不需要飞书/钉钉接入Skills: 选择No我们将手动安装图片管理专用Skill2.2 Qwen3.5-9B-AWQ-4bit模型接入由于Qwen3.5支持多模态理解我们需要在~/.openclaw/openclaw.json中配置模型接入点。我的模型部署在同一局域网的另一台Linux服务器上192.168.1.100:8080配置如下{ models: { providers: { qwen-multimodal: { baseUrl: http://192.168.1.100:8080/v1, apiKey: sk-no-key-required, api: openai-completions, models: [ { id: qwen3.5-9b-awq-4bit, name: Qwen Multimodal, contextWindow: 32768, maxTokens: 8192, supportsImages: true } ] } } } }配置完成后重启OpenClaw网关服务使配置生效openclaw gateway restart验证模型是否可用openclaw models list应该能看到我们刚添加的Qwen Multimodal模型出现在可用列表中。3. 图片管理Skill安装与配置3.1 安装图片管理SkillOpenClaw社区有一个专门处理图片的Skill包image-manager可以通过ClawHub安装clawhub install image-manager安装过程会自动下载依赖并注册到OpenClaw系统中。安装完成后我们需要进行一些基础配置。3.2 关键配置项在~/.openclaw/workspace/TOOLS.md中添加以下环境变量export IMAGE_WORKDIR~/Pictures/ToProcess # 待处理图片目录 export IMAGE_OUTPUT~/Pictures/Processed # 处理完成目录 export SENSITIVE_KEYWORDS身份证,银行卡,密码,隐私 # 敏感内容关键词这些配置告诉Skill从哪里获取待处理的图片处理完成后将图片移动到哪里哪些关键词标识了敏感内容4. 实际工作流演示4.1 批量重命名从混乱到有序我准备了50张混合的截图和照片放在~/Pictures/ToProcess目录下原始文件名都是无意义的随机字符串。通过OpenClaw Web控制台http://127.0.0.1:18789发送指令请处理IMAGE_WORKDIR目录下的所有图片根据内容生成有意义的文件名Skill的工作流程如下扫描目录获取图片列表对每张图片调用Qwen3.5模型提示词为请用10个以内的中文词语简洁描述这张图片的内容适合作为文件名根据模型返回的描述生成新文件名如技术博客截图-OpenClaw配置界面.png记录重命名映射关系实际效果对比原文件名7F3A2D1C.png新文件名微信聊天记录-讨论OpenClaw技能安装.png这个过程中最让我惊喜的是模型对截图内容的准确理解能力即使是复杂的界面截图也能给出合理的描述。4.2 敏感内容过滤保护隐私安全我特意在测试集中混入了几张包含个人信息的截图。Skill会自动执行以下操作调用模型分析图片内容检查是否包含预设的敏感关键词将疑似敏感的图片移动到特殊目录并生成报告执行指令检查IMAGE_WORKDIR中的图片是否包含敏感内容输出结果示例发现3张可能包含敏感信息的图片 - 身份证正面照_20240315.jpg → 移动到~/Pictures/Sensitive目录 - 银行转账记录.png → 移动到~/Pictures/Sensitive目录 - 项目密码列表.jpeg → 移动到~/Pictures/Sensitive目录4.3 OCR辅助整理从图片中提取文字对于包含文字的图片如截图、文档照片我们可以进一步提取文字内容从IMAGE_WORKDIR中的所有图片提取文字保存为Markdown文件Skill会使用Qwen3.5的OCR能力识别图片中的文字按图片生成对应的Markdown文件在Markdown中嵌入原图链接和文字内容生成的文件结构示例Processed/ ├── 技术博客截图/ │ ├── 技术博客截图-OpenClaw配置界面.png │ └── 技术博客截图-OpenClaw配置界面.md └── 会议纪要照片/ ├── 项目进度讨论会.jpg └── 项目进度讨论会.md5. 遇到的问题与解决方案5.1 模型响应速度问题初期测试时处理50张图片耗时近30分钟。经过分析发现默认的模型调用是串行的每张图片都要重新建立连接解决方案 修改Skill代码采用批量发送请求的方式。将图片分批每批5张发送给模型处理后端并行处理。优化后总耗时降至8分钟左右。5.2 描述准确性优化最初的文件名有时过于笼统如电脑截图。通过改进提示词获得了更好效果原始提示描述这张图片的内容优化后提示请用10个以内的中文词语简洁描述这张图片的主要内容适合作为文件名。如果是界面截图请说明是什么软件的什么界面如果是照片请描述主体和场景如果是文档请说明文档类型和主要内容。5.3 文件系统权限问题在Linux服务器上运行时遇到了图片移动权限错误。这是因为OpenClaw服务默认以openclaw用户运行而我的图片属于个人用户。解决方案 将OpenClaw服务改为以我的用户身份运行sudo systemctl edit openclaw.service修改User和Group为我的用户名然后重启服务。6. 进阶使用自定义工作流基础功能稳定后我开始尝试更复杂的工作流。例如将图片处理与内容创作结合每周自动执行 1. 整理IMAGE_WORKDIR中的所有新图片 2. 对每张技术相关截图生成一段说明文字 3. 将所有说明汇总成周报草稿 4. 将草稿保存到~/Documents/周报/目录这个工作流需要组合多个Skill的能力通过OpenClaw的任务编排功能实现。关键在于编写正确的提示词让模型理解每张图片在周报中的上下文。7. 效果评估与使用建议经过一个月的实际使用这个图片管理助手帮我整理了超过2000张历史图片发现了15张无意中保存的敏感图片节省了约20小时的整理时间对于想要尝试类似方案的开发者我的建议是从小规模开始先处理100张左右的图片测试效果根据实际需求调整提示词不同场景需要不同的描述风格注意模型调用的Token消耗大量图片处理可能会产生较高成本定期检查自动重命名的结果必要时手动修正这套方案的独特优势在于高度可定制化。通过修改Skill代码和提示词可以适应各种专业场景比如摄影师的作品分类管理设计师的素材库建设研究人员的实验记录整理获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章