在做自动化脚本如挂机、数据采集、批量处理时经常会遇到一个问题如何让按键精灵“看懂屏幕上的文字”答案就是OCR 文字识别 API 接口调用本篇文章将手把手教你按键精灵如何调用 OCR 接口从截图 → 识别 → 获取文字完整流程可直接运行的脚本示例常见问题与优化方案一、什么是 OCR为什么按键精灵需要它OCROptical Character Recognition是将图片中的文字提取为可编辑文本的技术。在按键精灵中的典型用途自动识别游戏文字任务 / 状态自动读取软件界面信息批量识别截图内容自动化数据采集电商 / 表单 如果你还不了解 OCR 基础建议先看《文字识别通用OCR接口调用与功能说明》https://blog.csdn.net/weixin_40809967/article/details/159715814?spm1011.2415.3001.10575sharefrommp_manage_link二、实现思路按键精灵实现 OCR 的流程如下 核心流程1️⃣ 截取屏幕图片2️⃣ 转换为 Base643️⃣ 调用 OCR API4️⃣ 获取返回结果JSON5️⃣ 提取识别文本三、OCR API 接口说明接口支持通用文字识别多语言识别图片自动纠偏高精度识别 支持免费在线体验API文档清晰有各语言的示例代码https://market.shiliuai.com/general-ocr四、按键精灵调用 OCR API 实战1️⃣ 截图保存 截图保存到本地 Capture 0, 0, 800, 600, C:\ocr.png2️⃣ 图片转 Base64核心按键精灵本身不支持需要借助组件或调用接口上传图片 推荐方式简单稳定直接上传图片无需Base643️⃣ HTTP 请求调用 OCR API API接入文档https://market.shiliuai.com/doc/advanced-general-ocr Import Encrypt.dll VBSBegin Function Base64Encode(filePath) Set inStream CreateObject(ADODB.Stream) inStream.Type 1 inStream.Open inStream.LoadFromFile filePath inStream.Position 0 Set dom CreateObject(MSXML2.DOMDocument) Set elem dom.createElement(tmp) elem.dataType bin.base64 elem.nodeTypedValue inStream.Read Base64Encode elem.Text inStream.Close End Function Function ocr_easy(appcode, imgPath) url https://ocr-api.shiliuai.com/api/advanced_general_ocr/v1 jsonBody {\file_base64\:\ Base64Encode(imgPath) \} Set http CreateObject(MSXML2.XMLHTTP) http.Open POST, url, False http.setRequestHeader Authorization, APPCODE appcode http.setRequestHeader Content-Type, application/json http.send jsonBody ocr_easy http.responseText End Function VBSEnd appcode 你的APPCODE res ocr_easy(appcode, 你的文件路径) TracePrint res4️⃣ 返回结果示例 API接入文档https://market.shiliuai.com/doc/advanced-general-ocr 成功示例 { code: 200, msg: OK, msg_cn: 成功, success: True, file_id: file id, request_id: request id, data: data, 具体看下面 } data { page_count: 5, // int, 文件页面总数 process_pages: 3, // int, 处理页面数 status: 2, // int, 处理状态0: 已加入队列, 1: 正在处理中, 2: 已完成同步时此值为2 wait_time: 0.0 // float, 大概还需等待时间同步时此值为0 // 如果status2: pages: [ { width: 2000, // int, 页面宽度 height: 2500, // int, 页面高度 prob_mean: 0.98, // float, [0, 1], 页面文字置信度平均值若is_line则不返回该项 prob_std: 0.11, // float, 页面文字置信度标准差若is_line则不返回该项 lines: [ { text: 你好, // string, 文字内容 prob: 0.995, // float, [0, 1], 文字内容置信度 keypoints: [[50, 20], [150, 20], [150, 60], [50, 60]] // list, [[xi, yi]], 文字区域角点位置以左上角为起点按顺时针排列若is_line则不返回该项 }, ...... ] }, ......, ] }5️⃣ 提取识别内容Dim text text JSON取值(result, data.text) TracePrint 识别结果 text五、完整脚本示例 按键精灵 OCR 自动识别示例 API文档https://market.shiliuai.com/doc/advanced-general-ocr Dim imgPath, apiUrl, result, text imgPath C:\ocr.png apiUrl https://ocr-api.shiliuai.com/api/advanced_general_ocr/v1 1. 截图 Capture 0, 0, 800, 600, imgPath Delay 500 2. 调用OCR接口 result HttpPost(apiUrl, file imgPath) 3. 输出返回结果 TracePrint result 4. 提取识别文字 text JSON取值(result, data.text) TracePrint 识别内容 text六、常见问题一定要看❌ 1. 识别不准原因图片模糊分辨率低截图区域不准确 解决方案结合这篇优化《图片变清晰 API 实战》❌ 2. 返回为空图片未成功上传接口参数错误❌ 3. 中文乱码 确保返回编码为 UTF-8按键精灵解析方式正确七、进阶玩法你可以把 OCR 你现有API组合起来 玩法1OCR 去水印 自动处理图片 → 再识别文字参考 《图片去水印 API 实战》 玩法2OCR 高清化 模糊截图 → 提高清晰度 → 再识别参考《图片变清晰 API》 玩法3自动化脚本系统 实现自动识别自动点击自动执行任务八、总结通过本文你已经掌握✅ 按键精灵调用 OCR API 完整流程✅ 截图 → 上传 → 识别 → 获取结果✅ 可直接运行的脚本示例 延伸阅读《易语言 OCR 接口调用教程》《OCR 在线工具 vs API》《OCR识别优化指南》《OCR选型全攻略》 最后 如果你正在做自动化项目按键精灵 / RPA / 脚本OCR API 是必不可少的一环。 建议直接去体验石榴智能的文字识别API接口支持免费测试接入简单几分钟即可跑通。