【保姆级教程】按键精灵调用 OCR 文字识别 API（从0到1完整实战 + 可运行脚本）

张

张建站

2026/5/19 2:31:37

10分钟阅读

【保姆级教程】按键精灵调用 OCR 文字识别 API（从0到1完整实战 + 可运行脚本）

在做自动化脚本如挂机、数据采集、批量处理时经常会遇到一个问题如何让按键精灵“看懂屏幕上的文字”答案就是OCR 文字识别 API 接口调用本篇文章将手把手教你按键精灵如何调用 OCR 接口从截图 → 识别 → 获取文字完整流程可直接运行的脚本示例常见问题与优化方案一、什么是 OCR为什么按键精灵需要它OCROptical Character Recognition是将图片中的文字提取为可编辑文本的技术。在按键精灵中的典型用途自动识别游戏文字任务 / 状态自动读取软件界面信息批量识别截图内容自动化数据采集电商 / 表单如果你还不了解 OCR 基础建议先看《文字识别通用OCR接口调用与功能说明》https://blog.csdn.net/weixin_40809967/article/details/159715814?spm1011.2415.3001.10575sharefrommp_manage_link二、实现思路按键精灵实现 OCR 的流程如下核心流程1️⃣ 截取屏幕图片2️⃣ 转换为 Base643️⃣ 调用 OCR API4️⃣ 获取返回结果JSON5️⃣ 提取识别文本三、OCR API 接口说明接口支持通用文字识别多语言识别图片自动纠偏高精度识别支持免费在线体验API文档清晰有各语言的示例代码https://market.shiliuai.com/general-ocr四、按键精灵调用 OCR API 实战1️⃣ 截图保存截图保存到本地 Capture 0, 0, 800, 600, C:\ocr.png2️⃣ 图片转 Base64核心按键精灵本身不支持需要借助组件或调用接口上传图片推荐方式简单稳定直接上传图片无需Base643️⃣ HTTP 请求调用 OCR API API接入文档https://market.shiliuai.com/doc/advanced-general-ocr Import Encrypt.dll VBSBegin Function Base64Encode(filePath) Set inStream CreateObject(ADODB.Stream) inStream.Type 1 inStream.Open inStream.LoadFromFile filePath inStream.Position 0 Set dom CreateObject(MSXML2.DOMDocument) Set elem dom.createElement(tmp) elem.dataType bin.base64 elem.nodeTypedValue inStream.Read Base64Encode elem.Text inStream.Close End Function Function ocr_easy(appcode, imgPath) url https://ocr-api.shiliuai.com/api/advanced_general_ocr/v1 jsonBody {\file_base64\:\ Base64Encode(imgPath) \} Set http CreateObject(MSXML2.XMLHTTP) http.Open POST, url, False http.setRequestHeader Authorization, APPCODE appcode http.setRequestHeader Content-Type, application/json http.send jsonBody ocr_easy http.responseText End Function VBSEnd appcode 你的APPCODE res ocr_easy(appcode, 你的文件路径) TracePrint res4️⃣ 返回结果示例 API接入文档https://market.shiliuai.com/doc/advanced-general-ocr 成功示例 { code: 200, msg: OK, msg_cn: 成功, success: True, file_id: file id, request_id: request id, data: data, 具体看下面 } data { page_count: 5, // int, 文件页面总数 process_pages: 3, // int, 处理页面数 status: 2, // int, 处理状态0: 已加入队列, 1: 正在处理中, 2: 已完成同步时此值为2 wait_time: 0.0 // float, 大概还需等待时间同步时此值为0 // 如果status2: pages: [ { width: 2000, // int, 页面宽度 height: 2500, // int, 页面高度 prob_mean: 0.98, // float, [0, 1], 页面文字置信度平均值若is_line则不返回该项 prob_std: 0.11, // float, 页面文字置信度标准差若is_line则不返回该项 lines: [ { text: 你好, // string, 文字内容 prob: 0.995, // float, [0, 1], 文字内容置信度 keypoints: [[50, 20], [150, 20], [150, 60], [50, 60]] // list, [[xi, yi]], 文字区域角点位置以左上角为起点按顺时针排列若is_line则不返回该项 }, ...... ] }, ......, ] }5️⃣ 提取识别内容Dim text text JSON取值(result, data.text) TracePrint 识别结果 text五、完整脚本示例按键精灵 OCR 自动识别示例 API文档https://market.shiliuai.com/doc/advanced-general-ocr Dim imgPath, apiUrl, result, text imgPath C:\ocr.png apiUrl https://ocr-api.shiliuai.com/api/advanced_general_ocr/v1 1. 截图 Capture 0, 0, 800, 600, imgPath Delay 500 2. 调用OCR接口 result HttpPost(apiUrl, file imgPath) 3. 输出返回结果 TracePrint result 4. 提取识别文字 text JSON取值(result, data.text) TracePrint 识别内容 text六、常见问题一定要看❌ 1. 识别不准原因图片模糊分辨率低截图区域不准确解决方案结合这篇优化《图片变清晰 API 实战》❌ 2. 返回为空图片未成功上传接口参数错误❌ 3. 中文乱码确保返回编码为 UTF-8按键精灵解析方式正确七、进阶玩法你可以把 OCR 你现有API组合起来玩法1OCR 去水印自动处理图片 → 再识别文字参考《图片去水印 API 实战》玩法2OCR 高清化模糊截图 → 提高清晰度 → 再识别参考《图片变清晰 API》玩法3自动化脚本系统实现自动识别自动点击自动执行任务八、总结通过本文你已经掌握✅ 按键精灵调用 OCR API 完整流程✅ 截图 → 上传 → 识别 → 获取结果✅ 可直接运行的脚本示例延伸阅读《易语言 OCR 接口调用教程》《OCR 在线工具 vs API》《OCR识别优化指南》《OCR选型全攻略》最后如果你正在做自动化项目按键精灵 / RPA / 脚本OCR API 是必不可少的一环。建议直接去体验石榴智能的文字识别API接口支持免费测试接入简单几分钟即可跑通。

Speechless：你的微博记忆守护者 - 3步完成永久备份的终极指南

Speechless：你的微博记忆守护者 - 3步完成永久备份的终极指南【免费下载链接】Speechless 把新浪微博的内容，导出成 PDF 文件进行备份的 Chrome Extension。项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾担心多年积累的微博…...

2026/5/18 9:36:37 阅读更多 →

STM32串口DMA与空闲中断高效接收不定长数据的实战解析

1. 为什么需要串口空闲中断DMA组合？ 在嵌入式开发中，串口通信是最常见的外设交互方式。但当你面对高速数据流或不定长数据包时，传统的轮询或字节中断方式会暴露明显缺陷： 轮询方式需要CPU持续检查串口状态，占用大量计…...

2026/5/7 1:31:57 阅读更多 →

从零搭建AWR1864开发环境：除了Visualizer，这些TI官方工具（Uniflash、Cloud Agent）一个都不能少

从零搭建AWR1864开发环境：TI毫米波雷达开发工具链深度解析毫米波雷达技术正在工业检测、自动驾驶和智能安防等领域快速普及，而德州仪器（TI）的AWR1864评估模块因其高集成度和丰富开发资源，成为开发者入门的首选平台。但…...

2026/5/6 13:39:28 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/18 8:51:59 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/18 8:52:11 阅读更多 →