DeepSeek-OCR实战教程：从图片到PDF，3行命令实现高效文本识别

张

张建站

2026/5/28 20:35:34

10分钟阅读

DeepSeek-OCR实战教程从图片到PDF3行命令实现高效文本识别【免费下载链接】DeepSeek-OCR项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/DeepSeek-OCR想要快速将图片或PDF文档转换为可编辑的文本DeepSeek-OCR为你提供了终极解决方案这款基于昇腾NPU优化的OCR工具只需3行命令就能完成从图片到PDF的高效文本识别。无论你是开发者、学生还是办公人员都能轻松掌握这款强大的文本识别工具。 DeepSeek-OCR是什么DeepSeek-OCR是一款专为昇腾NPU硬件优化的光学字符识别工具它基于DeepSeek-AI的开源模型进行了深度适配。这个项目支持多种文档格式的识别包括图片文件JPG、PNG等PDF文档多页PDF转换批量处理支持文件夹批量识别环境准备与安装系统要求要使用DeepSeek-OCR你需要准备以下环境组件版本要求备注Python3.11/3.12推荐使用最新版本PyTorch2.7.1深度学习框架vLLM指定commit版本推理引擎CANN昇腾AI计算架构NPU运行环境快速安装步骤克隆项目仓库git clone https://gitcode.com/hf_mirrors/vLLM_Ascend/DeepSeek-OCR.git cd DeepSeek-OCR安装依赖包pip install -r requirements.txt设置环境变量export VLLM_USE_V11 export VLLM_ASCEND_ENABLE_NZ0 export TOKENIZERS_PARALLELISMfalse export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True export TASK_QUEUE_ENABLE2 3行命令实现文本识别图片识别单张图片python run_image.py --model_path deepseek-ai/DeepSeek-OCR \ --input_path test.jpg \ --save_dir ./outputPDF文档识别python run_pdf.py --model_path deepseek-ai/DeepSeek-OCR \ --input_path document.pdf \ --save_dir ./output批量基准测试python run_benchmark.py --model_path deepseek-ai/DeepSeek-OCR \ --input_path ./OmniDocBench \ --save_dir ./output 参数详解每个命令都支持以下核心参数参数名说明示例值--model_pathDeepSeek-OCR模型路径deepseek-ai/DeepSeek-OCR--input_path输入文件路径test.jpg或document.pdf--save_dir输出结果保存目录./output 高级功能与技巧1. 自定义提示词DeepSeek-OCR支持多种提示词模式满足不同场景需求# 文档转换为Markdown格式 image\n|grounding|Convert the document to markdown. # 普通图片OCR识别 image\n|grounding|OCR this image. # 自由格式OCR不保留布局 image\nFree OCR. # 解析图片中的图表 image\nParse the figure. # 详细描述图片内容 image\nDescribe this image in detail.2. 模型权重下载你可以从以下地址下载预训练模型HuggingFace官方仓库https://huggingface.co/deepseek-ai/DeepSeek-OCR魔乐社区镜像https://modelers.cn/models/deepseek-ai/DeepSeek-OCR3. 输出结果处理识别结果会保存在指定的输出目录中包含文本内容保存为Markdown格式.mmd文件可视化结果带有边界框标注的图片提取的图片从文档中分离出的图像元素常见问题解答Q: 为什么需要昇腾NPUA: DeepSeek-OCR针对昇腾NPU进行了深度优化能够充分利用硬件加速能力显著提升OCR识别速度。Q: 支持哪些文件格式A: 目前支持JPG、PNG等常见图片格式以及PDF文档格式。未来可能会支持更多格式。Q: 识别准确率如何A: DeepSeek-OCR基于先进的深度学习模型在多种语言和字体上都有出色的识别准确率。Q: 如何处理多页PDFA: 使用run_pdf.py脚本会自动处理PDF的所有页面每页都会生成独立的识别结果。️ 项目结构说明DeepSeek-OCR/ ├── run_image.py # 图片识别主脚本 ├── run_pdf.py # PDF识别主脚本 ├── run_benchmark.py # 性能基准测试脚本 ├── requirements.txt # Python依赖包列表 ├── patch/ # 昇腾NPU适配补丁 │ ├── patch_deepseekmoe.py │ └── patch_sam.py └── README.md # 项目说明文档性能优化建议内存配置确保系统有足够的内存处理大文件NPU优化正确配置CANN环境变量以获得最佳性能批量处理对于大量文件建议使用批处理模式缓存利用合理使用缓存机制减少重复计算开始你的OCR之旅现在你已经掌握了DeepSeek-OCR的核心使用方法无论是扫描文档的数字化处理还是图片文字的快速提取这款工具都能帮你轻松完成。记住这3行核心命令# 图片识别 python run_image.py --model_path deepseek-ai/DeepSeek-OCR --input_path your_image.jpg --save_dir ./output # PDF转换 python run_pdf.py --model_path deepseek-ai/DeepSeek-OCR --input_path your_document.pdf --save_dir ./output # 批量测试 python run_benchmark.py --model_path deepseek-ai/DeepSeek-OCR --input_path ./your_dataset --save_dir ./output开始体验高效的文本识别吧【免费下载链接】DeepSeek-OCR项目地址: https://ai.gitcode.com/hf_mirrors/vLLM_Ascend/DeepSeek-OCR创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

从Docker镜像到生产环境：Ascend-SACT/Mineru-Optimization完整部署流程

从Docker镜像到生产环境：Ascend-SACT/Mineru-Optimization完整部署流程【免费下载链接】Mineru-Optimization 项目地址: https://ai.gitcode.com/Ascend-SACT/Mineru-Optimization MinerU部署从未如此简单！本文将为您详细介绍如何从Docker镜像到…...

2026/5/28 20:35:00 阅读更多 →

建议收藏｜盘点2026年当红之选的的AI论文工具

一天写完毕业论文在2026年已不再是天方夜谭。2026年最炸裂、实测能大幅提速的AI论文工具来了，覆盖选题构思、文献整理、内容生成、降重润色、格式排版全场景，高效搞定论文，学生党必备神器。一、全流程王者：一站式搞定论文全链路&…...

2026/5/28 20:34:48 阅读更多 →

GLM-4-9B-0414与ChatGLM系列对比：技术演进与性能提升全解析

GLM-4-9B-0414与ChatGLM系列对比：技术演进与性能提升全解析【免费下载链接】GLM-4-9B-0414 项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/GLM-4-9B-0414 GLM-4-9B-0414是HuggingFace镜像/MindSpore-Lab推出的新一代轻量级AI模型&#xff0c…...

2026/5/28 20:32:54 阅读更多 →

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为抢不到心仪的演唱会门票而烦…...

2026/5/28 4:28:06 阅读更多 →

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾经遇到过这…...

2026/5/28 2:12:16 阅读更多 →