别再手动写Prompt了！用LangChain的Prompt Templates和Output Parsers，5分钟搞定结构化数据提取

张

张建站

2026/5/8 15:53:52

10分钟阅读

别再手动写Prompt了！用LangChain的Prompt Templates和Output Parsers，5分钟搞定结构化数据提取

LangChain实战5分钟用Prompt模板和输出解析器实现结构化数据提取在当今AI驱动的开发环境中处理非结构化文本并从中提取有价值信息已成为开发者日常工作的核心挑战。传统方法需要手动编写复杂的正则表达式或繁琐的字符串处理逻辑而LangChain提供的Prompt Templates和Output Parsers组合能够将这一过程简化到只需5行代码。1. 为什么需要结构化数据提取工具电商平台每天产生数百万条用户评论客服系统处理着海量的工单信息这些文本数据中蕴含着产品改进的关键线索。但原始文本就像未经雕琢的钻石——有价值但难以直接利用。传统处理方式存在三大痛点字符串拼接地狱需要手动组合变量与固定文本输出格式不稳定LLM返回的JSON可能缺少引号或格式错误解析代码冗余每个新需求都要重写解析逻辑# 传统方式示例手动处理LLM输出 import json import re response {sentiment: positive, issues: [delivery]} # 不规范的JSON try: data json.loads(response) except json.JSONDecodeError: # 修复常见JSON格式问题 fixed re.sub(r(\w):, r\1:, response) data json.loads(fixed)2. LangChain核心组件解析2.1 Prompt Templates告别字符串拼接Prompt Templates将提示词分解为可复用的模板和变量支持动态注入上下文。对比两种写法# 传统f-string方式 product 蓝牙耳机 prompt f提取以下产品的关键特征产品{product} 返回JSON格式包含brand, price_range, features字段 # LangChain模板方式 from langchain.prompts import ChatPromptTemplate template ChatPromptTemplate.from_template( 提取以下产品的关键特征产品{product} 返回JSON格式包含brand, price_range, features字段 ) prompt template.format_messages(product蓝牙耳机)优势对比表特性传统f-stringLangChain模板多变量管理混乱清晰模板复用需复制一次定义支持动态上下文注入有限灵活2.2 Output Parsers智能解析非结构化输出StructuredOutputParser能自动将LLM的文本响应转换为Python字典from langchain.output_parsers import StructuredOutputParser from langchain.prompts import ChatPromptTemplate from langchain.chat_models import ChatOpenAI # 定义输出结构 response_schemas [ ResponseSchema(namesentiment, description情感倾向positive/neutral/negative), ResponseSchema(namekeywords, description提取的关键词列表) ] parser StructuredOutputParser.from_response_schemas(response_schemas) # 自动生成格式指令 format_instructions parser.get_format_instructions() # 构建完整prompt prompt ChatPromptTemplate.from_template( 分析以下文本的情感倾向和关键词 {text} {format_instructions} ) # 运行链 chain LLMChain( llmChatOpenAI(), promptprompt, output_parserparser ) result chain.run(这款手机拍照很棒但电池续航差) # 输出: {sentiment: neutral, keywords: [拍照, 电池续航]}注意format_instructions会自动包含JSON结构描述确保LLM输出可解析格式3. 实战电商评论分析流水线3.1 构建端到端处理流程from langchain.chains import TransformChain # 定义处理步骤 def transform_func(inputs): text inputs[text] return {cleaned_text: text.replace(【京东】, )} # 创建转换链 clean_chain TransformChain( input_variables[text], output_variables[cleaned_text], transformtransform_func ) # 组合成完整流水线 from langchain.chains import SequentialChain overall_chain SequentialChain( chains[clean_chain, analysis_chain], input_variables[text], output_variables[sentiment, keywords], verboseTrue ) # 执行分析 review 【京东】物流快但屏幕有瑕疵 results overall_chain({text: review})3.2 性能优化技巧批量处理利用LangChain的batch功能同时处理多条评论缓存机制对相似评论使用Memory组件避免重复计算异步处理对于大规模数据使用async支持# 批量处理示例 reviews [好评,质量差,一般般] batch_results chain.apply(reviews) # 异步处理 async_results await chain.arun(review)4. 高级应用场景4.1 多语言支持通过组合不同的Prompt模板可以轻松实现多语言分析multi_lang_template ChatPromptTemplate.from_template( 请将以下{language}评论翻译为英文后分析 {text} {format_instructions} ) # 用法示例 chain.run({ language: 日语, text: バッテリーの持ちが悪い, format_instructions: format_instructions })4.2 动态字段提取根据业务需求动态调整输出结构def create_parser(fields): schemas [ ResponseSchema(namefield, descriptiondesc) for field, desc in fields.items() ] return StructuredOutputParser.from_response_schemas(schemas) # 动态创建解析器 dynamic_parser create_parser({ price_mention: 是否提及价格, comparison: 是否进行产品比较 })5. 避坑指南在实际项目中我们总结了以下经验格式冲突当LLM输出包含Markdown代码块时使用output_parser.parse_with_prompt方法字段缺失为可选字段设置default_value类型转换对数值型字段添加typeinteger约束长文本处理结合TextSplitter分块处理超过token限制的内容# 健壮性增强的解析器配置 robust_schemas [ ResponseSchema( namerating, description评分1-5, typeinteger, default_value0 ) ]经过多个项目的实战检验这套方法平均减少数据处理代码量70%同时将解析准确率从手工处理的85%提升到98%。特别是在客服工单分类场景中通过动态调整输出结构仅用3天就完成了原本需要2周开发的分类系统。

如何快速解密微信聊天记录：WechatDecrypt工具完整指南

如何快速解密微信聊天记录：WechatDecrypt工具完整指南【免费下载链接】WechatDecrypt 微信消息解密工具项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 你是否曾经因为误删微信聊天记录而懊恼不已？或者需要找回那些珍贵的对话却无…...

2026/5/8 15:53:45 阅读更多 →

3分钟掌握GraphvizOnline：无需安装的在线图表编辑器终极指南

3分钟掌握GraphvizOnline：无需安装的在线图表编辑器终极指南【免费下载链接】GraphvizOnline Lets Graphviz it online 项目地址: https://gitcode.com/gh_mirrors/gr/GraphvizOnline 你是否厌倦了复杂的图表软件安装过程？想要快速创建专业流程图…...

2026/5/8 15:53:42 阅读更多 →

Google Translate API使用指南：从问题到解决

在使用Google Translate API进行文档翻译的过程中，许多开发者可能会遇到一些棘手的问题。以下是一篇详解如何使用Google Translate API以及解决常见问题的博客。 1. 初始化环境首先，你需要确保已经安装了Google Cloud Translation库。可以使用以下命令安装： pip install…...

2026/5/8 15:53:35 阅读更多 →

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 上周，当我需要从百度网盘下载一个3GB的设计素材时…...

2026/5/8 0:39:19 阅读更多 →

构建Web3多智能体世界：从账户抽象到AI驱动的链上经济

1. 项目概述：一个由AI驱动的Web3多智能体世界EmpowerTours 是一个我深度参与构建的、运行在 Monad 区块链上的综合性 Web3 平台。它不仅仅是一个应用，更是一个持续运行的多智能体世界，并深度集成在 Farcaster 社交协议中，作为一个…...

2026/5/8 0:40:09 阅读更多 →

2026届最火的降AI率网站推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 需要从源头优化以及后期校正两方同时着手，来降低文本里AIGC也就是人工智能生成内…...

2026/5/8 0:02:56 阅读更多 →