Python爬虫基础(四) —— 将爬取到的数据进行存储

张

张建站

2026/7/17 22:08:36

10分钟阅读

文章目录文本存储文件打开模式以TXT文本形式存储以JSON数据形式存储读取json数据输出json数据以CSV文本格式存储写入CSV数据读取CSV数据用解析器解析出数据之后，接下来就是存储数据了。保存的形式有很多，最简单的形式是直接保存为文本文件，如TXT、JSON、csv等。另外，还可以将这些数据保存到数据库中。文本存储文件打开模式python中所有open()打开一个文件，文件的打开有很多模式：r:以只读方式打开文件,文件的指针将会放在文件的开头,这是默认模式。rb:以二进制只读方式打开一个文件，文件指针将会放在文件的开头。r+:以读写方式打开一个文件，文件指针将会放在文件的开头。-** rb+**: 以二进制读写方式打开一个文件，文件指针将会放在文件的开头。w:以写入方式打开一个文件。如果该文件已存在，则将其瞿盖；如果该文件不存在，则创建新文件。wb：以二进制写入方式打开一个文件。如果该文件已存在，则将其覆盖；如果该文件不存在，则创建新文件。w+：以读写方式打开一个文件。如果该文件已存在，则将其覆盖；如果该文件不存在，则创建新文件。wb+：以二进制读写格式打开一个文件。如果该文件已存在，则将其覆盖；如果该文件不存在，则创建新文件。a:以追加方式打开一个文件。如果该文件已存在，文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后；如果该文件不存在，则创建新文件来写入。ab:以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。也就是说，新的内容将会被写入到己有内容之后；如果该文件不存在，则创建新文件来写入。a+：以读写方式打开一个文件。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式；如果眩文件不存在，则创建新文件来读写。ab+：以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾；如果该文件不存在，则创建新文件用于读写。以TXT文本形式存储TXT 文本的操作非常简单，且其几乎兼容任何平台，但是它有个缺点，那就是不利于检索。importrequestsfrompyqueryimportPyQueryaspq url='https://www.zhihu.com/explore'headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}html=requests.get(url,headers=headers).text doc=pq(html)items=doc('.explore-tab .feed-item').items()foriteminitems:question=item.find('h2').text()author=item.find('.author-link-line').text()answer=pq(item.find('.content').html()).text()# 将question,author和answer的内容保存在文件explore.txt中file=open('explore.txt','a',encoding='utf-8')file.write('\n'.join([question,author,answer]))file.write('\n'+

Lodash.js实战指南：从安装到核心方法深度解析

1. 为什么你需要Lodash.js？ 第一次接触Lodash是在2015年，当时我正在开发一个电商后台管理系统。面对复杂的商品数据排序和筛选需求，原生JavaScript代码写得我头皮发麻。直到同事推荐了Lodash，用_.orderBy()一行代码就解决了困扰我…...

2026/7/17 22:07:58 阅读更多 →

AMD平台ESXI 7.0实战：避坑部署Win11与TrueNAS虚拟化存储方案

1. AMD平台与ESXI 7.0的兼容性陷阱 AMD平台在虚拟化领域的崛起让不少玩家跃跃欲试，但ESXI 7.0对AMD处理器的支持并非完美无缺。我最近用Ryzen 9 5900X搭建测试环境时，就遭遇了三个典型问题：首先是安装界面卡在"Loading modules"阶段…...

2026/7/17 22:07:05 阅读更多 →

别再用ChatGPT4了！GPT-5的`reasoning_effort`和`verbosity`参数，才是提升代码助手效率的秘诀

GPT-5代码助手参数调优实战：用reasoning_effort和verbosity提升开发效率凌晨三点的IDE界面泛着冷光，你盯着AI生成的第7版代码仍然无法通过测试——这可能是GPT-4时代开发者最熟悉的挫败场景。但GPT-5带来的reasoning_effort和verbosity两个核心参数&am…...

2026/6/2 7:29:50 阅读更多 →