目录一、技术栈选型:为什么是这些库?二、深入理解豆瓣登录机制(2025年版)三、环境搭建与项目结构四、登录模块实现(含反检测)五、构建稳定的请求客户端六、分析“我的书影音”页面结构七、分页爬取与数据清洗八、处理反爬的进阶手段:IP轮换与请求频率控制九、数据持久化:导出Excel、JSON、CSV十、整合所有代码:main.py入口作为一个豆瓣重度用户,从2015年注册到现在,我的“书影音”标记已经积累了上千条。每当朋友问我“最近有什么好书推荐”或者“那部电影你看了没”,我都想快速从自己的标记记录里翻出评价。可惜豆瓣官方一直没有提供像样的数据导出功能,网页版翻页又慢得要命——于是我想:干脆自己写个爬虫,把数据全抓下来。说干就干,结果踩了三个大坑。第一,豆瓣的登录早已不是简单的账号密码POST请求,滑块验证、设备指纹、反爬策略层层加码。第二,我自己的账号因为频繁请求被短时封禁过两次。第三,网上搜到的教程大部分是五年前的代码,连requests.Session怎么用都没写清楚。这篇文章就是我最终成功的完整记录。我会从零开始,带你实现一个生产级别的豆瓣个人数据爬虫。全程不仅给出代码,还会解释每一步为什么这么写,遇到了什么问题,怎么解决的。全文大约5500字,代码可以在我的GitHub仓库找到(文末给出)。免责声明:本文仅用于技术学习和个人数据备份,请勿对豆瓣服务器造成压力,勿将爬取数据用于商业用途。