网站被人疯狂爬了 1.5TB 流量
我刚上线了一个小网站skills.lc。本来只是想做一个简单的AI skills / agent skills 的索引站方便大家查找各种 skills。网站上线之后其实没怎么宣传就在几个地方随便发了一下。结果三天后我突然发现服务器流量不太对劲。流量直接爆了看了一下最近几天的流量统计1.09 TB 1.21 TB 1.47 TB 1.57 TB我第一反应是不会吧难道火了但冷静想想这网站用户量不足产生这么大的流量。再仔细看日志发现事情不太对。原来是被人疯狂下载服务器日志里基本全是curl请求Time: 2026/3/13 15:09:26 Source: download User Agent: curl/7.87.0 IP: 50.7.250.66还有另一个Time: 2026/3/13 14:13:46 Source: download User Agent: curl/8.16.0 IP: 121.237.245.164这两个 IP 基本在不停下载网站资源。而且方式非常简单粗暴curl https://skills.lc/xxx curl https://skills.lc/xxx curl https://skills.lc/xxx就是一条一条扫。最离谱的是我这个网站其实是一个技能列表索引里面很多资源其实都是公开的 GitHub 内容。但对方没有直接去 GitHub 拉。而是从我的服务器反复下载。于是就出现了一个很魔幻的情况我成了一个免费 CDN。别人疯狂 pull 数据而我疯狂烧服务器流量。为什么有人会这么干我猜可能有几种原因1 爬全站做镜像很多人做 AI 工具站的时候会先把别人网站的数据全爬下来。2 训练数据AI 时代很多人会疯狂抓数据。3 做聚合站。有些 bot 就是全网扫。目前已经锁定两个 IP50.7.250.66香港ip 121.237.245.164江苏南京User-Agentcurl/7.87.0 curl/8.16.0基本可以确定是脚本。准备做的几个防护接下来准备做几件事情1 IP 限速同一个 IP 每分钟限制请求数。2 Cloudflare 防护开启 bot fight。3 下载接口加 token避免直接 curl。4 robots WAF防止简单爬虫。做独立站的一个现实以前总觉得网站没人访问是最大问题。现在发现网站刚上线被爬才是最大问题。很多爬虫比用户来的还快。一个小感慨互联网其实很有意思。你刚做了个小工具站还没来得及推广就已经有人在默默复制你的数据了。如果你也做过类似的站有没有遇到这种情况最后对南京和香港的那2位朋友说一声如果你真想要我网站的数据来收购我网站就行呀省得让我产生天价流量费账单