网站被人疯狂爬了 1.5TB 流量

张

张建站

2026/6/29 3:32:57

10分钟阅读

我刚上线了一个小网站skills.lc。本来只是想做一个简单的AI skills / agent skills 的索引站方便大家查找各种 skills。网站上线之后其实没怎么宣传就在几个地方随便发了一下。结果三天后我突然发现服务器流量不太对劲。流量直接爆了看了一下最近几天的流量统计1.09 TB 1.21 TB 1.47 TB 1.57 TB我第一反应是不会吧难道火了但冷静想想这网站用户量不足产生这么大的流量。再仔细看日志发现事情不太对。原来是被人疯狂下载服务器日志里基本全是curl请求Time: 2026/3/13 15:09:26 Source: download User Agent: curl/7.87.0 IP: 50.7.250.66还有另一个Time: 2026/3/13 14:13:46 Source: download User Agent: curl/8.16.0 IP: 121.237.245.164这两个 IP 基本在不停下载网站资源。而且方式非常简单粗暴curl https://skills.lc/xxx curl https://skills.lc/xxx curl https://skills.lc/xxx就是一条一条扫。最离谱的是我这个网站其实是一个技能列表索引里面很多资源其实都是公开的 GitHub 内容。但对方没有直接去 GitHub 拉。而是从我的服务器反复下载。于是就出现了一个很魔幻的情况我成了一个免费 CDN。别人疯狂 pull 数据而我疯狂烧服务器流量。为什么有人会这么干我猜可能有几种原因1 爬全站做镜像很多人做 AI 工具站的时候会先把别人网站的数据全爬下来。2 训练数据AI 时代很多人会疯狂抓数据。3 做聚合站。有些 bot 就是全网扫。目前已经锁定两个 IP50.7.250.66香港ip 121.237.245.164江苏南京User-Agentcurl/7.87.0 curl/8.16.0基本可以确定是脚本。准备做的几个防护接下来准备做几件事情1 IP 限速同一个 IP 每分钟限制请求数。2 Cloudflare 防护开启 bot fight。3 下载接口加 token避免直接 curl。4 robots WAF防止简单爬虫。做独立站的一个现实以前总觉得网站没人访问是最大问题。现在发现网站刚上线被爬才是最大问题。很多爬虫比用户来的还快。一个小感慨互联网其实很有意思。你刚做了个小工具站还没来得及推广就已经有人在默默复制你的数据了。如果你也做过类似的站有没有遇到这种情况最后对南京和香港的那2位朋友说一声如果你真想要我网站的数据来收购我网站就行呀省得让我产生天价流量费账单

Pygame实战：中国象棋游戏开发中的5个常见问题及解决方案

Pygame实战：中国象棋游戏开发中的5个常见问题及解决方案中国象棋作为传承千年的策略游戏，其数字化实现一直是编程爱好者热衷的挑战。使用Pygame开发中国象棋游戏时，开发者常会遇到几个典型的技术难题。本文将深入剖析这些问题的根源&#x…...

2026/3/31 19:39:01 阅读更多 →

CVX实战避坑指南：从典型报错到高效调试的MATLAB凸优化编程心法

1. CVX报错诊断：从症状到根源的系统排查法第一次遇到CVX报错时，我盯着屏幕上的红色错误提示发了半小时呆。明明数学推导严丝合缝，代码逻辑清晰明了，为什么这个"Disciplined convex programming error"就像一堵墙挡在面…...

2026/3/14 1:29:38 阅读更多 →

Maya操作器坐标系切换技巧：从局部到世界的无缝转换

1. 为什么你需要掌握坐标系切换？ 如果你刚开始用Maya，可能会遇到一个挺让人困惑的情况：你选中了一个物体，想把它沿着地面（也就是我们常说的世界坐标）水平移动，结果一拖拽，它却斜着飞…...

2026/3/14 1:29:18 阅读更多 →

【Claude】You‘ve hit your session limit 会话限制报错已解决

【Claude】Youve hit your session limit 会话限制报错已解决关键词：Claude Code、session limit、weekly limit、Opus limit、使用额度、/usage、/usage-credits、Pro Max 计划一、问题现象：Claude 突然"拒绝服务" 正在用 Claude Code 写代码…...

2026/6/29 1:19:07 阅读更多 →