XXXXXXXXX 可以查询IP是住宅IP还是服务器IP 检测到是非住宅ip 就加一道验证 (有成本的就是去购买其API,0成本就去找找看有没有什么主流服务商的ASN列表合集, 也能过滤掉一部分) XXXXXXXXXXXXX 可以查看其IP被投诉的记录(看api好像一样可以判断IP类型),有一大堆蜜罐捕获到了网页访问请求就报告的,理论上也可以过滤掉一大堆没有针对性的全网爬虫.
当然还有个炒鸡简单的 加一大堆蜜罐目录,网页,正常访问看不见的,如果是单纯的遍历数字的爬虫如
XXXXXXXXXXXXXXXXXXXXXXXX/t/*** (t/123 正常页面 t/124蜜罐帖子网页(确保此链接正常人不能从任何地方知晓,那么很显然,访问的就是爬虫了) t/125正常页面
或者 假设现在最新的帖子就是7654,很显然除非你手动改url,否则你按什么地方都不会跳转到超过这个数字的url, , 结果有个访问7655,8888的 那很显然的不对)
XXXXXXXXXXXXXXXXXXXXXXXX/c/new?page=**&t=thread (如上)
又或者爬虫写的是(读取href=" 和 " 中间的链接)
<div class="article-panel-title"><a class="article-panel-title-content" href="
/t/89831
" target="_blank"><span>易点燃的铝热剂</span></a>
给网页加个
<!-- <div class="article-panel-title"><a class="article-panel-title-content" href="
/t/8888888" target="_blank"><span>易点燃的啊米诺斯</span></a> -->
根本不影响任何人的正常浏览,因为这个是注释, 网页不会渲染这个, 但是爬虫会正常触发他的检测特征 (读取href=" 和 " 中间的链接,然后访问这个链接)
不需要识别爬虫 只需爬虫无法读取那更多办法了
时段 | 个数 |
---|---|
{{f.startingTime}}点 - {{f.endTime}}点 | {{f.fileCount}} |