已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

{{notice.noticeContent}}

~~空空如也

10个月24天前 IP:江西

3

操作

发表于《数据抓取艺术——以KC网为例》

XXXXXXXXX 可以查询IP是住宅IP还是服务器IP 检测到是非住宅ip 就加一道验证 (有成本的就是去购买其API，0成本就去找找看有没有什么主流服务商的ASN列表合集, 也能过滤掉一部分) XXXXXXXXXXXXX 可以查看其IP被投诉的记录(看api好像一样可以判断IP类型)，有一大堆蜜罐捕获到了网页访问请求就报告的,理论上也可以过滤掉一大堆没有针对性的全网爬虫.

当然还有个炒鸡简单的加一大堆蜜罐目录,网页,正常访问看不见的,如果是单纯的遍历数字的爬虫如

XXXXXXXXXXXXXXXXXXXXXXXX/t/*** (t/123 正常页面 t/124蜜罐帖子网页(确保此链接正常人不能从任何地方知晓,那么很显然,访问的就是爬虫了) t/125正常页面
或者假设现在最新的帖子就是7654,很显然除非你手动改url,否则你按什么地方都不会跳转到超过这个数字的url， , 结果有个访问7655,8888的那很显然的不对)

XXXXXXXXXXXXXXXXXXXXXXXX/c/new?page=**&t=thread (如上)

又或者爬虫写的是(读取href=" 和 " 中间的链接)

<div class="article-panel-title"><a class="article-panel-title-content" href="
/t/89831
" target="_blank"><span>易点燃的铝热剂</span></a>

给网页加个

<!-- <div class="article-panel-title"><a class="article-panel-title-content" href="
/t/8888888" target="_blank"><span>易点燃的啊米诺斯</span></a> -->

根本不影响任何人的正常浏览,因为这个是注释, 网页不会渲染这个, 但是爬虫会正常触发他的检测特征（读取href=" 和 " 中间的链接,然后访问这个链接）

不需要识别爬虫只需爬虫无法读取那更多办法了

+0.5 科创币

全桥整流 2024-02-06 牛蛙，加注释，蜜罐。

回复

文号 / 929123

章鱼wheat

百炼成钢

名片发私信
学术分 0
总主题 20 帖总回复 300 楼拥有证书：进士机友笔友
注册于 2022-10-23 20:11最后登录 2024-12-26 22:13

主体类型：个人

所属领域：无

认证方式：手机号

IP归属地：江西

个人简介

年龄:2007-09-0*

大

小

9999

<button class="btn btn-primary">测试</button> <button class="m-b-05 m-r-05 btn-sm btn-default btn">测试</button> 测试 <label><input type="checkbox" value="11">测试</label>

文件下载

加载中...

{{errorInfo}}

{{downloadWarning}}

你在 {{downloadTime}} 下载过当前文件。

文件名称：{{resource.defaultFile.name}}

下载次数：{{resource.hits}}

上传用户：{{uploader.username}}

所需积分：{{costScores}}，{{holdScores}}下载当前附件免费{{description}}

下载地址：{{l.name}}

积分不足，去充值

文件已丢失

当前账号的附件下载数量限制如下：

时段	个数
{{f.startingTime}}点 - {{f.endTime}}点	{{f.fileCount}}

视频暂不能访问，请登录试试

仅供内部学术交流或培训使用，请先保存到本地。本内容不代表科创观点，未经原作者同意，请勿转载。

预览

音频暂不能访问，请登录试试

投诉或举报

加载中...

{{tip}}

请选择违规类型：

{{reason.type}}

空空如也

提交成功！

插入资源

全部

图片

视频

音频

附件

全部

未使用

已使用

正在上传

{{b.num+1}}{{b.num+1}}..

跳转到确定

空空如也~

上传中..{{f.progress}}%

处理中..

上传失败，点击重试

等待中...

{{f.name}}

空空如也~

(视频){{r.oname}}

{{selectedResourcesId.indexOf(r.rid) + 1}}

处理中..

处理失败

插入表情

我的表情

共享表情

Emoji

上传

{{b.num+1}}{{b.num+1}}..

跳转到确定

分享

注意事项

最大尺寸100px，超过会被压缩。为保证效果，建议上传前自行处理。
建议上传自己DIY的表情，严禁上传侵权内容。

点击重试等待上传{{s.progress}}%处理中...已上传，正在处理中

空空如也~

处理中...

处理失败

加载中...

草稿箱

加载中...

此处只插入正文，如果要使用草稿中的其余内容，请点击继续创作。

刷新{{b.num+1}}{{b.num+1}}..

{{fromNow(d.toc)}}

{{getDraftInfo(d)}}

标题：{{d.t}}

内容：{{d.c}}

继续创作

删除插入插入

插入公式

温馨提示

1. 公式行内显示(inline)：请使用 $....$ 或 \(....\) 包裹代码

2. 公式独占一行显示(display)：请使用 $$....$$ 或 \[....\] 包裹代码

3. 插入的公式在编辑时不会渲染，请检查无误后再插入。

公式输入

公式预览

$\sum_{i=0}^N\int_{a}^{b}g(t,i)\text{d}t$

评论控制

加载中...

文号：{{pid}}

可查看、可评论

只可查看

不可查看、不可评论

加载中...

详情

推送到专栏从专栏移除

设为匿名取消匿名

查看作者

回复

加入收藏取消收藏

收藏

取消收藏

折叠回复

置顶取消置顶

评学术分

鼓励

设为精选取消精选

管理提醒

编辑

通过审核

评论控制

退修或删除

违规记录

投诉或举报

加入黑名单移除黑名单

查看IP

{{format('YYYY/MM/DD HH:mm:ss', toc)}}

ID: {{user.uid}}

{{user.username}}

用户已注销

{{user.info.certsName}}

{{user.description}}

{{format("YYYY/MM/DD", user.toc)}}注册，{{fromNow(user.tlv)}}活动

{{user.threadCount - user.disabledThreadsCount}}

{{user.postCount - user.disabledPostsCount}}

学术分

{{user.xsf}}