人文艺术 > 被别人爬虫了怎么找出来?

被别人爬虫了怎么找出来?

2020-07-25 22:29阅读(67)

被别人爬虫了怎么找出来?:爬虫首先是有一定特征的,爬虫大部分都会去爬pc端。爬虫一般有以下特征:单一IP十分规律的访问频次我们经常会遇到的一个问题:-爬虫

1

爬虫首先是有一定特征的,爬虫大部分都会去爬pc端。爬虫一般有以下特征:

  1. 单一IP十分规律的访问频次我们经常会遇到的一个问题,当我们在某个网站上发帖时,会提示“发帖过快,请等候XX秒”,或者提示“刷新频率过快,请歇一会”,这都是网站为了缓解压力对“用户”作出了一些限制,而爬虫相关于用户来说更猖獗,访问的频次更快,假如单一IP十分高的访问频次,那么将会被判为“爬虫”,进而遭到限制。

  2. 单一IP十分规律的数据流量当单一IP的数据流量十分大时,也会惹起网站的留意。说到数据流量有些朋友就会有疑问了,下载站的数据流量大也是很正常的啊。这里说的数据流量不只是单一的下载数据流量,而是大量的并发恳求。高并发恳求很容易对效劳器形成高负荷,所以遭到限制也是很正常的。
  3. 大量反复简单的网站阅读行为我们晓得,不同的用户阅读速度、习气等都不相同,有的人阅读一个页面需求五秒,有的需求考虑一分钟等等,当存在大量的用户IP都是千篇一概的阅读速度,比方3秒访问一个页面,那么这就十分可疑了,遭到封杀也是正常的,就算用了代理IP也防止不了。

2

自己有管理权限的网站可以看网站日志一般请求头就可以看见非用户请求的信息,如果爬虫对head进行伪装,可以看ip和请求时长。总之网站日志是很容易发现爬虫的。而处理呢可以封禁ip也可以限制同一用户呢浏览纵深。

3

需要结合打点工具,如growingio等进行分析。

爬虫不是一个反面的东西,百度搜索,头条搜索等搜索引擎都有爬虫,这类爬虫是为了抓取页面信息以致于用户能搜索到,一般带有公开的UA。

打点工具能够查看访问网站的用户的很多合法公开的信息,如手机版本等,可以通过这些进行具体分析,自己的网站有没有被爬虫爬取过。

4

直接看访问记录 访问时间 访问深度 访问次数。然后你就能确定大概是谁在爬了,然后直接ban掉ip

相关问答推荐