网赚之星论坛-中国顶尖的网赚论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

HyperCard 顶级数字加密虚拟信用卡百度极速版领取56元! Depay数字货币虚拟信用卡好快乐,速度快来拿1分钱2大包纸巾!
HKD港交所(香港数字资产交易所)【金币世界】日入过千鲸鱼至少赚200元钱! 
查看: 3383|回复: 4

搜索引擎蜘蛛爬行太多未必好

[复制链接]

58

主题

58

帖子

214

积分

中级会员

Rank: 3Rank: 3

积分
214
发表于 2014-1-13 11:16:21 | 显示全部楼层 |阅读模式



  一、搜索引擎的蜘蛛,是不是爬得越多越好?

  当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载、甚至还有盗链等。不是所有的搜索引擎蜘蛛都是有用的。另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据。只代表它“到此一游”留下痕迹而已,有的搜索引擎室故意过来找它想要的资源,甚至还有很多是开发人员的蜘蛛测试。

  对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反搜索引擎爬虫是一个值得网站长期探索和解决的问题。


  搜索引擎爬虫对网站的负面影响

  1.网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。

  2.搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。

  3.与网站主题不相关的搜索引擎爬虫消耗资源。

  典型的例子搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider爬虫的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

  4.一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。

  5.robots.txt文件不是万能!

  肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。不错正规搜索引擎会遵守规则,不过不会及时生效。但是实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。

  6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具等等。

  二、有效指引搜索引擎对应的措施,及解决方法:

  1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。

  2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。

  3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

  4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的。


  三、收集最新最准确各大搜索引擎蜘蛛名称

  根据线上空间的访问日志来整理常见的蜘蛛名称,不求最全,但力求爬虫信息资料最新最准确。以下搜索引擎蜘蛛名称都是根据线上空间日志亲手提取。

  各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。

  其实有效常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了,其它的爬虫统统通过通配符(*)禁止掉,屏蔽某些蜘蛛。

  最新最准确各大搜索引擎蜘蛛名称(大家要注意写法了,特别是大小写):

  1、百度蜘蛛:Baiduspider

  网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-image这个百度旗下蜘蛛,是抓取图片的蜘蛛。
  常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

  2、谷歌蜘蛛:Googlebot

  这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。

  3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。

  4、SOSO蜘蛛:Sosospider。

  5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

  6、有道蜘蛛:YoudaoBot,YodaoBot

  7、搜狗蜘蛛:Sogou News Spider

  搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,

  8、MSN蜘蛛:msnbot,msnbot-media

  9、必应蜘蛛:bingbot ,线上(compatible; bingbot/2.0;)

  10、一搜蜘蛛:YisouSpider

  11、Alexa蜘蛛:ia_archiver

  12、宜搜蜘蛛:EasouSpider

  13、即刻蜘蛛:JikeSpider

  14、一淘网蜘蛛:EtaoSpider

  "Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"

  根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用就不用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者应该是最清楚的。

  另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外的,对中文网站用处很小。那不如就节省下资源。

  四、百度的robots文件

  以下是百度的robots文件,大家可以好好参考一下:
  User-agent: Baiduspider Disallow: /baidu Disallow: /s? User-agent: Googlebot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro User-agent: MSNBot Disallow: /baidu Disallow: /s? Disallow: /shifen/ Disallow: /homepage/ Disallow: /cpro

  User-agent: Baiduspider-image
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: YoudaoBot
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou web spider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou inst spider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou spider2
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou blog
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou News Spider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sogou Orion spider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: JikeSpider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: Sosospider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: PangusoSpider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: yisouspider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: EasouSpider
  Disallow: /baidu
  Disallow: /s?
  Disallow: /shifen/
  Disallow: /homepage/
  Disallow: /cpro

  User-agent: *
  Disallow: /


https://www.qyjjyz.com
回复

使用道具 举报

0

主题

222

帖子

490

积分

中级会员

Rank: 3Rank: 3

积分
490
发表于 2014-1-13 11:16:45 | 显示全部楼层
知识有点高深  继续努力学习!

https://www.healthsunbaby.com
回复 支持 反对

使用道具 举报

0

主题

210

帖子

466

积分

中级会员

Rank: 3Rank: 3

积分
466
发表于 2014-1-13 11:17:10 | 显示全部楼层
太深奥了,学习学习。。。。

福利SEO https://www.freettm.com/
回复 支持 反对

使用道具 举报

0

主题

319

帖子

684

积分

高级会员

Rank: 4

积分
684
发表于 2014-1-13 11:18:49 | 显示全部楼层
这个说的专业啊

https://www.vpsmvp.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

联系我们|Archiver|手机版|网赚之星论坛 |网站地图

GMT+8, 2023-6-5 19:16 , Processed in 0.026772 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表