网站链接可以打开,为什么百度蜘蛛爬虫还认为是死链?
【问题】:网站链接可以点击打开页面,但是网站日志中爬虫显示为死链接(如何发现网站死链,请查看下载死链检测工具:死链检测工具Xenu)。
【详述】:死链产生的原因是:因为友链页面上线时候,程序员没加内容,自动返回404了,而且是网站每个页面底下都会出现,才会出现这么多死链接。但是及时处理之后,还会有爬虫爬的结果是死链,我正常点击是没问题的,不知道为啥?最重要的是我现在能做些什么挽救下吗?
【解决方案】:根据我的经验,这个时间仅作为参考吧,毕竟无法考证。(日志里看不到蜘蛛在这个时间对死链URL的抓取)我猜测中间流程是这样的:(如何处理死链,请点击查看:新浪seo总监分享死链解决方案 教你如何处理预防网站死链)
(1)蜘蛛抓取了死链前链URL,缓存到百度的页面库中;
(2)蜘蛛发现死链URL返回了404,并且持续一段时间访问,依然返回404(用于判断该页面是否为临时404,当持续返回404次数到一定阈值后,不再访问,认定该URL是死链),将该URL纳入死链库;
(3)抓取导出了死链的页面,判断这些页面上是否依然导出了死链,如果依然导出,则记录该次抓取时间;
(4)注意,第三步,可能只会抓取死链前链的页面,不会再对死链URL进行抓取(即使死链URL现在已经好了,但没能在短时间内正常返回状态码/页面信息,所以不会再被抓取);
【死链对网站的影响】尽量从程序上严谨地进行设计,死链问题虽小,但可能会因为出现的时间长、范围广,而影响到整体网站的表现具体为:
(1)导出死链的页面,评分会受到影响(如果有多数页面,因为导出死链而在页面评级层面从优质>一般>低质进行转变的话,对整个网站也是一种损失);
(2)如果经常导出死链,可能会使网站的内容质量受到怀疑(特别是使用了页面提交的情况下,可能会使得搜索引擎分配给网站的资源配额降低。
综合起来,死链这个问题还是要严格控制的。试想一下,页面导出黑链、垃圾页面、低质量页面,就已经够页面受的了,导出让搜索引擎根本无法识别的页面,搜索引擎会喜欢吗?道理差不多就是这样,就不继续多说啦,以上仅作参考。
相关新闻>>
- 第62期CIO时代信息化大讲堂:智能运维与海量日志分析
- 世纪佳缘女会员发现照片莫名上首页,大V截图网友误为职业骗婚女
- WePhone创始人苏享茂过世6天 风口浪尖上的世纪佳缘弹出这样一条提示
- 什么是恶意镜像?网站被恶意镜像怎么办?(亲测有效)
- 百度官方分享:让蜘蛛抓取网页的四种方式
- 如何解决百度蜘蛛不访问网站的几点窍门 高度解析百度蜘蛛为什么不爬你的网站?
- 搜索引擎蜘蛛为什么会不访问你的网站
- dedecms57伪静态怎么设置?dede57伪静态设置方法七步走
- 织梦怎么把网站里的链接设置为绝对地址
- 解决网站被镜像的问题
- SEO实战案例:美容整形网站SEO优化方案
- 网站被镜像,如何向百度反馈【百度官方】
- 发表评论
-
- 最新评论 进入详细评论页>>