搜索引擎不抓取页面服务器端的五个问题

科瑞斯官方科瑞斯官方 2023年11月03日 搜索引擎服务器设置

1、错误的封禁在百度的robots.txt的更新上,如果多次点击“检测并更新”就会涌现时常可以更新,但是又时常无法更新的问题。如此一来:不应该被收录的东西,在robots.txt上禁止的被收录了,又删除就很正常了。那么它的问题是什么呢?并非服务器负载过度,而是因为防火墙错误的将部分Baiduspider列入了黑名单。

搜索引擎不抓取页面服务器端的五个问题

2、服务器异常惯例的服务器就不说了,大家都知道的,北上广的一般都不错。不过有一些特别服务器,想必绝大多数的站长都不知道吧?例如西部数码的“港台服务器”就很有趣,真的是港台的吗?本身机房在国内,还算什么港台?为了回避备案而用一个港台的IP,数据全体在国内。这样有什么不好呢?我们会发觉:站点的服务器是经过CDN的,哪怕是你上传的一张图片,都会显示为“302状况码”,浏览速度是提高上去了,可是这样利于SEO吗?3、获取不到真实IP范围较大的网站,一般都会应用CDN加速,但是有些站点不仅仅对“设备”应用了CDN加速,而且还对Spider应用了加速功能。后的结果是什么呢?如果CDN节点不稳定,那么对网站spider来讲,这个问题将是致命的。很多大型站点开放CDN的原因就是容易被攻击,这个时候如果不做“蜘蛛回源”就可想而知了。你的站点做了CDN了吗?请登录百度站长平台查看一下spider是否可以抓取真实IP地址吧!4、频繁的50X类错误

这样的链接其中一个共同的特征是:当打开后,全体都是正常的,那么Spider为什么会报错提示呢?只是因为在爬虫发起抓取的那一刻,httpcode返回了5XX,你的站点是否频繁有这样的问题呢?有的话需要立即安排技术,或者通报IDC服务商做解决了!

5、错误的抓取比例任何网站都做不到100%不出问题,但是万事有一个度:我们以为,这个比例不超过5%,对网站基本上是无影响的,且这样的错误不应该每天都涌现。常见的抓取错误一般都是连接超时:抓取请求连接建立后,下载页面速渡过慢,导致超时,可能原因服务器过载,带宽不足这种情形:A:尽量在不影响图片质量的情形下,对图片进行压缩,上传的时候就进行了压缩。B:减少如JS脚本文件类型的应用,或者进行合并C:页面大小进行控制,尤其是一些访问量、抓取量较高的页面,不建议超过2MB。D:增长网站的带宽,提高下载速度,或者改换服务器。今天科瑞斯关于网站收录服务器端问题就分享到这里,更多网站建设、优化等问题可咨询科瑞斯技术团队。

二维码

添加客服微信,获取相关建站资料。

4008802488

13823549304

二维码

微信客服