潍坊百度文库谈论如何达到百度的要求，让网站收录？_百度爱采购_商业咨询_爱采购资讯_丰采网

在爬虫抓取网页时，如果根本不知道你的网页内容是什么，那基本上是不会被百度收录的。所以让爬虫识别到我们网页的内容也是较为关键的一个问题。

爬虫抓取的四大可识别性

1、robots协议的封禁

robots是一个txt文件，放置于网站的根目录下。可以通过www.xxx.com/robots.txt进行访问打开。如果你的robots文件封禁了百度爬虫，那么收录简直是不可能的。

因为robots协议文件是搜索引擎与网站之间的协议文件。是网站告知搜索引擎爬虫，哪些内容你可以抓取，哪些内容你是不可以抓取。所以你都告诉爬虫不让它抓取了，他还怎么会抓取呢？

2、影响网站收录的ajax技术

js的ajax技术，其实很多做SEO的都知道不能使用js，但这并不完全是。因为爬虫抓取的是网页源代码，只要你源代码中有这些内容就是可以的。但通过js实现异步加载的内容就不行了。

这里解释一下什么是异步加载，就是当前网页源代码没有的内容。通过触发网页某个事件，js通过ajax技术动态加载出来的内容。例如典型的瀑布流网页，当你鼠标滚动到最底部，

然后地步就会出现更多新的内容。多数是采用这个ajax技术。

那被异步加载出来的内容爬虫是看不到的。

3、图片、导航、ALT

图片类型的导航，现在基本很少见了。但这里还是要说一下，如果你的导航（主导航）使用图片，在这个寸土寸金的位置上，搜索引擎根本不知道你说了什么，所以这时候需要我们使用alt标签进行设置。

当然了，alt属性并不单单可以应用在图片导航中。所有你认为重要的图片，都可以进行设置，并合理的融入关键词。像一些素材图片就可以不用设置alt属性了。

4、网站访问速度慢

如果你的网站打开速度很慢的话，也会很大程度上的影响收录。我们举个例子，爬虫每天抓取你网站就给10分钟时间，你的网站访问一次需要1秒钟，和需要100毫秒。这完全是两个层次上的结果。

内容质量对收录的三大影响

单纯解决了爬虫的抓取问题之后，还要更多的关注到内容质量本身

1、内容的原创性

你的内容本身是不是原创的，原创内容更有机会被收录这个是众所周知的。本文不讨论怎么写原创文章，所以原创怎么搞，在这里只能说自己弄明白了，然后用自己的语言组织一下写出来。

2、内容的可读性

你的网页是不是会对用户造成一定的体验影响，例如广告遮挡主体内容。主要的内容没有在电脑首评出现。字体大小、字体颜色与背景色过于接近等。

3、内容的需求满足度

标题和内容是不是提问相符的。且真正解决了用户的需求。并不是挂羊头卖狗肉，或者语句不通顺等行为。

潍坊百度文库谈论如何达到百度的要求，让网站收录？