做SEO首先就了解搜索引擎工作流程：

（1）爬行抓取

①批量收集：对互联网上存在链接的网页收集一遍，一般需要耗时几周左右；

②增量收集：在原有基础上搜集新增加的网页，更新上次收集完后有改变的页面，删除收集重复和不存在的网页；

③自己提交：自己主动向搜索引擎提交网站，不建议这种方法，因为比较慢。

PS：搜索引擎蜘蛛是搜索引擎的一个自动程序，它的作用就是用来访问互联网上的网页、图片、视频内容。

URL是搜索引擎的痕迹，看搜索引擎是否爬取过你的网站，就看服务器日志是否有该URL。

④搜索引擎蜘蛛爬行策略

搜索引擎蜘蛛主要是通过爬行页面上的链接来收集新的页面，不停的十字交叉爬行下去便形成一张蜘蛛网。

Ⅰ深度优先爬行（A-B-E-A-C-F-H-A-D-G-H）

Ⅱ广度优先爬行(A-B-C-D-E-F-G-H)（最常用的方式，所以很多SEO优化人员会通过网站地图放上网站的所有链接）

PS: 搜索引擎蜘蛛访问层数设置成3的话，H网页将不会被收集到，所以网站结构的扁平化很重要。

蜘蛛爬行策略

⑤搜索引擎蜘蛛如何避免重复收集

Ⅰ造成重复收集的原因：

蜘蛛没有记录访问过的URL；一个页面由多个域名指向导致。

Ⅱ解决办法：搜索引擎建立了两个表：已访问表、未访问表。

⑥搜索引擎蜘蛛是如何判断网页重不重要

Ⅰ网页目录越小越好用户看着体验好；

Ⅱ原创性内容多，好的，重要性越高；

Ⅲ更新度一个有价值的网站每天都会有更新，用户天天来看，来玩儿；

Ⅳ高质量相关链接导入：一个权重高的，高质量的网页愿意外链接到你的网站，那证明你的网站质量也很好。

（2）预处理

①关键词提取

搜索引擎蜘蛛抓取到的像大量的HTML代码，Javascript，css，div标签等，要去除，搜索引擎完全能识别的还是文字内容，所以关键词提取是把不懂的标签去掉，把文字留下来；

②去除停用词

反复出现的像“得”、“的”、“地”、“啊”、“呀”、“再”等这些无用词称为停用词，去除停用词；

③分词

Ⅰ基于统计的分词方法

分词词典和收录的网络流行词语是搜索引擎的依据，如：我要睡觉了，其他神马都是浮云；

Ⅱ基于字符串匹配的分词方法

例如设置分词词典最大数字是3，那下面这段话的分法：先提取前三个词，我要睡，我要睡词典了没这个词，把睡去掉，留下我要，我要词典里也没这个词，把要去掉，留下我，再提取三个词要睡觉，要睡觉词典里没这个词，把觉去掉，留下要睡，要睡也没这个词，把睡去掉，留下要，再提取三个词睡觉了，睡觉了词典里也没这个词，把了去掉，睡觉词典里有这个词，留下睡觉，接下来的词以此类推。

我要睡觉了，其他神马都是浮云；

我、要、睡觉、了、其他、神马、都是、浮云；

④消除噪声

把网页上各种广告文字、广告图片、版权信息、登录框等等这些信息去除掉；

⑤建立关键词库

提取完关键词后，把页面转换为一个关键词的组合，记录每一个关键词在页面上出现频率，出现次数，格式，位置；

⑥连接关系计算

搜索引擎事先要计算出页面上有那些链接指向那些其他页面，每个页面由哪些导入链接，链接使用了什么锚文本等等；

⑦特殊文件处理

Flash，视频，图片等无法直接读懂。

（3）服务输出

搜索引擎有自己相关的排名机制，主要根据网页的相关度、关键字的密度、网站的权重等，来决定输出的内容排名先后（付费推广的永远排在前面几条）。

留言