新闻中心

想做好SEO,必先精通掌握搜索引擎工作原理!

日期:2019.05.05 来源:SEO
善其事,必先利其器,想做好SEO,必先精通掌握搜索引擎工作原理。本文详解搜索引擎工作原理,专业SEOER必须精通掌握。众所周知,SEO是网络营销的核心技术,它比起付费推广有不可比拟的优势,也是网络营销最根本、必须掌握的技术,任何想做好SEO的人,都要精通掌握搜索引擎的工作原理。SEO工作者的工作就是根据搜索引擎的工作原理,投其所好,让它喜欢我们的网站。那么,搜索引擎是如何抓取网页的呢?他的工作原理到底是怎么回事呢?本文将给出非常详细的解释。
来说说搜索引擎的工作原理,搜索引擎是按如下的六大步骤进行网页的抓取的:
一、提取文字:
搜索引擎的抓取是以文字内容为基础的!简言之。搜索引擎不喜欢图片、视频等,所以,从优化的角度出发,动画网站,Javascript 的代码是不能被引擎抓取的,对优化网站是不利的。“提取文字”是指搜索引擎先从HTML 文件中去掉标签,程序,提取出可以用于页面排名处理的文字内容。如下图就是一个完整的网页:
以上这些代码中,提取文字后用于排名处理的文字只有:“全网营销,整站优化,品牌推广,网站定制开发-上海零逸网络科技有限公司”,除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码:如:meta 标签中的文字,图片替代文字,任何标签的title参数,特别是链接的锚文字(即链接的title参数)等等,并且搜索引擎会记住一些文字在标签中出现的情况。

想做好SEO,必先精通掌握搜索引擎工作原理!

二、确定关键词(中文分词):
对于google等英文搜索引擎而言,搜索引擎判断一个词的方法非常简单,有空格就会产生一个词,所以,搜索引擎在判断西文网站的关键词时比较简单,这个词出现机会越大就越有可能是关键词,从这个角度来说,英文的搜索引擎比中文好做一些,特别是google没有首页优势,更加让网页的排名更加公平。
中文分词是中文搜索引擎特有的步骤,搜索引擎在处理数据时都是以词为基础的,中文词与词之间没有任何分隔符,一个句子中的所有字和词是连在一起的,搜索引擎要先分辨哪几个字是一个词,哪些字本来就是一个词,比如“网站定制开发”可能被分为“网站开发”和“定制”两个词,也有可能分为“网站”、“定制”、“开发”三个词。那么中文分词是如何进行的呢?
中文分词有两种方法:
a.一种是基于词典匹配;
也就是说词典里有这个词,那么搜索引擎就可能判断它为一个词,比如“营销”本身就是一个词典里有的词,搜索引擎再根据这个词是否大量在网页中出现来判断它是不是关键词。
b.一种是基于统计;
基于统计的分词方法是分析大量文字样本,计算出字与字相邻出现的概率,几个字相邻出现越多,越有可能是一个词。基于统计的方法的优势是对新出现的词反应更加快而准确。
我们想进行网页优化时,SEOER只能控制基于统计这种方法,并且这是我们SEOER能够对文章关键词进行操作的唯一办法,基于词典匹配是我们不能改变的。
中文分词的准确性影响排名!在中文分词时,基于统计出现的关键词可以有两种方式,一种叫做完全匹配,就是关键词出现的方式与我们的关键词完全相同,比如,网站关键词是“全网营销推广”,那么网页内容中也大量出现“全网营销推广”,这就叫完全匹配,反之,如果页面中出现的是“全网整合营销推广”等就是不完全匹配。完全匹配的效果更好。但很多时候,为了行文方便,会大量使用不完全匹配的关键词。
以上两种分词方式是混合使用的,因为搜索引擎的智能性是很高的。
搜索引擎会通过title、keywords、description、H1等标签及正文中的词语的出现概率来判断关键词。当搜索引擎发现title、keywords、description、H1等标签中出现的词与正文中大量出现的词相同时,它会认为这个词就是这个页面的关键词。

三、去停止词:
如的,地,得,啊,哈,呀之类的词,这类词是任何网页都不可能将之作为关键词的词,就叫停止词,搜索引擎在将网页收录进数据库之前会去掉这些词。这样的话,会使这个页面内容更加精炼,更加适合收录,因为搜索引擎的数据库空间是有限的。
四、消除噪声:
噪声是指网页上对页面主题没有贡献的内容,比如版权声明文字,导航条,广告等,搜索引擎认为这些版块只是网页的辅助性内容,不会出现关键词,这些都属于噪声,对于主题只能起分散作用。消噪的基本方法是根据html 标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往是噪声,所以这些地方大家最好不要放置关键词。以免给搜索引擎造成误会。所以大家会经常看到某些网页的最下方,有人会故意放置很多的关键词,这是不但无益而且有害的。搜索引擎把噪声区域扔掉后,整个网页看起来就更加精简了。
但就算是这样,页面内容越来越精炼,文件也越来越小,但搜索引擎的数据库还是不足以装下全部的这些页面,所以,有些质量差的页面,搜索引擎是不会收录的!那么,是哪些页面搜索引擎不会收录呢?这时,去重的算法就发挥重要作用了。

想做好SEO,必先精通掌握搜索引擎工作原理!

五、去重:
同一文章经常出现在不同网页上,也就是说有大量抄袭者存在,搜索引擎不喜欢这样重复性的内容,喜欢原创。所以,有些人为了网站的内容更新,会将人家的文章进行复制,然后加入一些简单的内容进行所谓的伪原创,这是不能逃过搜索引擎的去重算法的。
每个网站有着不同的权重,这也导致不同的页面也有不同的权重。用来衡量网站权重最有效的概念是PR值,也有很多网友看重百度权重,但实际上百度公司公开发声过,它们是没有百度权重这个概念的。简单来说,权重的概念可以这样理解,如果一个有影响力的人(权重高)说一件事,相信的人会很多,而一个不为人知的小人物(权重低)说了同一件事,人们会认为可信度不高。
当相同或者相似度很高的文章出现在不同的网站上,权重高的网页会排名靠前,反之权重低的网页排名靠后甚至根本不收录,这就是去重的概念。
PR 值的概念:
全称为PageRank( 网页级别),PR 是Google 创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是:反向链接越多、反向链接质量越高的页面就是最越重要的页面,因此PR 值也越高。PR 值只与链接有关。它是Google 排名运算法则(排名公式)的一部分,是Google 用于用来标识网页的等级、重要性的一种方法,是用来衡量一个网站的好坏的重要标准之一。百度曾公开声明不看重网站外链了,但我可以很负责任地告诉大家,它依然是看重的,只不过重要性降低了,百度现在对于网站的内容原创是非常看重的,所以,要提高所谓的百度权重,只有多做原创。
必须注意:不是说你的网站PR值高,你的所有关键词排名都会好,而是指当有相同或者相似内容时你的网页的排名会好,同时,PR值越高的网站,搜索引擎越喜欢访问,所以网页内容就更容易收录,排名更有机会。

PR值的意义:
1. 网站收录深度和总页面数:
搜索引擎蜘蛛爬行时间以及数据库的空间都是有限的。希望尽量优先收录重要性高的页面,所以PR 值越高的网站就能被收录更多页面,蜘蛛爬行内页的深度也更高。对大中型网站来说,首页PR 值是带动网站收录的重要因素之一。
2. 收录越快:
PR值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上出现新页面或旧页面上内容更新更新时,都能更快速被收录。由于网站新页面通常都会在现有页面上出现链接,更新频率高也就意味着被发现的速度快。
3. 原创内容判定:
在不同网站上发现完全相同的内容时,会选出一个作为原创,其他作为转载或抄袭。当用户搜索相关关键词时,被判断为原创的那个版本会排在前面。而判断哪个版本为原创时,PR 值也是重要因素之一。这也就是为什么那些权重高、PR 值高的大网站,转载小网站内容却经常被当作原创的原因。
4. 排名初始子集的选择:
前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的页面后,不可能对所有页面进行相关性计算并且都收录,因为返回的文件可能有几百万几千万,而搜索引擎的资源是有限的,搜索引擎需要从中挑选出一些质量高的页面再做相关性计算。页面初始子集的选择显然与关键词相关度无关,而只能从页面的重要程度着手,PR 值就是与关键词无关的重要度指标。

想做好SEO,必先精通掌握搜索引擎工作原理!

六、索引:
经过文字提取,确定关键词,消噪,去重后,搜索引擎得到的就是独特的能反映页面主体内容的,以词为单位的内容。接下来搜索引擎索引程序会进行如下的操作:
1 . 提取关键词:按照分词程序分好的词,把页面转换为一个关键词组成的集合;
2 . 记录每一个关键词在页面上的出现频率、出现次数、格式(比如关键词是否出现在标题、黑体、H 标签、锚文字等标签中)、位置(比如是否在页面第一段文字)等,这样,每一个页面都可以记录为一连串关键词的集合。当用户在搜索引擎中输入关键词与本页匹配时,引擎会根据它的算法为你的页面进行排名处理,然后显示在搜索引擎中。
以上基本上就是最详细的搜索引擎工作原理讲解了,大家针对它的工作原理,对网页或者网站进行相应的优化就可以了,后面的文章将教大家一步步如何去进行网站或者网页SEO的实战,请大家多多关注,谢谢。