为您提供专业的百度关键词优化,百度网站推广服务,提高百度搜索排名,让您的网站快速参与百度搜索排行榜,提升在中国搜索引擎中的排名.

济南网站优化

为您提供百度关键词优化百度搜索排名

以专业的姿态帮您做百度网站推广关键词推广服务!

关键词搜索

中文分词算法详解及关键词排名优化实战应用

点击次数: 发布时间:2019-09-11 16:37文章来源:搜索引擎优化

相信很多SEOer应该都听说过这个中文分词算法,理解与否暂且不谈,但小编绝对相信,至少有60%以上的seoer对这个中文分词算法是有浅显认知的。

接下来,小编就针对这个算法,做一个深入的详解,顺便再谈一谈在关键词排名优化实战操作中,这个中文分词算法该如何应用。(文章比较多,建议仔细认真的阅读并加以理解一下,对你的网站优化思维绝对有帮助,小编绝不忽悠人。)

先来看一下中文分词算法的概念。中文里面最小的单位是字,具有语义的最小单位是词。所以,这中文分词算法的概念就很好理解了,就是把一句话按照相应的语义逻辑算法分成几个词,那问题又来了,搜收录擎的中文分词算法是遵循的哪些逻辑规则呢?

从目前的算法来看,中文分词技术一共有三个:1、词库;2、条件随机场;3、粒度。第2、3都是搜收录擎核心算法所涉及的,并不在我们seoer的研究范围内,我们主要研究的中文分词算法,其实主要基于搜收录擎“词库”。

既然是基于词库的,那我们就要具体的来了解一下这个“词库分词”的原理了,词库分词一共有三个规则:1、正向最大匹配;2、逆向最大匹配;3、双向匹配分词。

暂时不理解没关系,继续往下看。我们假设匹配长度为5,即5个字符,你也可以假设匹配长度为8或者10,都可以,这并不会影响最终的分词结果。

中文分词算法详解及关键词排名优化实战应用-seo优化培训

正向最大匹配算法原理就是:先取出一句话的前五个字,假如能在词库中完整匹配到,则做分词,假如无法完整匹配,则继续匹配前四个字,以此类推(注意,是完整匹配!)。

比如,假如取出的这五个字,正好是一个词,能在词库中完整匹配到,那这五个字就会被分词解决,假如不能,那就再比较前四个字,依次类推,直到匹配出完整词汇为止,然后再把剩下字依次按照5个字符的标准继续匹配。

举个实例,现在我们把这句“我想学关键词排名优化”做一下词库的正向最大匹配分词。

第一步、把“我想学关键”这五个字取出来,和词库中的词汇对比,在词库中并没有发现这个几个字的完整词汇,然后就把第五个字去掉,继续匹配“我想学关”。

同样,在词库中,也没有找到四个字的完整词汇,就接着把最后一个字去掉,继续匹配“我想学”,在词库中会找到“我想学”这个完整词汇,所以,第一步分词结果,就可以把“我想学”给分出来。

第二步、把“关键词排名”这五个字取出来,然后和词库对比,正好词库中有这个词,那就直接做分词解决。

第三步、把剩下“优化”两个字取出来,和词库对比,词库中也有这个词,那就做分词解决。

所以,这句话中文分词的正向最大匹配就是:“我想学/关键词排名/优化”。

同理,逆向最大匹配算法原理就是从后面开始,反向取字符进行词库对比。小编还用这句话来实际说明一下。

第一步、取出“词排名优化”这五个字,比较,词库中不存在;接着去掉第一个字,将“排名优化”进行比较,词库中存在,分词解决。

第二步、取出“想学关键词”这五个字,比较,词库中不存在;接着去掉第一个字,将“学关键词”再次进行比较,词库中依旧不存在;再接着去掉第一个字,将“关键词”再次进行比较,词库中存在,分词解决。

第三步、取出“我想学”这三个字,比较,词库中存在,分词解决。

所以,逆向最大匹配的结果是:“我想学/关键词/排名优化”。

中文分词算法详解及关键词排名优化实战应用-seo优化培训

说到这儿,可能还是有朋友看不懂,正向和逆向的分词结果都有了,有什么用呢?搜收录擎到底是优先显示哪一个分词结果呢?

想要了解这个,就必须再继续看双向匹配分词算法的原理。所谓的双向匹配分词其实就是把正向和逆向进行比较,假如正向和逆向的结果都一样,就正常显示;假如不一样,就按照一定的原则进行优先显示,原则如下。

1)分词结果中,词越少越优先显示。

依旧用这句“我想学关键词排名优化”来说明,正向结果:我想学/关键词排名/优化;逆向结果:我想学/关键词/排名优化;这两个分词结果中,都是三个词。

显然,按照这个原则,这两个结果的优先级都是一样的。

2)、分词结果在词库中能找到的越多,就越优先显示。

如,上例中,“我想学”这个词,两种结果中都存在,这就不用比较了;“关键词”这个词的页面总量在1亿以上,“关键词排名”这个词的页面总量是2830万左右;“排名优化”这个词的页面总量是1420万;“优化”这个词,在搜索结果的页面总量是9970万。

所以,从这两个数据的比较中,也并没有值得参考的。但是,中文分词还有一种原则,就是双向匹配分词没有结果时,优先显示逆向最大匹配结果。别问为什么,我也不知道,算法就是这么设计的。

假如非要一个解释,自己看一下上例中的最终分词结果,逆向最大匹配的结果,确实要比正向最大匹配的更合理一些。

中文分词算法详解及关键词排名优化实战应用-seo优化培训

算法方面的知识就是这些文章,接下来的问题,就是如何把这个中文分词算法合理的运用到关键词排名优化操作中。

分析以下两个网页标题,假如是做“直流无刷电机”这个关键词,根据中文分词算法,哪个标题更容易优先显示出现(也就是排名比较上升)?

1、 title 直流无刷电机_空心杯电机-济南鑫数电机设备厂家 /title

2、 title 直流无刷电机厂家_空心杯电机厂家-济南鑫数电机有限公司 /title

从表面上来看,好像两个标题里都有完整的“直流无刷电机”这个词,但实际上,搜收录擎在具体分词的时候,真的会按照我们臆想的来分词吗?

实战操作分析过程如下:

先对第一个标题进行中文分词(中文分词忽略符号,包括标点符号),我们假设匹配长度为5。

正向最大匹配:直流无刷/电机/空心杯电机/济南鑫数/电机设备厂/家;

逆向最大匹配:直流/无刷电机/空心杯电机/济南/鑫数电机/设备厂家。

根据双向匹配分词规则,正向结果中,有一个“家”字,这个字并不能作为完整的词汇进行匹配,因此,这个最终优先显示逆向最大匹配的结果。

再对第二个标题进行中文分词(中文分词忽略符号,包括标点符号),我们还是假设匹配长度为5。

正向最大匹配:直流无刷/电机厂家/空心杯电机/厂家/济南鑫数/电机/有限公司

逆向最大匹配:直流无刷/电机厂家/空心杯/电机厂家/济南/鑫数电机/有限公司

同样,通过双向匹配分词规则,我们得不到最终的优先结果,所以,默认显示逆向结果。

再把这两个最终的分词结果进行对比,不难发现,第二个标题,“电机厂家”这个词才是重点核心,所以,相对来说,这个标题,更适合优化“电机厂家”这个词。

同样的,第一个标题中,直接完整的匹配出了“无刷电机”这个词,你在搜收录擎中搜索“无刷电机”,看看出现的搜索结果,是不是和“直流无刷电机”非常非常接近?

假如你还有疑问,觉得可能就是匹配长度的问题,那我们假设这个匹配长度是6,再来看一遍。

第一个标题

正向最大匹配:直流无刷电机/空心杯电机/济南鑫数电机/设备厂家

逆向最大匹配:直流无刷电机/空心杯电机/济南鑫数电机/设备厂家

根据双向匹配分词的规则,正向和逆向的结果都一样,正常显示,所以最终结果,正逆都可以。

第二个标题

正向最大匹配:直流无刷电机/厂家/空心杯电机厂/家/济南鑫数电机/有限公司

逆向最大匹配:直流/无刷电机厂家/空心杯/电机厂家/济南鑫数电机/有限公司

根据双向匹配分词的规则,正向最大匹配结果中,单独出现了一个“家”,从这上面来看,而这个字并不存在单独的词汇,所以,这里,优先展示的是逆向最大匹配结果。

现在,我们再把这两个标题做一个对比分析。

直流无刷电机/空心杯电机/济南鑫数电机/设备厂家

直流/无刷电机厂家/空心杯/电机厂家/济南鑫数电机/有限公司

两个标题中,第一个标题经过分词后,依旧能直接完整的匹配出“直流无刷电机”这个词,剩下的就不用再说了吧?

好了,写到这里,这篇文章也该收尾了。小编之所以把这个知识点写的这么透彻,就是希望seo后辈做关键词排名优化的时候,别再傻乎乎的无脑操作了,你假如觉得,能把“厂家词”、“地区词”做到第一页,就已经很知足了,那你还是别做seoer了。

假如站点标题设置好,把地区和厂家之类的字眼填上去,一个月薪2500的文案编辑假如坚持每天发10篇内容,不管什么原创不原创,也不管文章质量怎么样,只要无脑的坚持四五十天,就能把这种关键词做到第一页,你信不?

此篇文章为小编原创撰写,理论可行度较高,可以作为seo实战操作的参考。但还是要提醒您一句:"假如你想要系统的学习seo知识,看这些seo内容是没有用的。"