很遗憾,因您的浏览器版本过低导致无法获得最佳浏览体验,推荐下载安装谷歌浏览器!

通过百度快照分析中文分词和百度排名

2015-10-08  来自: 陕西印象信息技术有限公司 浏览次数:3318

    很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。小生就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎***人士,只是通过快照现象得出的个人观察结论,不***准确,只为广大站长起一个去认真观察分析的引子而已。

    小生觉得有必要先解释下中文分词的概念。百科定义:中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照***的规范重新组合成词序列的过程。

    之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,***重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。

    当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。

    百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。

    1、短关键词

    以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。

    打开第1个百度快照页面,可以看到“百度快照”四个字被***标识,并且快照页面有“百度快照”关键字的正向***da匹配。

    打开第二个百度快照页面,可以看到“百度快照”四个字同样被***标识,并且快照页面有“百度快照”关键字的正向***da匹配。

    再来在百度搜索“中文分词”,可以看到首页第1个快照页面“中文分词”关键词***标识,页面关键字是正向***da匹配。

    2、长尾关键词

    以“小说阅读网”为例,以下是首页搜索结果展示。

    打开第1个百度快照页面,可以看到“小说阅读网”关键词被***标识,页面关键字是正向***da匹配。其它也大抵如此。

    但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。

    搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。

    我们或许可以看出两个情况:

    1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向***da匹配。即排名首页网站的页面大多对于所搜索关键词正向***da匹配。

    2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。

    百度快照颜色有何意义?

    另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。

    小生分析:***代表所搜关键词的主关键词,即一个短语或者词组的侧***,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的***;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。

    当然这是小生的一种猜测性分析,不正确之处大家可以一起交流。(由于无法上传图片,各位如有兴趣,可以自行搜索查看结果)

    本文由北漂书生博客原创http://www.361blog.com/seo/433.html,交流与分享网络营销知识。


网站建设 网站运营维护 百度推广 抖音推广 抖音搜索排名 短视频推广 短视频运营 短视频矩阵 短视频代运营 短视频拍摄剪辑 


CopyRight © 版权所有: 陕西印象信息技术有限公司 网站地图 XML 备案号:陕ICP备09025595号-1

陕公网安备 61010302000938号


扫一扫访问移动端