400-685-0732 电话咨询送星巴克礼品
上海 · 北京 · 南京 · 广州 · 昆山 · 伦敦
关注专业seo外包公司
SEO创新会
文军营销 中国最靠谱的数字营销公司

搜索引擎是如何判断内容相关性的-基于大数据分析

首页  >   网站优化  > SEO每日一博  >  搜索引擎是如何判断内容相关性的-基于大数据分析

想必很多的seoer每天都挣扎在伪原创的路上,改头改尾改标题,然后30%-50%的原创。当然我并不同意用什么nai盘工具去代替人工的这个过程,因为现有的工具只有简单的替换相近词,最后生成的内容前后不通。可是做伪原创本身就是个很艰辛的过程,写出来的内容很多新手编辑心理没底,也许能做到迎合阅读者的口味,但过往矫正的修改又可能达不到推广某个关键词的目的。所以我们需要去了解搜索引擎如何去判断这一相关性,不然修改或者关键词的堆砌只能是画蛇添足。

先看以下的两组标题,请问,他们是相关的吗?

1、悼念乔布斯-一个时代的落幕

2、苹果价格会不会下跌?

其实也不是我说了算,是不是相关要基于搜索引擎的大数据分析。

搜索引擎通过大量的抓取文章的内容来判断这些分词之间的关系,并赋予其相关性的分值。(传送门:什么是中文分词?)

例如搜索引擎大量分析了其索引数据库后发现某一个词的内容有以下的分词会和它有相关性的特点:(下面数据属于假设)

p(某分词|相关词库)=相关性数值越高越相关,反之不相关

p(iPhone|苹果公司)=0.2

p(乔布斯|苹果公司)=0.15

p(Surface pro|苹果公司)=0.00001

p(Windows 8|微软)=0.2

通过数据研究,人们相信百度搜索引擎拥有这么一个词库,然后把相关的词分配到各个词库下用来匹配文字中的内容,从而得出这篇文章所表达的含义。就如上面的假设一样,通过大量的数据分析,机器通过分词后能判断iPhone、乔布斯、苹果等在合适语境中属于“苹果公司”的词库下,windows产品、office办公等属于“微软”的词条下面。当出现歧义的时候,会通过上下文的结果来判断。就像第二个标题一样,如果判断是属于苹果公司的词库下,那这两组标题就是相关的,乔布斯去世->苹果价格波动,这个就属于内在的联系;当仅仅是水果的价格问题,那就没有相关性。

下面举个浅显的例子:

百度和必应这两家搜索引擎市场竞争对手的握手言和,将进一步巩固百度在中国搜索引擎市场的地位,同时将使得谷歌在华业务的发展更为艰难。此外,这一举动也是百度为拓展海外业务、特别是英文搜索市场业务做技术准备,表明百度在框计算的进程中又向前迈进了一步。

你觉得这篇文章的主要讲了什么?(怎么感觉和公务员申论有点像)

为了便于理解,请看图片中,不要纠结有些类似“搜索引擎”为什么没被分词,为什么英文搜索一定是谷歌词库下,只是举个例子,

2

根据最终的分词和语境可以判断出,这段内容是关于百度市场的。

所以有时候些软文并不是关键词越多越好,自己写的就一定有质量。特别是没有品牌效应的工业产品的时候,很有可能一不小心就写偏了,变成了其他的主题内容,与自己的关键词无关。这就告诉了 我们,我们所创造的内容要以用户需求的角度出发,不然大量的偏离主旨的伪原创内容,很有可能将投票页面相关性的分数拉低了。

 

copyright@2015 上海文军信息技术有限公司 沪ICP备10034044号-8 网站地图