400-685-0732 电话咨询送星巴克礼品
上海 · 北京 · 南京 · 广州 · 昆山 · 伦敦
关注专业seo外包公司
SEO创新会
文军营销 中国靠谱的数字营销公司

中文分词工具-ICTCLAS2015简单说说以及操作实例@steven

首页  >   网站优化  > SEO每日一博  >  中文分词工具-ICTCLAS2015简单说说以及操作实例@steven

每次拓词获得了大量的关键词之后,就要整理关键词数据。以前的做法相对简单粗暴,直接将这些内容交给客户了。其实客户也不能看出个所以然来,更别说做一个系统的关键词库了。所以趁着这次的机会,来说说第一步,如何用工具来处理这些关键词数据。

样本库选用了”手机游戏排行榜”的300个拓展的词(量比较小,整理弄好也花了不少时间),当初就在一边做一边想。因为这个关键词库的处理最终的影响结果是为了确定关键词的子父级和确定页面下的调用内容,和为将来的内链系统做准备的,所以如果有偏差请原谅。当然今天只是说说怎么用ICTCLAS2015工具处理这些关键词的数据(不忘目的)。

下载地址 http://ictclas.nlpir.org/upload/20141230101836_ICTCLAS2015.zip 下载好后,进入\ICTCLAS2015\bin,用NLPIR_WinDemo.exe这个程序打开。

1、首先说一下,用户词典这个功能,因为比较实际,如果你不添加自己的词库,例如上面的例子“手机游戏”、“排行榜”等几个关键的词,最后产生的分词结果会很杂乱,到时候会看到“手”、“排行”、“榜”等单独的字块信息,这样处理起来会很乱。所以如下图把不重要的会产生干扰的词不断完善到词库里,减少后期的处理量。用户词就是需要的“需要添加的关键词”,自定义词性定义了这个词的属性,我习惯用英文的n,adj,adv什么的去标记,待会告诉你这个东西会出现在哪里。 ICTCLAS add words   2、接下来就是分词了。如下图,没有添加到过用户词库里的词就出现了“最”、“热”和“火”分开的结果,“手机游戏排行榜”这个词就作为n_newword里过滤结果。 fenci   然后你就可以把这些东西复制到自己的excel里,去做处理了(如何处理看你自己的excel或者编程的功底,请自行脑补)。下图是处理过的结果,这将近300个词的词根就这样出来了。fenci results   第二张表格是对应的处理完的各个词的分词结果,这个有些词根出来的结果(比如那一串的“免费”、“卡牌”)就能帮你确认这部分的相关词了,最终采用一个写title就行。fencichongfu总结:来说说这样做的意义吧。

1、你是不是做类似http://www.dajiabao.com/jihua/shanghai的时候在想用什么去分类呢?仿照倒数第二张处理的结果图,你的页面和分类的维度是不是能比较清晰的出来了?

2、比如“苹果|最新”这个词,你在做列表页的时候,它的上级就可以从“苹果”里去调取父级的内容;可以从“最新”(形容词库)里去调取相关的内容,做成同质推荐;假使有“苹果|最新|动作”这个分词的结果,那么就可以将其内容作为“你是不是想找……”这样的子级内容。至少这样页面在相关性上也更加容易被用户所接受,不再是千篇一律的调用同一个板块。   最后说一下关键词提取->词频这个功能,能帮你快速确定,你以前很粗矿的拓词中加的类似“价格”“评论”这些个长尾是否真的出现的频率有想像中的这么高。cipin

copyright@2015 上海文军信息技术有限公司 沪ICP备10034044号-8 网站地图