400-685-0732 电话咨询送星巴克礼品
上海 · 北京 · 南京 · 广州 · 昆山 · 伦敦
关注专业seo外包公司
SEO创新会
文军营销 中国最靠谱的数字营销公司

词库整理+词库筛选@steven

首页  >   网站优化  > SEO每日一博  >  词库整理+词库筛选@steven
总结最近的一些工作,这方面平常总结的少,争取一周一次,慢慢完善这篇文章,希望能造福后来人。不一定对,作为参考吧。
最近更新:2015.6.10
2015.6.10修改了大分类,在标题一中增加了“处理关键词”文档,增加了3.3和3.31
2015.5.27文档建立
一、词库整理
1    选取词库竞争对手->准备阶段:选择基础的根词和相关的长尾词
1.1    专业的seo分类站点上找;导航站上去批量找到;如果实在无资源的情况下可手动补充。目标是尽量涵盖行业内的所有站点。
1.2    自有的抓取数据库里找到行业根词
1.3    行业竞争对手的网站地图中找到行业根词
1.4    手上拥有的资源站点中找到搜索流量的搜索词(百度统计、GA统计等统计工具)
1.5    有资源的话,请花钱向专业的整合公司购买行业关键词数据库
1.1批注    这个时候就是拼资源的时候,网上有这样的站点,例如,http://www.seo3.org/seo-sites-1003-0-1.html
1.2批注    如果先期已经有网站了,请从自己站点的维度出发寻找,其中一定有让底层的根词库
建议:
处理人员:助理
相关技能:火车头或相关的采集工具
耗时估计:1-2天
大部分情况下我们不是1.5的土豪,花个万把块买整合好的数据,所以接着1.1-1.4如下处理
2    再次拓词->将较为完整的1中的词拿出来再做拓展,力求涵盖整个行业的关键词数据库
2.1    将1.1中的站点分类,选出和你将要做的站点属性相同的站
2.1.1    采集这些站点下的关键词库,可采用:爱站关键词挖掘工具(非付费导出量有限,量级较少,噪点较少),5118数据库(可采用火车头采集,利用2次抓取的逻辑可采集到量级很大的词,但噪点过多,很多100名开外的无用词);
2.2    将1.2,1.3,1.4,2.1中的词放入关键词拓展工具中进行拓展
2.2.1    根词的拓展量可以在6K左右;已经较长尾的拓展量可以再600左右,请自适应安排
2.3    将所有的词整理,先初步去重(包含两步,重复项和某些特定词;建议程序)
2.1批注    以游戏站点为例,分类成:网游;页游;手游;小游戏;综合等,找出你要做的站点的属性,将其记录下来。
2.1批注    综合类的站点,比如sina.com.cn,用爱站或5118找到其属性和你相同的站,假使你要做页游,看看有没有web.sina.com.cn等站点,快速找到提取
2.1.1批注    要资源购买付费版的就买付费版,能很大程度上节省时间,别老想着免费;
2.1.1批注    5118数据库用火车头可以批量抓取,量级大的话需要时间,请预估好;采集的方式,先通配采集每个域名/subdomains/下的最大翻页数,再批量写规则通配采集/baidu/rank/下的关键词,这样做是因为每个域名的排名页数不同
2.2批注    爱站的拓长尾词能力好一些,短词(既行业根词)可用爱站跑;中短词长度(判断标准,excel函数=len(*)在4-9左右)可用战神工具跑;中长词(=len(*)在9-18左右)也可用战神工具跑;长词(=len(*)在18-29左右)感觉可以该删的删掉,不用跑了
由于去重出来的重复量过大,有千万级别的,所以必须过滤,分机器和人工同时进行处理
3    处理关键词
3.1    机器初过滤 – 处理噪词;去重
3.1.1    直接匹配删 ,比如:#,$,http,-,..,.com,.xml等等,根据自己的行业特性进行筛选,包含的直接删
3.1.2    替换,主要是转义的和空格,比如: ,",&
3.1.3    全数字删除,根据行业情况处理
3.1.4    以上剩余的词库做去重
3.2    机器初筛选 – 提取精准词
3.1.1    再处理下根词,把根词中的噪词处理一下,比如()里面的内容等,帮助接下来机器提取的精准度
3.1.2    用行业词库和根词去匹配所有的词,整理出一份文档,打包。这部分是最精准的词。
3.3    人力去脏词
3.3.1    软件工具 :notepad++;office excel 2010以上的版本(WPS不行); 关键词自动分类工具
3.3.2    步骤
3.3.2.1    用notepad++打开文档,将所有词复制到分类工具中
3.3.2.2    点击分类工具中的开始查询
3.3.2.3    等待,等到右边跳出最终的结果(过程可能持续5-15分钟不等,不用理睬未响应),期间可以同步进行其他事情
3.3.2.4    复制分词中的结果到notepad++,再到xls表格中(点击结果,ctrl+a,因为没有明显的标识,等待全部变蓝,期间可能有几次未响应)
3.3.2.5    xls表格中,#字号分列
3.3.2.6    第一行插入四列,根词,一级,二级,三级
3.3.2.7    选择四列,插入数据透视表
3.3.2.8    在B列进行数字标识,直接删除的为1(100%无关),待定的为2(其间既混有游戏词也混有无关词),OK的为3
3.3.2.9    处理完后在E2列输入函数公式   =VLOOKUP(A2,Sheet4!A:B,2,0),下拉到底等待处理完毕
3.3.2.10    选择E2列,筛选,将1的去除,留下2和3的结果
3.3.2.11    保存文档,一份整理完
(这部分待编辑,留优化空间)
 
二、    采集底层文章 -> 根据2中的词使用采集工具去采集底层文章
3.1    使用付费工具,水淼软件,采集非百度的源(可使用360、搜狗、微信、bing、谷歌等,谷歌需翻墙)
3.2    文章筛选效率优化
3.2.1    规则:a.包含主要根词(以网页游戏为例,文章中包含“页游”or“webgame”);b.和游戏有关;c.标题限制;d.大小限制(大于多少K的可以直接去除);e.文章内容下限250字;f.再加上人工的筛选;g.机器替换竞品词和去除某些词;总体筛选剩余在18%左右
3.3    采集源优化:找非百度的源头,哪些文章质量命中更高一些,如果相同的情况下,可以看下抓取的质量或抓取的时间时效性
3.3.1    先采集攻略,防止如果先采集新闻,将攻略类的资源分布进去,增加后期调整的成本
三、    站点优化
copyright@2015 上海文军信息技术有限公司 沪ICP备10034044号-8 网站地图