首页  >   网站优化  > SEO每日一博  >  如何采集马蜂窝景点下的评论内容

如何采集马蜂窝景点下的评论内容

事先声明下,本文纯属学术性探讨,请勿将采集到的内容用作商业用途。


一、工具准备

火车头,免费版本的已经够用

Excel,要开启宏,wps不支持

没事,你爱用wps,我不会说你Low的。

二、操作方法

1、找呀找评论

显然,评论的文字内容源代码中是木有的。

好吧,此刻你需要借助Chrome浏览器,Fn+F12。

打开这个链接,认真观察。

你会发现很有趣的两点:

1)、Url中包含着景点的id;

2)、细细观察,红框所示的部分就是评论,当然,需要把unicode转成汉字。

换句话说,如果你能拿到所有的你需要采集评论的景点的id,你就可以批量把景点对应的评论Url地址拼接出来,然后用火车头进行采集,可以获取到这些unicode。

下一步就是怎样批量的将unicode转成汉字。

2、将unicode转成汉字

哈哈,我伟大的excel可以。

打开excel,按alt+F11,然后插入,模板,粘入如下的代码:

Function ChW(t)
If InStr(t, “\u”) Then
s = Split(t, “\u”)
For i = 0 To UBound(s)
If Len(s(i)) > 3 Then
ChW = ChW & ChrW(“&H” & Left(s(i), 4)) & Mid(s(i), 5)
Else
ChW = ChW & s(i)
End If
Next
Else
For i = 1 To Len(t)
s = AscW(Mid(t, i, 1))
If s > 0 And s < 255 Then
ChW = ChW & Mid(t, i, 1)
Else
ChW = ChW & “\u” & LCase(Hex(s))
End If
Next
End If
End Function

保存,此刻就相当于你人工自定义了一个叫ChW的函数,使用方法类似excel自带的sum等函数。

A1单元格中放入你采集到的unicode,B1单元格中输入=ChW(a1)。

怎么样,是不是大功告成?

来吧,试试看你是不是也可以用火车头去采集百度或淘宝等的下拉框了?

推荐阅读

网站关键词排名之关键词排名优化的各个环节 | 文军营销下一篇: 如何采集马蜂窝景点下的评论内容 最新文章 网站外链建设 网站外链建设的常用方法 长尾关键词 目标关键词和长尾关键词的区别在哪 网站地图 如何正确制作和提...

copyright@2015上海文军信息技术有限公司沪ICP备10034044号-8公网安备31011202001046号网站地图