利用八爪鱼采集器对京东商城上商品评论采集

作者:数据小雄 , 分类:其它 , 浏览:2840 , 评论:0

       首先我们在京东上找一款商品,比如小米Note手机。

       其页面地址为:http://item.jd.com/1601991.html该商品的ID号为:1601991。

       但是在抓取时,我们需要将地址进行变换,变为该款商品的评论地址:http://club.jd.com/review/1601991-1-1-0.html (这就是我们将用来采集的地址)

       变换规则:http://item.jd.com/商品ID号.html →http://club.jd.com/review/商品ID号-1-1-0.html


       下面我们所需要的采集工具就是八爪鱼采集器。

       首先打开八爪鱼采集器,将得到如下图的界面,点击快速开始。

1.png


然后点击【新建任务】。

2.png



然后选择相关的组,填写该采集任务的名字,以及备注里面填写采集的地址。然后点击右上角的【下一步】。

3.png


将流程设计器中的【打开网页】按钮拖到设计区。

然后在【页面Url】中输入要采集的网址:http://club.jd.com/review/1601991-1-1-0.html,然后点击【保存】。

4.png


然后将上图中打开的网页,拉到最下方的【下一页】处。

5.png


然后鼠标左键单击【下一页】,将出现下面对话框。

6.png



接着,我们鼠标左键点击【循环点击下一页】,点击【保存】。

7.png


然后点击打开网页中的第一条评论,将弹出下面对话框。

8.png


并点击【创建一个元素列表以处理一组元素】,弹出下面对话框。

9.png


然后点击【添加到表】。

10.png

点击【继续编辑列表】,同第一条评论一样,将第二条评论也添加进去,由于同时添加了两条相同的规则,所以后面的评论就智能的都添加进去了。

11.png


点击【创建列表完成】。

12.png


点击【循环】。此处表示第一页的评论都可以采集下来了。下面我们需要把这部分的流程添加到【下一页】循环中,这样就可以把所有评论都采集下来。

13.png


将上面的【循环】拖到【循环翻页】中。

14.png


然后我们选择【循环列表】中的第一条评论,点击【流程设计器】中的【提取数据】,对第一条评论的相关指标进行提取。

15.png



然后我们左键单击网页中的第一条评论中的“心得”,将弹出下面对话框。

16.png


点击【抓取这个元素的文本】。

17.png



然后将【字段名称】中的字段1改为“心得”。


其它指标提取类似。

18.png


点击【保存】,然后【下一步】。

19.png


这个界面不管,直接【下一步】。

20.png


选择【启动单击采集(调试模式)】。

21.png


然后点击右下边那个朝右的三角符合,进行启动采集。

22.png


这时,我们的数据就开始采集起来了,如果数据较多的话,就需要采集一段时间了,这个时候我们可以先去忙其它的事情。

23.png


数据采集完成后,我们可以点击界面右下角处的【导出数据】,可以选择自己所需要的数据格式,这里以Excel格式为例。

24.png


下面就是我们最终采集出来的数据格式。

25.png


【申明】:本站所有内容,若无特别申明,均为数据小雄原创。

      转载请注明出处,谢谢!官网:http://www.zhangzhengxiong.com


—————————————————————————

【版权申明】

如非注明,本站文章均为 数据小雄 原创,转载请注明出处:数据小雄博客,并附带本文链接,谢谢合作!

本文地址:http://zhangzhengxiong.com/?id=15。

—————————————————————————

亲!有什么想法呢?
  • 流泪

    0

  • 打酱油

    1

  • 开心

    5

  • 鼓掌

    1

  • 恐怖

    0

 

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

额 本文暂时没人评论 来添加一个吧
新浪微博
米店
标签列表
@数据小雄 | 专注于数据分析、挖掘、可视化案例分享