首先我们在京东上找一款商品,比如小米Note手机。
其页面地址为:http://item.jd.com/1601991.html,该商品的ID号为:1601991。
变换规则:http://item.jd.com/商品ID号.html →http://club.jd.com/review/商品ID号-1-1-0.html
首先打开八爪鱼采集器,将得到如下图的界面,点击快速开始。
然后点击【新建任务】。
然后选择相关的组,填写该采集任务的名字,以及备注里面填写采集的地址。然后点击右上角的【下一步】。
将流程设计器中的【打开网页】按钮拖到设计区。
然后在【页面Url】中输入要采集的网址:http://club.jd.com/review/1601991-1-1-0.html,然后点击【保存】。
然后将上图中打开的网页,拉到最下方的【下一页】处。
然后鼠标左键单击【下一页】,将出现下面对话框。
接着,我们鼠标左键点击【循环点击下一页】,点击【保存】。
然后点击打开网页中的第一条评论,将弹出下面对话框。
并点击【创建一个元素列表以处理一组元素】,弹出下面对话框。
然后点击【添加到表】。
点击【继续编辑列表】,同第一条评论一样,将第二条评论也添加进去,由于同时添加了两条相同的规则,所以后面的评论就智能的都添加进去了。
点击【创建列表完成】。
点击【循环】。此处表示第一页的评论都可以采集下来了。下面我们需要把这部分的流程添加到【下一页】循环中,这样就可以把所有评论都采集下来。
将上面的【循环】拖到【循环翻页】中。
然后我们选择【循环列表】中的第一条评论,点击【流程设计器】中的【提取数据】,对第一条评论的相关指标进行提取。
然后我们左键单击网页中的第一条评论中的“心得”,将弹出下面对话框。
点击【抓取这个元素的文本】。
然后将【字段名称】中的字段1改为“心得”。
其它指标提取类似。
点击【保存】,然后【下一步】。
这个界面不管,直接【下一步】。
选择【启动单击采集(调试模式)】。
然后点击右下边那个朝右的三角符合,进行启动采集。
这时,我们的数据就开始采集起来了,如果数据较多的话,就需要采集一段时间了,这个时候我们可以先去忙其它的事情。
数据采集完成后,我们可以点击界面右下角处的【导出数据】,可以选择自己所需要的数据格式,这里以Excel格式为例。
【申明】:本站所有内容,若无特别申明,均为数据小雄原创。
转载请注明出处,谢谢!官网:http://www.zhangzhengxiong.com
—————————————————————————
【版权申明】
如非注明,本站文章均为 数据小雄 原创,转载请注明出处:数据小雄博客,并附带本文链接,谢谢合作!
本文地址:http://zhangzhengxiong.com/?id=15。
—————————————————————————
流泪
0人
打酱油
1人
开心
5人
鼓掌
1人
恐怖
0人
发表评论
额 本文暂时没人评论 来添加一个吧