直接影响数据采集的只有两个方面:采集网址和规则。其他的所有配置都是为了可以将采集工作做得更好,譬如:防采控制,数据保存等等。但对于采集而言,如果无法正确采集数据,其他都是徒劳。所以,采集至关重要的只有采集网址和采集规则。通常情况下,最难配置的也是采集网址和采集规则。容易发生问题的也是这两个方面。结合我的配置采集任务的经验,来讲讲在配置过程中,常出现错误的地方:
1、配置的采集网址无效 :很多情况配置的采集网址都有可能无效,因为我们通过浏览器地址栏看到的网址往往并非准确。有可能会有几种原因导致:iframe、post请求、ajax请求。
验证Url有效的方法可分为两个步骤:将Url拷贝出来,重新打开浏览器,再将拷贝的Url粘贴回去,看是否可以正确打开。
1)如果正确打开,且采集的数据也可在网页源码中找到,则此Url就是我们需要采集的目标Url。
2)如果正确打开,但在网页源码中无法找到采集的目标数据,则再进行判断:
a) 网页源代码中是否有iframe字样,且提供了iframe打开的地址,如果有则打开此链接,看是否存在采集目标数据;
b)网页中不存在iframe字样,则需要利用http嗅探器,来检测此Url请求,看是否还有其他的有效请求地址,此种情况多为Ajax,在此不作过多解释,如遇到此种情况,建议您与一孑工作室联系,试用用户将此问题提交到论坛,由一孑工作室技术人员帮您完成分析过程。
3)如果无法正确打开,则判断是否为POST请求,如何判断?打开网络矿工Mini浏览器,重新访问此网站及此地址,查看浏览器是否捕获到了POST数据;
4)如果无法正确打开,则判断是否此网页需要Cookie验证,如何判断?方法同上。
2、导航配置,导航是一件非常痛苦的事情,很多时候,导航的配置是无比复杂的,但导航又是一个常用的功能。对于导航规则该如何配置呢?在此主要讲解一下如何利用“采集规则测试”功能配置导航规则。在导航规则的配置中,我们讲解过,导航规则的配置有两种:简单规则和复杂规则。在这里我们讲第三种,就是自定义配置。如果自定义配置呢?实际导航规则的原理也是要在网页中将需要导航的url采集出来,所以,此时,我们可以将导航页作为采集网址,然后配置相应的采集规则进行导航网址的采集,看是否可以正确获取这些正确的导航网址,如果可以,那么很简单了,在采集规则页中,点击“采集规则分析”按钮,系统会自动将采集规则生产正则表达式,我们只需要将这个正则表达式复制出来,然后粘贴到导航规则中,注意要选择“自定义正则捕获网址”
3、字典的应用:字典的应用有两个方面:1)作为Url无规则参数来使用,2)作为Url配置来使用。实际这两者都是在产生采集Url,只不过一个是通过参数实现,一个则是直接产生无需的url。干什么用?可作为网络蜘蛛使用。指定入口地址,入口地址可由字典参数指定,导航规则设置为有效的Url,采集规则设置为采集<Title></Title> 为标题,<body></body>并去除网页代码为网页主体,来进行网页的检索,通过导航级别限制网络爬虫的检索深度。那么网络矿工很快就变成了一个有效的网络爬虫了。