限制条件的作用是为了可以增加采集数据的匹配准确度,譬如:同样的数据前置为<td>后置为</td>,此时可以通过限制条件进行数据匹配,只采集中文、数字等内容。
数据输出加工是对已采集的数据进行简单的数据加工,最终得到准确的采集数据。譬如:很多网站的网址都采用相对网址,此时采集后的数据直接入库系统将会无法识别,针对此种情况,可以通过增加前缀的方式把采集的网址进行合成一个最终的完整网址。
采集Ajax页面原理同采集普通的页面,但采集Ajax页面需要注意三个方面:
1、需要利用第三方工具发现真实的请求Url地址及参数,通常Ajax都是由js进行数据的请求,所以你需要第三方工具来找到这个网址及参数,建议可以使用:fiddler
2、ajax网页是通过服务器返回一些数据,然后由js解析成一个网页的,所以,通常情况下,返回的数据时不带编码标识的,所以需要指定网页编码,系统是无法判断的;
3、对于ajax页面中文乱码,当前仅是做了一个简单的处理进行乱码的解码;
同时,对于ajax页面还需重点注意一个问题:建议先通过获取源代码的方式查看ajax数据,从而确定采集的起始位置和终止位置。因为通过浏览器是无法看到这些数据的,当然也可通过第三方工具进行识别。
对于json格式的数据,采集的起始位置和终止位置的方式可能会有些不适用。