一孑 posted on 一月 27, 2010 20:03

1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集;

2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多;

3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定;

4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确;

5、修正下一页自动翻页?bug


Posted in: 技术文档 , 最新动态  Tags:
不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号