网络矿工最初于今在2010年1月正式开卖,但此日期可能会有所延迟。根据用户最近的反馈意见,需要在网络矿工中增加两个功能:
1、采集延时:即每采集完成一条数据后,等待一段时间再进行数据采集;
2、在导航规则中增加采集页功能支持,也就是可以支持分页采集了;
当前 对于一些复杂的网站数据内容分析,需要用到HTTP嗅探器,我本人一直使用Fiddler,所以也推荐使用此软件,不过此软件界面为英文,操作使用起来有些困难,我这里找到一份fiddler的中文手册,如果需要请发邮件给我,就不在网站中提供下载服务了,望大家谅解!
邮件发至:soukeyminer@gma...
[更多...]
今天给Soukey采摘加了一个小功能,就是采集任务可以接受外部参数。这个小功能貌似对采集不会有太大的作用,但对于搜索就会用处很大。
譬如:建立一个搜索的采集任务,每次需要搜索时,运行这个任务,随时输入你想要查找的信息,系统就会自动完成搜索并将结果采集出来。典型应用:
1、企业黄页查询
2、招聘信息查询
3、其他专业查询等等
这个小功能后期还会不断完善及扩展,这样就可以把很多网站提供的搜索功能灵活的应用起来,在本地构建一个搜索portal,方便信息查询。
Posted in:
操作答疑 ,
最新动态 ,
Soukey采摘 Tags:
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。
从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用...
[更多...]
Posted in:
操作答疑 ,
技术文档 ,
最新动态 Tags:
1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。
2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
更新了一版网络矿工,修改了一些bug,并增加了导航网址的提取范围,并优化了一些任务配置的操作。
更新功能如下:
1、增加代理,支持http代理;
2、增加正则分析器;
3、 支持导航翻页;
4、支持采集数据合并;