bug已经解决,请下载V1.64版
同时,修正了直接入库操作日志输出的方式,当前默认仅输出错误日志,如果输出所有日志,也会吃进大量内存,导致系统运行缓慢。
网络矿工V1.64推迟发布,推迟原因:性能优化,及部分算法的修正。
同时不在存在1.64版本,直接升级为1.69。
关于RSS的输出,支持并不复杂,但还需整体考虑,如果问题不大,则包含在1.69中。
当进行大数据量采集,直接入库时,在网络条件良好、硬件环境较好的条件下,容易造成后台数据操作死锁。
经测试,access最容易死锁,mssqlserver会好一些,mysql效果最好。
正在排查问题,会尽快解决并发布新版本。
今天在做采集的时候,遇到了部分网站使用viewstate和url baes64编码的问题。看来有必要提供base64对url编解码的支持了。
viewstate是采用base64进行编码的,在.net中,大家都熟悉viewstate,一般在做网站系统时,viewstate不会做特殊处理,甚至会减少对viewstate的利用,因为viewstate将会很大,导致系统访问变慢,但在很多的B/S业务系统中,性能在此就不是放在第一位了,所以viewstate得到了广泛的应用,甚至会存储更加有意义的内容,这样就导致了数据采集的困难。
网络矿工下一个版本将支持url base64的...
[更多...]
2010年2月11日至2010年2月21日放假,迎春节,过大年。
有事请电邮,或QQ留言,我们会尽快给您答复,给您造成的不便深感抱歉!
网络矿工V1.64预计2010年3月1日发布,增强数据加工工具,增加数据多任务操作。数据回写经过实际验证,效果与发布数据一致,所以此功能你意义不大,如果需要写入数据库,则重新发布到数据库即可。
同时,新版本还会优化直接入库采集操作,将日志输出到文本,及仅输出错误日志。用户可选择不在将日志输出给界面,降低程序对内存的侵占。同时还会增加系统所引用的正则表达式的修改功能,针对特殊的网页系统内置的正则表达式无法采集实现,可通过外接接口配置自定义的正则表达式来实现数据采集,提高数据采集的精准度。
以上内容,已购用户均可免费升级。同时,针对部分网站提供的图片数据信息,我们会利用...
[更多...]
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集;
2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多;
3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定;
4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确;
5、修正下一页自动翻页?bug
Posted in:
技术文档 ,
最新动态 Tags:
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下:
1、还是基于C#开发吧,还是一个轻量级的桌面应用;
2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势;
3、使用berkeley db来进行Url数据保存;
4、采用广度优先策略;
5、网页分析支持网址的转换,但暂不支持js网址解析;
6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采...
[更多...]
网络矿工最初于今在2010年1月正式开卖,但此日期可能会有所延迟。根据用户最近的反馈意见,需要在网络矿工中增加两个功能:
1、采集延时:即每采集完成一条数据后,等待一段时间再进行数据采集;
2、在导航规则中增加采集页功能支持,也就是可以支持分页采集了;
当前 对于一些复杂的网站数据内容分析,需要用到HTTP嗅探器,我本人一直使用Fiddler,所以也推荐使用此软件,不过此软件界面为英文,操作使用起来有些困难,我这里找到一份fiddler的中文手册,如果需要请发邮件给我,就不在网站中提供下载服务了,望大家谅解!
邮件发至:soukeyminer@gma...
[更多...]
今天给Soukey采摘加了一个小功能,就是采集任务可以接受外部参数。这个小功能貌似对采集不会有太大的作用,但对于搜索就会用处很大。
譬如:建立一个搜索的采集任务,每次需要搜索时,运行这个任务,随时输入你想要查找的信息,系统就会自动完成搜索并将结果采集出来。典型应用:
1、企业黄页查询
2、招聘信息查询
3、其他专业查询等等
这个小功能后期还会不断完善及扩展,这样就可以把很多网站提供的搜索功能灵活的应用起来,在本地构建一个搜索portal,方便信息查询。
Posted in:
操作答疑 ,
最新动态 ,
Soukey采摘 Tags: