一孑 posted on 三月 8, 2010 15:51
bug已经解决,请下载V1.64版 同时,修正了直接入库操作日志输出的方式,当前默认仅输出错误日志,如果输出所有日志,也会吃进大量内存,导致系统运行缓慢。  

Posted in: 最新动态  Tags:
一孑 posted on 三月 8, 2010 01:58
网络矿工V1.64推迟发布,推迟原因:性能优化,及部分算法的修正。 同时不在存在1.64版本,直接升级为1.69。 关于RSS的输出,支持并不复杂,但还需整体考虑,如果问题不大,则包含在1.69中。

Posted in: 最新动态  Tags:
一孑 posted on 三月 4, 2010 19:58
当进行大数据量采集,直接入库时,在网络条件良好、硬件环境较好的条件下,容易造成后台数据操作死锁。 经测试,access最容易死锁,mssqlserver会好一些,mysql效果最好。 正在排查问题,会尽快解决并发布新版本。

Posted in: 最新动态  Tags:
一孑 posted on 二月 22, 2010 13:20
今天在做采集的时候,遇到了部分网站使用viewstate和url baes64编码的问题。看来有必要提供base64对url编解码的支持了。 viewstate是采用base64进行编码的,在.net中,大家都熟悉viewstate,一般在做网站系统时,viewstate不会做特殊处理,甚至会减少对viewstate的利用,因为viewstate将会很大,导致系统访问变慢,但在很多的B/S业务系统中,性能在此就不是放在第一位了,所以viewstate得到了广泛的应用,甚至会存储更加有意义的内容,这样就导致了数据采集的困难。 网络矿工下一个版本将支持url base64的... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 二月 10, 2010 14:13
2010年2月11日至2010年2月21日放假,迎春节,过大年。 有事请电邮,或QQ留言,我们会尽快给您答复,给您造成的不便深感抱歉!  

Posted in: 最新动态  Tags:
一孑 posted on 二月 2, 2010 14:27
网络矿工V1.64预计2010年3月1日发布,增强数据加工工具,增加数据多任务操作。数据回写经过实际验证,效果与发布数据一致,所以此功能你意义不大,如果需要写入数据库,则重新发布到数据库即可。 同时,新版本还会优化直接入库采集操作,将日志输出到文本,及仅输出错误日志。用户可选择不在将日志输出给界面,降低程序对内存的侵占。同时还会增加系统所引用的正则表达式的修改功能,针对特殊的网页系统内置的正则表达式无法采集实现,可通过外接接口配置自定义的正则表达式来实现数据采集,提高数据采集的精准度。 以上内容,已购用户均可免费升级。同时,针对部分网站提供的图片数据信息,我们会利用... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 一月 27, 2010 13:54
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下: 1、还是基于C#开发吧,还是一个轻量级的桌面应用; 2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势; 3、使用berkeley db来进行Url数据保存; 4、采用广度优先策略; 5、网页分析支持网址的转换,但暂不支持js网址解析; 6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 十二月 23, 2009 10:31
网络矿工最初于今在2010年1月正式开卖,但此日期可能会有所延迟。根据用户最近的反馈意见,需要在网络矿工中增加两个功能: 1、采集延时:即每采集完成一条数据后,等待一段时间再进行数据采集; 2、在导航规则中增加采集页功能支持,也就是可以支持分页采集了; 当前 对于一些复杂的网站数据内容分析,需要用到HTTP嗅探器,我本人一直使用Fiddler,所以也推荐使用此软件,不过此软件界面为英文,操作使用起来有些困难,我这里找到一份fiddler的中文手册,如果需要请发邮件给我,就不在网站中提供下载服务了,望大家谅解! 邮件发至:soukeyminer@gma... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 十二月 16, 2009 17:20
今天给Soukey采摘加了一个小功能,就是采集任务可以接受外部参数。这个小功能貌似对采集不会有太大的作用,但对于搜索就会用处很大。 譬如:建立一个搜索的采集任务,每次需要搜索时,运行这个任务,随时输入你想要查找的信息,系统就会自动完成搜索并将结果采集出来。典型应用: 1、企业黄页查询 2、招聘信息查询 3、其他专业查询等等 这个小功能后期还会不断完善及扩展,这样就可以把很多网站提供的搜索功能灵活的应用起来,在本地构建一个搜索portal,方便信息查询。

Posted in: 操作答疑 , 最新动态 , Soukey采摘  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号