一孑 posted on 三月 8, 2010 15:51
1.8版本正式推出,在V1.63的基础上,主要修正和增加了以下内容: 1、 重新修正了大数据量采集时日志的处理方式,同时修正了大数据量采集时对数据操作方式; 2、增加了对Url Base64 编码解码的支持; 3、修改了试用版本验证机制; 4、优化了网络矿工数据加工及发布套件:支持多任务操作,增强了对数据的修改操作能力;   请各位及时下载并升级,已购网络矿工用户可免费升级。

Posted in: 最新动态  Tags:
一孑 posted on 二月 22, 2010 13:20
今天在做采集的时候,遇到了部分网站使用viewstate和url baes64编码的问题。看来有必要提供base64对url编解码的支持了。 viewstate是采用base64进行编码的,在.net中,大家都熟悉viewstate,一般在做网站系统时,viewstate不会做特殊处理,甚至会减少对viewstate的利用,因为viewstate将会很大,导致系统访问变慢,但在很多的B/S业务系统中,性能在此就不是放在第一位了,所以viewstate得到了广泛的应用,甚至会存储更加有意义的内容,这样就导致了数据采集的困难。 网络矿工下一个版本将支持url base64的... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 二月 10, 2010 14:13
2010年2月11日至2010年2月21日放假,迎春节,过大年。 有事请电邮,或QQ留言,我们会尽快给您答复,给您造成的不便深感抱歉!  

Posted in: 最新动态  Tags:
一孑 posted on 二月 2, 2010 14:27
网络矿工V1.64预计2010年3月1日发布,增强数据加工工具,增加数据多任务操作。数据回写经过实际验证,效果与发布数据一致,所以此功能你意义不大,如果需要写入数据库,则重新发布到数据库即可。 同时,新版本还会优化直接入库采集操作,将日志输出到文本,及仅输出错误日志。用户可选择不在将日志输出给界面,降低程序对内存的侵占。同时还会增加系统所引用的正则表达式的修改功能,针对特殊的网页系统内置的正则表达式无法采集实现,可通过外接接口配置自定义的正则表达式来实现数据采集,提高数据采集的精准度。 以上内容,已购用户均可免费升级。同时,针对部分网站提供的图片数据信息,我们会利用... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 一月 27, 2010 13:54
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下: 1、还是基于C#开发吧,还是一个轻量级的桌面应用; 2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势; 3、使用berkeley db来进行Url数据保存; 4、采用广度优先策略; 5、网页分析支持网址的转换,但暂不支持js网址解析; 6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 十二月 23, 2009 10:31
网络矿工最初于今在2010年1月正式开卖,但此日期可能会有所延迟。根据用户最近的反馈意见,需要在网络矿工中增加两个功能: 1、采集延时:即每采集完成一条数据后,等待一段时间再进行数据采集; 2、在导航规则中增加采集页功能支持,也就是可以支持分页采集了; 当前 对于一些复杂的网站数据内容分析,需要用到HTTP嗅探器,我本人一直使用Fiddler,所以也推荐使用此软件,不过此软件界面为英文,操作使用起来有些困难,我这里找到一份fiddler的中文手册,如果需要请发邮件给我,就不在网站中提供下载服务了,望大家谅解! 邮件发至:soukeyminer@gma... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 十二月 16, 2009 17:20
今天给Soukey采摘加了一个小功能,就是采集任务可以接受外部参数。这个小功能貌似对采集不会有太大的作用,但对于搜索就会用处很大。 譬如:建立一个搜索的采集任务,每次需要搜索时,运行这个任务,随时输入你想要查找的信息,系统就会自动完成搜索并将结果采集出来。典型应用: 1、企业黄页查询 2、招聘信息查询 3、其他专业查询等等 这个小功能后期还会不断完善及扩展,这样就可以把很多网站提供的搜索功能灵活的应用起来,在本地构建一个搜索portal,方便信息查询。

Posted in: 操作答疑 , 最新动态 , Soukey采摘  Tags:
一孑 posted on 十二月 9, 2009 10:19
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。 从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用... [更多...]

Posted in: 操作答疑 , 技术文档 , 最新动态  Tags:
1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。 2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加... [更多...]

Posted in: 技术文档 , 最新动态  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号