一孑 posted on 二月 22, 2010 13:20
今天在做采集的时候,遇到了部分网站使用viewstate和url baes64编码的问题。看来有必要提供base64对url编解码的支持了。 viewstate是采用base64进行编码的,在.net中,大家都熟悉viewstate,一般在做网站系统时,viewstate不会做特殊处理,甚至会减少对viewstate的利用,因为viewstate将会很大,导致系统访问变慢,但在很多的B/S业务系统中,性能在此就不是放在第一位了,所以viewstate得到了广泛的应用,甚至会存储更加有意义的内容,这样就导致了数据采集的困难。 网络矿工下一个版本将支持url base64的... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 二月 19, 2010 16:19
理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的网站制作成本,这个不要被忽略掉。 介绍几种常用的防采方法: 1、将关键信息作特殊处理:      譬如:... [更多...]

Posted in: 在线培训 , 技术文档  Tags:
一孑 posted on 二月 10, 2010 14:13
2010年2月11日至2010年2月21日放假,迎春节,过大年。 有事请电邮,或QQ留言,我们会尽快给您答复,给您造成的不便深感抱歉!  

Posted in: 最新动态  Tags:
一孑 posted on 二月 2, 2010 14:27
网络矿工V1.64预计2010年3月1日发布,增强数据加工工具,增加数据多任务操作。数据回写经过实际验证,效果与发布数据一致,所以此功能你意义不大,如果需要写入数据库,则重新发布到数据库即可。 同时,新版本还会优化直接入库采集操作,将日志输出到文本,及仅输出错误日志。用户可选择不在将日志输出给界面,降低程序对内存的侵占。同时还会增加系统所引用的正则表达式的修改功能,针对特殊的网页系统内置的正则表达式无法采集实现,可通过外接接口配置自定义的正则表达式来实现数据采集,提高数据采集的精准度。 以上内容,已购用户均可免费升级。同时,针对部分网站提供的图片数据信息,我们会利用... [更多...]

Posted in: 最新动态  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号