一孑 posted on 二月 19, 2010 16:19
理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的网站制作成本,这个不要被忽略掉。 介绍几种常用的防采方法: 1、将关键信息作特殊处理:      譬如:... [更多...]

Posted in: 在线培训 , 技术文档  Tags:
一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 十二月 9, 2009 10:19
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。 从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用... [更多...]

Posted in: 操作答疑 , 技术文档 , 最新动态  Tags:
1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。 2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加... [更多...]

Posted in: 技术文档 , 最新动态  Tags:
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。 修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本) 1、下载源码,打开项目工程; 2、找到文件cGatherWeb.cs文件,在Gather目录下; 3、 第221行,strCut += "[^<>].*?";  删除“.”,修改后为:strCut += "[^<>]*?... [更多...]

Posted in: 技术文档  Tags:
c# 导出Excel的方法很多,在此不进行一一介绍,可通过网上查找。在此仅说明如果使用excel组件时,导出excel后无法彻底关闭excel的问题。 通过 new Interop.Excel.Application()后,在系统中就建立了excel.exe进程,当完成导入工作后,尽管使用了GC.Collect(),但还会存在有可能无法冠词excel进程的问题。给出的方法是杀掉excel进程,但需要在杀excel进程 前需要获知程序创建的进程ID,以便通过ID杀掉进程,而不是通过名称杀掉进程,看到网上有些例子是通过名称杀进程,这样做有可能导致正在使用的excel文件也会被杀掉,造... [更多...]

Posted in: 技术文档  Tags: , ,
一孑 posted on 四月 3, 2009 16:44
准确的说,soukey采摘此部分是参照了网上一个多线程的例子来设计的。这个例子设计的还是很完善的。在很多方面都做了考虑。 [更多...]

Posted in: 技术文档  Tags:
一孑 posted on 四月 3, 2009 16:41
data:存放采集的数据(任务名+时间(datetime.ToFileTime()).xml),及采集完成的任务索引文件(index.xml); img:系统运行时需要的图片资源; Tasks:存放任务信息,此目录下会根据任务分类建立新的目录,每个目录下都具备index.xml文件,用于保存任务文件索引信息,同时此目录下还具备两个特殊文件和一个文件夹        Taksrun.xml,运行区任务索引文件        I... [更多...]

Posted in: 技术文档  Tags:
一孑 posted on 四月 3, 2009 16:40
Soukey采摘结构比较简单,可以分为五个部分: 1、  网址解析及数据下载:主要对需要采集的网址进行识别,并根据指定的网址进行数据下载,然后根据采集规则进行数据采集。网址的识别可以对带参数的网址进行解析,同时也可以识别具备导航规则的网址。 2、  多线程管理:就是实现数据采集的多线程处理。 3、  数据发布:将采集的数据发布到数据库,同时也可手工导出到文本文件或Excel。发布过程也是多线程处理,但仅限于是多任务线程,不支持单任务多线程的处理。发布做的简单了,主要考虑发布功能后期会进行较大的改动,当前在未经过数据加工的情况... [更多...]

Posted in: 技术文档  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号