理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的网站制作成本,这个不要被忽略掉。
介绍几种常用的防采方法:
1、将关键信息作特殊处理:
譬如:...
[更多...]
Posted in:
在线培训 ,
技术文档 Tags:
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集;
2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多;
3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定;
4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确;
5、修正下一页自动翻页?bug
Posted in:
技术文档 ,
最新动态 Tags:
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。
从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用...
[更多...]
Posted in:
操作答疑 ,
技术文档 ,
最新动态 Tags:
1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。
2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。
修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本)
1、下载源码,打开项目工程;
2、找到文件cGatherWeb.cs文件,在Gather目录下;
3、 第221行,strCut += "[^<>].*?"; 删除“.”,修改后为:strCut += "[^<>]*?...
[更多...]
Posted in:
技术文档 Tags:
bug
c# 导出Excel的方法很多,在此不进行一一介绍,可通过网上查找。在此仅说明如果使用excel组件时,导出excel后无法彻底关闭excel的问题。
通过 new Interop.Excel.Application()后,在系统中就建立了excel.exe进程,当完成导入工作后,尽管使用了GC.Collect(),但还会存在有可能无法冠词excel进程的问题。给出的方法是杀掉excel进程,但需要在杀excel进程 前需要获知程序创建的进程ID,以便通过ID杀掉进程,而不是通过名称杀掉进程,看到网上有些例子是通过名称杀进程,这样做有可能导致正在使用的excel文件也会被杀掉,造...
[更多...]
Posted in:
技术文档 Tags:
导出,
excel,
soukey采摘
准确的说,soukey采摘此部分是参照了网上一个多线程的例子来设计的。这个例子设计的还是很完善的。在很多方面都做了考虑。
[更多...]
data:存放采集的数据(任务名+时间(datetime.ToFileTime()).xml),及采集完成的任务索引文件(index.xml);
img:系统运行时需要的图片资源;
Tasks:存放任务信息,此目录下会根据任务分类建立新的目录,每个目录下都具备index.xml文件,用于保存任务文件索引信息,同时此目录下还具备两个特殊文件和一个文件夹
Taksrun.xml,运行区任务索引文件
I...
[更多...]
Soukey采摘结构比较简单,可以分为五个部分:
1、 网址解析及数据下载:主要对需要采集的网址进行识别,并根据指定的网址进行数据下载,然后根据采集规则进行数据采集。网址的识别可以对带参数的网址进行解析,同时也可以识别具备导航规则的网址。
2、 多线程管理:就是实现数据采集的多线程处理。
3、 数据发布:将采集的数据发布到数据库,同时也可手工导出到文本文件或Excel。发布过程也是多线程处理,但仅限于是多任务线程,不支持单任务多线程的处理。发布做的简单了,主要考虑发布功能后期会进行较大的改动,当前在未经过数据加工的情况...
[更多...]