1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集;
2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多;
3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定;
4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确;
5、修正下一页自动翻页?bug
Posted in:
技术文档 ,
最新动态 Tags:
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下:
1、还是基于C#开发吧,还是一个轻量级的桌面应用;
2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势;
3、使用berkeley db来进行Url数据保存;
4、采用广度优先策略;
5、网页分析支持网址的转换,但暂不支持js网址解析;
6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采...
[更多...]
开源网络爬虫很多,上Sourceforge一搜就会有很多,但很少有C#的。今天推荐两个c#开发的网络爬虫
http://www.codeproject.com/KB/IP/Crawler.aspx
老外写的,http通讯采用了socket,效果不错,不过没有处理中文,中文下载会出现乱码,在socket接受部分做一下处理就可以了。这个程序比较
完整,一个基本爬虫所具备的功能都有了,是一个不错的例子。VS2003,.net 1.1 其中有些写法已经过时,需要调整。
http://www.jeffheaton.com/source 还是一个老外写的,csspider.zip。没有...
[更多...]
Posted in: Tags: