一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 一月 27, 2010 13:54
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下: 1、还是基于C#开发吧,还是一个轻量级的桌面应用; 2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势; 3、使用berkeley db来进行Url数据保存; 4、采用广度优先策略; 5、网页分析支持网址的转换,但暂不支持js网址解析; 6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 一月 19, 2010 16:09
开源网络爬虫很多,上Sourceforge一搜就会有很多,但很少有C#的。今天推荐两个c#开发的网络爬虫 http://www.codeproject.com/KB/IP/Crawler.aspx 老外写的,http通讯采用了socket,效果不错,不过没有处理中文,中文下载会出现乱码,在socket接受部分做一下处理就可以了。这个程序比较 完整,一个基本爬虫所具备的功能都有了,是一个不错的例子。VS2003,.net 1.1 其中有些写法已经过时,需要调整。 http://www.jeffheaton.com/source 还是一个老外写的,csspider.zip。没有... [更多...]

Posted in:   Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号