一孑 posted on 一月 27, 2010 13:54
soukey采摘和网络矿工暂时告一段落了,所以,准备做一个自己的spider,参考了一些资料和开源的项目,初步想法如下:
1、还是基于C#开发吧,还是一个轻量级的桌面应用;
2、http通讯部分还是采用webrequest/webresponse,尽管socket能力更强,但从这个小项目来看还未开到socket的优势;
3、使用berkeley db来进行Url数据保存;
4、采用广度优先策略;
5、网页分析支持网址的转换,但暂不支持js网址解析;
6、网页分析提供基本的网页分析:分析title、keywords、des、纯文本,同时提供soukey采摘和网络矿工的接口,可调用其采集规则进行数据分析;
7、最大爬行深度系统默认为10,同时禁止跨域爬行,即不运行从这个网站爬行到其他网站;
8、支持页面下载本地,但不提供文件下载,可支持图片下载;
8、性能目标,在网络畅通的情况下,每日至少可爬行35万网页;
只提供爬虫功能,不提供其他操作。
最终封装成dll,免费使用?

Posted in: 最新动态  Tags:

评论

不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号