最近会比较忙,所以soukey爬虫的性能优化可能会慢一些。先发一版源代码,希望可以和大家在此方面进行交流。
此版本是《爬虫程序 性能的考虑》中所谈到的第一种算法制作的,也是在codeproject上的那个例子上进行的修改,但也有很多的不同。实际这版代码中还有很多地方可以进行优化,只是最近真的是有点忙。还有一版程序源码,是《爬虫程序 性能的考虑》中的第二种算法,但此版bug较多,还需调试,完成后会发布,可以做一个比较。
这个版本提供了后台线程的监控功能,可以看到后台线程的工作状态和每个线程的所耗时间,广开思路进行优化,有好的建议也可以发给我。
同时这个版本提供了sitemap制作及报告产生的功能,实际这个功能做的很简单。关于google sitemap制作,谷歌提供了专业的sitemap生成器,可参看:谷歌sitemap生成器,而且也是开源的,遵守Apache License 2.0
源代码下载:soukey爬虫