数据采集时会遇到一些通过js脚本跳转的页面,最典型的例子就是用.net制作的网站。譬如:如果用一个按钮来实现分页操作,那么这个按钮最终生成的就是一个js脚本,通过js脚本来实现下一页的请求操作。当然也许是站长通过js隐藏了地址,防止数据被采集到。 在Soukey采摘中正在实现自动翻页的功能,在自动翻页时就会遇到此类问题,当然可以通过变通的方法来解决,就是查看POST数据,根据POST数据的规则进行页面的请求,但如果这样进行,自动翻页的功能就无法实现了,需要用户手工捕获POST数据,并完善其参数。达不到预期目的。查了很多资料,当前并未找到很好的解决方法,仅记录一下现有的成果: ... [更多...]

Posted in:   Tags: ,
一孑 posted on 五月 14, 2009 07:03
最近会比较忙,所以soukey爬虫的性能优化可能会慢一些。先发一版源代码,希望可以和大家在此方面进行交流。 此版本是《爬虫程序 性能的考虑》中所谈到的第一种算法制作的,也是在codeproject上的那个例子上进行的修改,但也有很多的不同。实际这版代码中还有很多地方可以进行优化,只是最近真的是有点忙。还有一版程序源码,是《爬虫程序 性能的考虑》中的第二种算法,但此版bug较多,还需调试,完成后会发布,可以做一个比较。 这个版本提供了后台线程的监控功能,可以看到后台线程的工作状态和每个线程的所耗时间,广开思路进行优化,有好的建议也可以发给我。 同时这个版本... [更多...]

Posted in:   Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号