数据采集时会遇到一些通过js脚本跳转的页面,最典型的例子就是用.net制作的网站。譬如:如果用一个按钮来实现分页操作,那么这个按钮最终生成的就是一个js脚本,通过js脚本来实现下一页的请求操作。当然也许是站长通过js隐藏了地址,防止数据被采集到。
在Soukey采摘中正在实现自动翻页的功能,在自动翻页时就会遇到此类问题,当然可以通过变通的方法来解决,就是查看POST数据,根据POST数据的规则进行页面的请求,但如果这样进行,自动翻页的功能就无法实现了,需要用户手工捕获POST数据,并完善其参数。达不到预期目的。查了很多资料,当前并未找到很好的解决方法,仅记录一下现有的成果:
...
[更多...]