自本周开始每周固定2个小时进行采集任务配置答疑,方式为加入QQ群,无论您是否为我们的授权用户,只要加入QQ群即可参与此活动。
本周为第一次,对主要问题总结如下:
1、如何采集flash:
采集flash和采集图片的道理是一样的,只要设置采集的数据类型为“图片”或“Flash”即可,但有一个前提条件就是,采集规则的配置是图片或falsh的有效地址,系统会解析出这个地址并进行文件下载。如果地址解析错误,则无法进行下载。今天用户遇到的问题是无法正确找打flash的真实地址,在此推荐使用fiddler,一款免费的http嗅探器,通过此,可以监控网页的所有数据内容,也就可以发现flash的真实地址了,配置即可。今天用户提到的下载案例,我们会配置好任务后贴到论坛;
2、一个Url空格引发的问题
Url是不允许出现空格的,但一般我们在使用搜索引擎时,查询内容通常都会使用多个关键词来进行组合查询,而关键词的分割就是空格,如果将这些关键词配置在字典中,并通过系统进行编码转换,就会出现问题,这个是属于系统的bug,在soukey采摘开源版本中已经发现,网络矿工中有待测试,如果bug存在,我们会尽快修正此bug。
3、fiddler的使用
我这里有fiddler的中文手册,尽快放到官网上供大家下载学习,呵呵。
此次培训可能是由于准备仓促,时间定的也不好,所以,好像人气不旺,呵呵,希望大家可以支持我们。
下次集中答疑和培训时间为:2010年7月13日(周二)下午3点-5点
QQ群号码:102085506