一孑 posted on 七月 6, 2010 00:04

自本周开始每周固定2个小时进行采集任务配置答疑,方式为加入QQ群,无论您是否为我们的授权用户,只要加入QQ群即可参与此活动。

本周为第一次,对主要问题总结如下:

1、如何采集flash:

采集flash和采集图片的道理是一样的,只要设置采集的数据类型为“图片”或“Flash”即可,但有一个前提条件就是,采集规则的配置是图片或falsh的有效地址,系统会解析出这个地址并进行文件下载。如果地址解析错误,则无法进行下载。今天用户遇到的问题是无法正确找打flash的真实地址,在此推荐使用fiddler,一款免费的http嗅探器,通过此,可以监控网页的所有数据内容,也就可以发现flash的真实地址了,配置即可。今天用户提到的下载案例,我们会配置好任务后贴到论坛;

2、一个Url空格引发的问题

Url是不允许出现空格的,但一般我们在使用搜索引擎时,查询内容通常都会使用多个关键词来进行组合查询,而关键词的分割就是空格,如果将这些关键词配置在字典中,并通过系统进行编码转换,就会出现问题,这个是属于系统的bug,在soukey采摘开源版本中已经发现,网络矿工中有待测试,如果bug存在,我们会尽快修正此bug。

3、fiddler的使用

我这里有fiddler的中文手册,尽快放到官网上供大家下载学习,呵呵。

此次培训可能是由于准备仓促,时间定的也不好,所以,好像人气不旺,呵呵,希望大家可以支持我们。

下次集中答疑和培训时间为:2010年7月13日(周二)下午3点-5点

 QQ群号码:102085506


Posted in: 在线培训 , 最新动态  Tags:
不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2012『一孑工作室』
    管理我的网站
    京ICP备10018014号