一孑 posted on 六月 20, 2010 03:51

采集网址的配置并不复杂,但如何配置一个高质量的采集网址,还是需要下点功夫,在此我们介绍一些技巧给大家。

采集网址就是我们需要采集数据的内容,这些内容在internet中唯一的标识就是Url(统一资源定位符),我们俗称为网址。就是在浏览器地址栏看到的内容。每一个网址对应一个唯一的网页,通过网址我们就可以准确的识别一个我们需要看到的网页内容。

通常情况下,我们需要采集的数据量会很多,也就是网址会很多,成百上千,甚至上万或更多,如果我们一个一个的输入,那这个工作量将会是巨大的。所以,我们必须通过一种简单的方法来实现这种成百上千个网址的解析。在网络矿工中,我们提供了网址参数来进行,参数就是一种计算机可以识别的一种有规律的内容,通过对参数的解析,我们可以很简单的配置大量的网址,来最终实现数据的采集。

当前网址参数支持四种类别:

1、数字参数:支持数字递增和递减。

譬如:http://www.****.com/13254.html 此种类型的网址,就可以通过数字参数来实现配置,配置如下:http://www.****.com/{NUM:13200,14200,1}.html 表示的就是网址从http://www.****.com/13200.html 到 http://www.****.com/14200.html 1000个网址,中间的变化规律为:13201、13202......14199、14200 。 这样我们就大大简化了网址配置的操作。数字参数的变化是很灵活的,只要网址中出现了数字,且是一组有规律变化的数字,就可以通过数字参数来实现配置,可以用于1位数,2位数,甚至自由组合的数字。 但在这里需要注意的是:系统是按照数字进行处理,而网址是一个字符串,两者的区别是很大的,譬如:字符串可以表示 01 数字却无法表示 01 ,只能表示为 1 ,所以,我们在配置网址的时候一定要注意字符串 0 的处理。

2、字母参数,字母从A-Z的递增或从Z-A的递减

此类参数多用于排序类的网址参数,譬如:http://www.*****.com/a/index.html 这是一个按照字母排序显示的网址,所以,我们可以配置: http://www.*****.com/{Letter:a,z}/index.html  让系统自动按照26个字母的顺序将所有内容索取出来。

3、日期参数  自定义的日期范围参数

譬如: http://www.*****.com/2010-06-21/article01.html 这是一个指定某个时间段文章的网址,这个网址的文章可以通过数字参数来配置,但中间的日期部分就可以通过自动化日期参数来实现。当然日期也是可以通过数字参数来实现的,只不过会有些麻烦,所以系统提供了自动日期的参数来简化这样的配置。

日期参数提供了两种格式:长日期格式和短日期格式,两者的区别就是:在 月 和 日 表示的时候,长日期会补0 ,短日期不会补0 ,譬如 2010-06-05 (长日期) 2010-6-5(短日期)。

4、字典参数(即自定义参数)

通过数字、字母和日期的参数配置,可以解决大部分的网址自动化解析的过程,但还有一些有规律的网址是无法通过上述内容完成的,譬如:带有区域查询的网址。这些区域查询是有一定规律的,要不是省份、要不是城市,甚至是某个城市的一些区划,而且这些人为看似有规律但计算机却无法识别规则的内容该如何配置呢?那就是采用字典参数。

在字典中建立城市分类,并输入相应的城市信息,譬如:国内的大城市列表,然后在配置网址时选择字典城市分类即可,系统此时就会根据您配置的字典内容进行网址的解析从而达到采集数据获取的目的。

以上就是网络矿工提供的四种网址参数,实际网络矿工还提供了一种网址参数形式,就是第五种的外部参数

5、外部参数

外部参数并不能解决大批量网址配置的问题,它只能解决未定参数的问题。譬如:你需要采集某个网站查询结果的数据,但每次采集的查询条件又不同,而这个条件又无法通过字典数据固定下来,那该如何?总不能每次采集之前都去修改一下网址再运行任务吧,呵呵。

有办法,就是定义外部参数,外部参数就是一个不确定的内容,每次任务运行时,都会要求用户数据这个参数的值,然后系统再根据用户数据值的信息拼接网址完成数据采集。

外部参数最大的作用就是可以通过网络矿工自定一个本机的搜索器。用于信息的搜索、数据保存和分析。

以上讲解的是网址本身的配置,还有一种情况,是通过导航来获取采集网址,此部分内容下次讲解。


Posted in: 在线培训 , 最新动态  Tags:
不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2012『一孑工作室』
    管理我的网站
    京ICP备10018014号