采集规则配置技巧,前面讲到了采集网址的一些技巧和分析,现在我们讲解一下采集规则的技巧。对于采集规则我们已经讲过很多次了,核心是正则表达式。但正则对于很多非技术人员而言是一个很抽象很不容易理解的内容。那么又该如何排出采集过程中遇到的问题呢?
1、利用系统提供的正则分析器来进行。当用户配置采集规则完成后,可通过点击“采集规则分析”按钮,系统会自动打开网页源码和采集规则表达式,用户可通过此进行分析采集规则配置是否正确,“|”代表每个采集规则的分割,<名称>代表采集规则的名称。只不过通过采集规则进行匹配后,系统体现的是一个列表,并非是一个表格,所以,用户在查看结果时,需要人为的将采集规则进行表格的区分。
2、采集规则的一般都是配置网页的html代码,一般不使用网页数据来进行配置,这样做是为了可以得到更好的通用性。譬如:<div class="NTES-link"><a href="http://email.163.com/" class="cBlue">免费邮箱</a>,采集“免费邮箱”,一般配置是:<div class="NTES-link">和</a>,不会配置<a href="http://email.163.com/" class="cBlue">和</a>。因为网页代码一般都具有通用性,而网页数据会存在一定的个性化,但配置了网页代码之后,会采集多余数据,如果遇到这样的问题,则可以通过“数据编辑”中“输出时去掉网页代码”来讲多余的数据去除。
3、采集规则的匹配条件,采集规则中提供了匹配条件的控制,可以更加准确的匹配数据,但匹配条件很多人却很陌生。匹配条件是辅助匹配规则来进行数据匹配的,譬如:<div>123</div> <div>网络矿工</div>,如果匹配“网络矿工”,则会发现采集规则很难配置,因为如果配置<div>和</div>,则系统也会把123匹配出来,所以,用户可限制,只匹配中文,则网络矿工就会检索<div>和</div>之间必须是中文的内容。匹配条件可根据自己匹配的事情情况进行配置。
4、通配符:通配符顾名思义就是一种可以替代某种规则字符串的字符,譬如:\d可以代表数字,\w可以代表字母,就想前面所说,采集规则配置的时候我们建议是采用网页html内容,但如果采集网页html内容无法准确匹配数据时,必须要输入网页数据内容来匹配时,我们就建议通过通配符来替代网页数据内容,以提高采集规则的适应性。