采集规则是指针对需要采集数据的标示符号,系统将根据这些内容进行需要采集数据的识别。
采集网址:是不需要用户输入的,此网址是根据用户添加的采集网址自动生成的网址内容,如果添加的网址具有参数,系统也会进行参数解析,如果为空,点击自动获取即可,但前提必须是已经有了需要采集的网址。
源代码:是向用户提供的一个源代码查看工具,通过查看源代码寻找需要采集网页数据的标示符;
页面采集范围:是表示从一个完整的页面中,截取一部分源代码进行数据采集,这样做的目的是为了可以更精确的获取需要采集的数据。
采集数据名称:是用户定义需要采集数据的名称,系统提供给了一些默认的内容,用户可以选择也可输入;
采集数据类型:通常都为文本,如果选择非文本,代表的是需要下载文件内容,譬如:图片等。
起始位置:需要采集数据的前置标识;
终止位置:需要采集数据的后置标识;
举例如下:http://www.soukey.com/content/class.aspx?cid=040301&page=1
源代码不提供,获取此网页中车型目录及连接地址。
页面采集范围:<div id="keyarea"> 至 <DIV class="space" id="space1">
采集数据名称:链接地址
采集数据类型:文本
起始位置:class='td'><a href='
终止位置:' target
采集数据名称:车型数据
采集数据类型:文本
起始位置:blank'><li>
终止位置:</li>
点击“测试采集数据”进行采集数据的测试。系统中提供了示例数据。