采集任务交换平台仅限网络矿工正式用户使用,soukey采摘及网络矿工试用用户无法使用。
采集任务交换平台登录用户及密码为软件授权用户及序列号,首次登陆后,请尽快修改密码。
正式用户可通过采集任务交换平台下载采集任务,当前采集任务平台大概有90个采集任务,我们的目标是涵盖常用网站的采集规则,预计在半年内完成。
对于相同网站,对采集任务适当调整即可使用,无需从头配置。
采集任务有版本区别,请注意。
Posted in:
在线培训 ,
操作答疑 ,
最新动态 Tags:
采集规则配置技巧,前面讲到了采集网址的一些技巧和分析,现在我们讲解一下采集规则的技巧。对于采集规则我们已经讲过很多次了,核心是正则表达式。但正则对于很多非技术人员而言是一个很抽象很不容易理解的内容。那么又该如何排出采集过程中遇到的问题呢?
1、利用系统提供的正则分析器来进行。当用户配置采集规则完成后,可通过点击“采集规则分析”按钮,系统会自动打开网页源码和采集规则表达式,用户可通过此进行分析采集规则配置是否正确,“|”代表每个采集规则的分割,<名称>代表采集规则的名称。只不过通过采集规则进行匹配后,系统体现的是一个列...
[更多...]
Posted in:
在线培训 ,
技术文档 ,
最新动态 Tags:
直接影响数据采集的只有两个方面:采集网址和规则。其他的所有配置都是为了可以将采集工作做得更好,譬如:防采控制,数据保存等等。但对于采集而言,如果无法正确采集数据,其他都是徒劳。所以,采集至关重要的只有采集网址和采集规则。通常情况下,最难配置的也是采集网址和采集规则。容易发生问题的也是这两个方面。结合我的配置采集任务的经验,来讲讲在配置过程中,常出现错误的地方:
1、配置的采集网址无效 :很多情况配置的采集网址都有可能无效,因为我们通过浏览器地址栏看到的网址往往并非准确。有可能会有几种原因导致:iframe、post请求、ajax请求。
 ...
[更多...]
Posted in:
技术文档 ,
在线培训 ,
最新动态 Tags:
网络矿工数据采集软件最新版在线帮助发布!
版本V2.0,发布时间2010-9-1
Posted in:
在线培训 ,
最新动态 Tags:
Normal
0
7.8 磅
0
2
false
false
false
EN-US
ZH-CN
X-NONE
MicrosoftInternetExplorer4
...
[更多...]
Posted in:
技术文档 ,
在线培训 ,
最新动态 Tags:
采集网址的高级配置:
前面对采集网址的配置已经进行了较为详细的介绍,包括如何配置导航网址。实际在采集网址的配置中,还有很多的技巧,在本文中主要讲解一下采集网址中有可能遇到的其他的问题及解决方式。
1、自定义导航网址,导航网址的核心匹配实际就是正则,所以系统提供了正则表达式的支持,如果你了解正则表达式,可自己直接写正则表达式来进行导航网址的匹配,这样会更灵活。
2、导航网址的字符串处理,很多时候,导航网址是由js来完成的,尽管网络矿工当前还不具备js引擎,但对于此类导航,可以将导航的js参数获取,通过拼接字符串的方式来完成。
3、设置导航规则的提取范围...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags:
何为导航?
上次讲到采集网址改如何配置,并如何通过参数的形式来进行网址的批量配置,从而简化配置
操作。今天来重点讲一下导航规则的配置。
通常情况下,我们配置的采集网址就是需要采集数据的网址。但还有一种情况就是采集的网址
无规律可循,通过参数无法实现成批网址的配置,但其又有一个共同的特点,就是其网址都存在于一个网页中(通常我们称之为导航页面或入口页面)。
举一个例子:采集某个网站的时政新闻。
新闻的网址如下:
http://news.********.com/politics/2010-07/03/c_12293464.htm
...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags:
自本周开始每周固定2个小时进行采集任务配置答疑,方式为加入QQ群,无论您是否为我们的授权用户,只要加入QQ群即可参与此活动。
本周为第一次,对主要问题总结如下:
1、如何采集flash:
采集flash和采集图片的道理是一样的,只要设置采集的数据类型为“图片”或“Flash”即可,但有一个前提条件就是,采集规则的配置是图片或falsh的有效地址,系统会解析出这个地址并进行文件下载。如果地址解析错误,则无法进行下载。今天用户遇到的问题是无法正确找打flash的真实地址,在此推荐使用fiddler,一款免费的http...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags:
Normal
0
7.8 磅
0
2
false
false
false
EN-US
ZH-CN
X-NONE
MicrosoftInternetExplorer4
...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags:
采集网址的配置并不复杂,但如何配置一个高质量的采集网址,还是需要下点功夫,在此我们介绍一些技巧给大家。
采集网址就是我们需要采集数据的内容,这些内容在internet中唯一的标识就是Url(统一资源定位符),我们俗称为网址。就是在浏览器地址栏看到的内容。每一个网址对应一个唯一的网页,通过网址我们就可以准确的识别一个我们需要看到的网页内容。
通常情况下,我们需要采集的数据量会很多,也就是网址会很多,成百上千,甚至上万或更多,如果我们一个一个的输入,那这个工作量将会是巨大的。所以,我们必须通过一种简单的方法来实现这种成百上千个网址的解析。在网络矿工中,我们提供了网址参数来进...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags: