一孑 posted on 八月 31, 2010 14:09
网络矿工数据采集软件最新版在线帮助发布! 版本V2.0,发布时间2010-9-1

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 八月 25, 2010 19:05
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 八月 4, 2010 00:58
采集网址的高级配置: 前面对采集网址的配置已经进行了较为详细的介绍,包括如何配置导航网址。实际在采集网址的配置中,还有很多的技巧,在本文中主要讲解一下采集网址中有可能遇到的其他的问题及解决方式。 1、自定义导航网址,导航网址的核心匹配实际就是正则,所以系统提供了正则表达式的支持,如果你了解正则表达式,可自己直接写正则表达式来进行导航网址的匹配,这样会更灵活。 2、导航网址的字符串处理,很多时候,导航网址是由js来完成的,尽管网络矿工当前还不具备js引擎,但对于此类导航,可以将导航的js参数获取,通过拼接字符串的方式来完成。 3、设置导航规则的提取范围... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 七月 6, 2010 01:42
何为导航? 上次讲到采集网址改如何配置,并如何通过参数的形式来进行网址的批量配置,从而简化配置 操作。今天来重点讲一下导航规则的配置。 通常情况下,我们配置的采集网址就是需要采集数据的网址。但还有一种情况就是采集的网址 无规律可循,通过参数无法实现成批网址的配置,但其又有一个共同的特点,就是其网址都存在于一个网页中(通常我们称之为导航页面或入口页面)。 举一个例子:采集某个网站的时政新闻。 新闻的网址如下: http://news.********.com/politics/2010-07/03/c_12293464.htm ... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 七月 6, 2010 00:04
自本周开始每周固定2个小时进行采集任务配置答疑,方式为加入QQ群,无论您是否为我们的授权用户,只要加入QQ群即可参与此活动。 本周为第一次,对主要问题总结如下: 1、如何采集flash: 采集flash和采集图片的道理是一样的,只要设置采集的数据类型为“图片”或“Flash”即可,但有一个前提条件就是,采集规则的配置是图片或falsh的有效地址,系统会解析出这个地址并进行文件下载。如果地址解析错误,则无法进行下载。今天用户遇到的问题是无法正确找打flash的真实地址,在此推荐使用fiddler,一款免费的http... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 七月 2, 2010 18:54
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 六月 20, 2010 03:51
采集网址的配置并不复杂,但如何配置一个高质量的采集网址,还是需要下点功夫,在此我们介绍一些技巧给大家。 采集网址就是我们需要采集数据的内容,这些内容在internet中唯一的标识就是Url(统一资源定位符),我们俗称为网址。就是在浏览器地址栏看到的内容。每一个网址对应一个唯一的网页,通过网址我们就可以准确的识别一个我们需要看到的网页内容。 通常情况下,我们需要采集的数据量会很多,也就是网址会很多,成百上千,甚至上万或更多,如果我们一个一个的输入,那这个工作量将会是巨大的。所以,我们必须通过一种简单的方法来实现这种成百上千个网址的解析。在网络矿工中,我们提供了网址参数来进... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 六月 5, 2010 22:03
采集网站数据有一项重要的配置,就是配置采集规则中数据的起始位置和终止位置,即采集数据的前置标志和后置标志。 前面我们已经讲解过,采集数据,实际就是从网页的源代码中截取您想要的数据。任务网页的内容都可以通过“查看源代码”的方式,查看数据。网页代码就是一个文本内容。所以,要获取数据,就要告诉软件该从哪里截取数据,到哪里结束。这个就是采集数据起始位置和终止位置。 严格意义上,任何采集数据的起始位置和终止位置都必须是唯一的,只要这样,获取的数据才可以准确。如果采集的标识无法唯一,系统首先判断是否为采集多条数据,即所谓的循环采集。如果不是,将抛弃垃圾数据。... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 六月 3, 2010 00:47
网络矿工和soukey采摘对内容的匹配全部都是采用正则表达式来进行的。所以,如果了解正则,或者掌握了正则,在数据匹配方面将会带来很多意想不到的好处。但正则也有一个最大的问题,就是很难理解。 今天,在此,我们对正则做一个小小的讲解。 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索或替换那些符合某个模式的文本内容。所以,我们可以简单理解,正则表达式就是一个符合一定语法规范的字符串,其作用就是为了可以在文本内容中找到指定的内容,或者替换指定的内容。 网络矿工就是利用正则表达式这样的一个优点来快速的找到您想要获取的数据,并... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 五月 2, 2010 12:39
网络矿工是支持海量数据采集的,海量数据没有一个准确的定义,但我曾经测试,连续采集上百万条的数据是没有问题的,且网络矿工队资源占用也非常少(这部分的数据已经忘了,无法给出)。在此并非主要谈网络矿工采集海量数据的问题,而是重点说一下海量数据库的操作(当前仅考虑MSSqlServer),尽管与网络矿工采集无关,但还是对此做一了解: 1、网络矿工在连续insert的时候是随时关闭连接的,不会长时间打开连接进行操作,避免对资源的占用; 2、对海量数据维护操作时,连续update时一定要确保数据表的优化及服务器性能,否则会经常出现超时,我曾测试,连续update45W条数据(表大概... [更多...]

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号