一孑 posted on 六月 3, 2010 00:47
网络矿工和soukey采摘对内容的匹配全部都是采用正则表达式来进行的。所以,如果了解正则,或者掌握了正则,在数据匹配方面将会带来很多意想不到的好处。但正则也有一个最大的问题,就是很难理解。 今天,在此,我们对正则做一个小小的讲解。 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索或替换那些符合某个模式的文本内容。所以,我们可以简单理解,正则表达式就是一个符合一定语法规范的字符串,其作用就是为了可以在文本内容中找到指定的内容,或者替换指定的内容。 网络矿工就是利用正则表达式这样的一个优点来快速的找到您想要获取的数据,并... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 五月 30, 2010 01:36
最近有很多朋友在一直咨询采集任务配置的问题,我们的宗旨是在允许的情况下,尽可能的回答每一位用户及潜在用户的问题。 但在此我们也希望各位用户了解,我们宁可花更多的时间告诉你如何配置任务,也不愿意花几分钟给您配置一个任务。无论您是潜在用户还是正式用户。如果是正式用户,我们承诺会免费配置任务,这个权力您可在任何时候使用,我们一直建议您是遇到很复杂的采集规则时,由我们来配置,甚至可以给您制作培训视频,但简单的任务还是通过给您支持教会您配置任务更实在一些。 包括高手在内也是如此,高手以前在论坛答复各种问题时,基本都是将采集任务配置完成,测试通过后,贴出采集任务配置的内容。但从今天... [更多...]

Posted in: 最新动态  Tags:
一孑 posted on 五月 18, 2010 01:30
授权用户可通过用户名及授权码通过首页进行登录下载采集任务。请注意自己正在使用的软件版本所对应的任务版本。此信息可通过http://www.yijie.net/download.html 进行查看。 当前采集任务还不是很多,争取以每日递增的方式进行增加,同时在论坛中开设了采集任务配置的教程,提供采集任务配置的讲解。 谢谢各位长久以来对【一孑工作室】的支持!

Posted in: 最新动态  Tags:
一孑 posted on 五月 2, 2010 12:39
网络矿工是支持海量数据采集的,海量数据没有一个准确的定义,但我曾经测试,连续采集上百万条的数据是没有问题的,且网络矿工队资源占用也非常少(这部分的数据已经忘了,无法给出)。在此并非主要谈网络矿工采集海量数据的问题,而是重点说一下海量数据库的操作(当前仅考虑MSSqlServer),尽管与网络矿工采集无关,但还是对此做一了解: 1、网络矿工在连续insert的时候是随时关闭连接的,不会长时间打开连接进行操作,避免对资源的占用; 2、对海量数据维护操作时,连续update时一定要确保数据表的优化及服务器性能,否则会经常出现超时,我曾测试,连续update45W条数据(表大概... [更多...]

最近一直有用户在咨询网络矿工的使用,我们建议是用户先通过在线帮助提供的帮助文档和视频进行掌握,因为软件操作并不复杂。但实际效果并不是很好。思来想去,感觉当前最大的问题是由于数据采集过程中涉及的一些技术内容阻碍了用户对软件操作的掌握。所以,我们准备对数据采集范畴内所涉及的一些技术点进行一次简单的讲解,并结合网络矿工数据采集软件,整理合成这个培训系列文章。 废话少说,先开始快速入门。 网页数据之所以可以采集,是由其技术及应用特点所决定的。我们都知道,上网是需要浏览器的,当前主流的浏览器有:IE(7、8)和Firefox还有Google的chrome,国内也有很多软件厂商都... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 四月 10, 2010 03:05
网络矿工个人版发布,当前仅提供30天试用版本,使用一段时间后,正式接受注册。 网络矿工个人版价格初步定为:158元,提供在线支持服务,并提供一次远程协助服务。 网络矿工个人版当前与Soukey采摘功能相差不多,后续会完善一些。一孑工作室主要还是侧重于服务的提供。 可到 http://www.yijie.net/download.html 进行下载。

Posted in: 最新动态  Tags:
一孑 posted on 四月 8, 2010 18:41
网络矿工在数据采集方面,对结构化数据的支持是非常好的,但此时就会带来一个问题,当大量数据采集下来保存的时候,性能问题该如何解决。 最近遇到好多客户都在采集大量数据,数据量都在几百万的数据量,在这个过程中多多少少的都遇到了问题。在此给出一些建议以供参考: 1、网络矿工是一个数据采集软件,不是一个数据库管理软件,所以,数据性能的问题并非是网络矿工可以解决的,这是非常重要的,如果数据性能下降,意味着采集的性能就会受到影响。这是一个相互影响的问题,因为数据插入是在网络矿工中完成,insert的性嫩嫩个降低,无形就降低了采集性能; 2、如果您遇到的是一个大数据量的采集任... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 三月 31, 2010 19:23
winXP+SP3 .net Framework 2.0  如果软件不明确指定目录,软件在使用的过程中,会由open save等对话框的文件指定自动更改工作目录。其他环境暂未发现此问题。 对网络矿工的影响,在winXP+SP3 .net framework2 环境下,会出现导入任务失败的问题。请尽快下载最新版本进行修正。

Posted in: 最新动态  Tags:
一孑 posted on 三月 18, 2010 16:57
网络矿工个人版是面向个人提供的数据采集软件,功能在soukey采摘的基础上略有增加,主要是为个人用户提供以软件+服务的数据采集方案。 Soukey采摘与网络矿工个人版本的区别: 1、soukey采摘是开源免费的数据采集软件,由于其特性决定,此软件不会提供专门的服务内容,用户只能通过论坛来实现交流。且此软件主要是面向技术人员,希望得到更多技术人员的支持,来共同维护,如果未得到技术志愿者的维护,此版本将维持不变; 2、网络矿工个人版本是由一孑工作室在soukey采摘基础上封装的数据采集软件,将以降低的价格来推向市场,但包含了一孑工作室提供的数据采集服务内容。同时作... [更多...]

Posted in: Soukey采摘 , 最新动态  Tags:
一孑 posted on 三月 8, 2010 15:51
1.8版本正式推出,在V1.63的基础上,主要修正和增加了以下内容: 1、 重新修正了大数据量采集时日志的处理方式,同时修正了大数据量采集时对数据操作方式; 2、增加了对Url Base64 编码解码的支持; 3、修改了试用版本验证机制; 4、优化了网络矿工数据加工及发布套件:支持多任务操作,增强了对数据的修改操作能力;   请各位及时下载并升级,已购网络矿工用户可免费升级。

Posted in: 最新动态  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号