一直认为矿工的用户体验还是不错的,最近让一友人浇了一盆凉水,感觉矿工的用户体验确实对用户来讲有些残忍。真是对不住了,呵呵。仔细研究了一下,准备对网络矿工v2.6版本进行修改,主要改进界面友好性。重点改进的地方有几处:
1、导航规则的修改,现在导航规则处理有些与众不同,这个思路是从soukey采摘沿用下来的,在后期扩展应用中未作优化,所以有些不好理解;
2、采集规则配置,降低采集规则配置的难度,尽可能提升系统采集数据的精准;
3、增强采集任务的采集能力,支持多页采集,就是所谓的Tab页模式的数据采集,前段时间处理过此问题,只不过是在数据合并中处理的,不是在采集源...
[更多...]
网络矿工V2.6测试版发布,其实这个版本并不是一个真正的V2.6,其中一些功能还没有完善,在今天发布的这个版本中,较V2.1比较,主要增加了网址排重和数据合并的功能。此数据合并主要是针对Tab页模式的数据采集而设计,用户可以配置多个任务(一个任务对应一个Tab页数据)对tab页模式的页面进行数据采集,然后可以利用此功能将多个任务的数据进行合并。
本想将Tab页的采集功能集成在采集任务配置中完成,但实验了一些,难度太大,并非程序制作的难度,而是配置的难度,所以,用了一个曲线救国的模式来解决此问题。
同时V2.6版本还想集成一些其他有用的功能,等待最终的V2.6版本发布的时...
[更多...]
网络矿工数据采集软件带有一个数据加工的套件,不知是因为功能有些鸡肋,还是大家都忽视了,并没有接到有数据加工工具的疑问。
最近在处理Tab页采集的问题,如果放到采集功能来处理,会将采集任务大大复杂化,且不可控的风险还是很大,所以,将tab页的数据采集放到了数据加工中,将数据表进行合并,从而完成tab页模式的最终数据采集。
其他网络矿工数据采集软件不仅采集能力强大,其实数据编辑和加工的能力也不可小觑,往往在实际的应用中,数据采集都是第一步,获取数据后,还要进行其他的应用操作,如果可以充分利用网络矿工所内置的数据加工套件,可大大提升数据质量,对后续的应用提供完美支持,即便不是...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
在网络矿工数据采集软件采集引擎基础上,重新进行了封装,升级为企业级数据采集引擎。
网络矿工数据采集引擎主要提供了定向采集及全网采集两种模式,同时支持微博数据数据。数据采集后进行本地数据库及文件保存,支持网址排重,网址排重库至少为1亿网址排重。
在普通ADSL 2M带宽,4GB内存的环境中测试,每日采集数据量可达到40万网页的数据采集。系统内置超过1000个网站的数据采集规则,同时也可利用网络矿工爬虫进行全网检索。
有意向可与一孑联系,索取详细资料
今天探讨一个技术问题吧,c#内存溢出错误,即system.outofmemoryexception
最近一直在研究海量数据采集及智能化数据识别的问题。由此引发了内存溢出。因为是多线程系统,对内存溢出的判断不是很好进行,采用了很多方法来进行,总结一下:
1、首先检查代码,尤其是那些循环的操作;避免使用while(true),如果必须使用,则一定要完善退出循环的问题;
2、检查资源的释放,使用完资源必须释放;需要深入了解IDisposable,同时需要深入了解什么是托管资源,什么是非托管资源;
3、多线程程序,做好同步操作;避免出现资源争夺;
...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
采集任务交换平台仅限网络矿工正式用户使用,soukey采摘及网络矿工试用用户无法使用。
采集任务交换平台登录用户及密码为软件授权用户及序列号,首次登陆后,请尽快修改密码。
正式用户可通过采集任务交换平台下载采集任务,当前采集任务平台大概有90个采集任务,我们的目标是涵盖常用网站的采集规则,预计在半年内完成。
对于相同网站,对采集任务适当调整即可使用,无需从头配置。
采集任务有版本区别,请注意。
Posted in:
在线培训 ,
操作答疑 ,
最新动态 Tags:
最近很忙,在做其他的事情,所以,对矿工的关注少了一些。实在不该。
同时也有很多朋友提出了一些网络矿工的不足之处,直接命中要害。所以,准备抽出时间进行网络矿工的改版。此次改版预警在7月底完成。最主要的修正就是提供tab页采集数据的功能,不要再像以前一样,配置多个任务在合并数据了,一个采集任务搞定一切。实际,也想增加一个OCR的功能,但能力有限,并未开发出一个像样的东西,所以,目标转向了第三方开源系统,如果有好的选择,在最新版本中,我们会集成OCR的功能,针对图片类型数据,直接进行识别并存储。除这两个功能之外,还有一些小的细节修改,一些Bug的问题,也会在新版本中修改。
还...
[更多...]
采集规则配置技巧,前面讲到了采集网址的一些技巧和分析,现在我们讲解一下采集规则的技巧。对于采集规则我们已经讲过很多次了,核心是正则表达式。但正则对于很多非技术人员而言是一个很抽象很不容易理解的内容。那么又该如何排出采集过程中遇到的问题呢?
1、利用系统提供的正则分析器来进行。当用户配置采集规则完成后,可通过点击“采集规则分析”按钮,系统会自动打开网页源码和采集规则表达式,用户可通过此进行分析采集规则配置是否正确,“|”代表每个采集规则的分割,<名称>代表采集规则的名称。只不过通过采集规则进行匹配后,系统体现的是一个列...
[更多...]
Posted in:
在线培训 ,
技术文档 ,
最新动态 Tags:
直接影响数据采集的只有两个方面:采集网址和规则。其他的所有配置都是为了可以将采集工作做得更好,譬如:防采控制,数据保存等等。但对于采集而言,如果无法正确采集数据,其他都是徒劳。所以,采集至关重要的只有采集网址和采集规则。通常情况下,最难配置的也是采集网址和采集规则。容易发生问题的也是这两个方面。结合我的配置采集任务的经验,来讲讲在配置过程中,常出现错误的地方:
1、配置的采集网址无效 :很多情况配置的采集网址都有可能无效,因为我们通过浏览器地址栏看到的网址往往并非准确。有可能会有几种原因导致:iframe、post请求、ajax请求。
 ...
[更多...]
Posted in:
技术文档 ,
在线培训 ,
最新动态 Tags:
采集任务交换平台已开通,处于试用状态。
试用期间,用户无法提交采集任务,但可以免费下载采集任务。采集任务提交工作先期会有一孑工作室提供,力争可以完善常用的采集任务,方便正式用户使用软件。
请各位正式用户使用授权用户名和授权号进行登录,登录后,请立即修改用户名,谢谢!
当前可下载的采集任务还很少,一孑工作室承诺,会在最快的时间内提供丰富的采集任务供用户下载使用。