在网络矿工数据采集软件采集引擎基础上,重新进行了封装,升级为企业级数据采集引擎。
网络矿工数据采集引擎主要提供了定向采集及全网采集两种模式,同时支持微博数据数据。数据采集后进行本地数据库及文件保存,支持网址排重,网址排重库至少为1亿网址排重。
在普通ADSL 2M带宽,4GB内存的环境中测试,每日采集数据量可达到40万网页的数据采集。系统内置超过1000个网站的数据采集规则,同时也可利用网络矿工爬虫进行全网检索。
有意向可与一孑联系,索取详细资料