一孑 posted on 十二月 16, 2009 17:20
今天给Soukey采摘加了一个小功能,就是采集任务可以接受外部参数。这个小功能貌似对采集不会有太大的作用,但对于搜索就会用处很大。 譬如:建立一个搜索的采集任务,每次需要搜索时,运行这个任务,随时输入你想要查找的信息,系统就会自动完成搜索并将结果采集出来。典型应用: 1、企业黄页查询 2、招聘信息查询 3、其他专业查询等等 这个小功能后期还会不断完善及扩展,这样就可以把很多网站提供的搜索功能灵活的应用起来,在本地构建一个搜索portal,方便信息查询。

Posted in: 操作答疑 , 最新动态 , Soukey采摘  Tags:
一孑 posted on 十二月 9, 2009 10:19
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。 从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用... [更多...]

Posted in: 操作答疑 , 技术文档 , 最新动态  Tags:
一孑 posted on 十一月 4, 2009 08:02
本站不提供Soukey采摘源代码的下载服务,一孑已经在Sourceforge上建立了Soukey采摘项目,请点击此处到Sourceforge上下载。 暂时soukey采摘在Sourceforge上不提供源代码直接下载方式,请通过SVN进行下载,谢谢各位的支持与配合。

Posted in: 操作答疑  Tags:
一孑 posted on 九月 16, 2009 09:11
网友的问题,没有考虑便回答:Soukey采摘是用来采集网站数据的。晕死的回答。想了又想,对Soukey采摘的用途总结如下: 1、建站好帮手,可以采集任意网站的任务数据(有点夸张,不过就让我放肆一回吧),这样,网站的数据你就不用发愁了,无论你是想建立何种网站,同时还可以把数据自动发布到网站中,这样建站真的就可以是一条龙服务了; 2、数据分析,可定期对一些你关注的数据进行采集比对、分析,譬如:产品价格,定期采集某个产品在各个网站中的报价、或定期采集你发布的软件在各个网站的下载数量,从而根据数据分析应对策略;此方面应用极为广泛;且很容易扩充更丰富的功能; 3、可以用... [更多...]

Posted in: 操作答疑  Tags:
限制条件的作用是为了可以增加采集数据的匹配准确度,譬如:同样的数据前置为<td>后置为</td>,此时可以通过限制条件进行数据匹配,只采集中文、数字等内容。 数据输出加工是对已采集的数据进行简单的数据加工,最终得到准确的采集数据。譬如:很多网站的网址都采用相对网址,此时采集后的数据直接入库系统将会无法识别,针对此种情况,可以通过增加前缀的方式把采集的网址进行合成一个最终的完整网址。 采集Ajax页面原理同采集普通的页面,但采集Ajax页面需要注意三个方面: 1、需要利用第三方工具发现真实的请求Url地址及参数,通常Ajax都是由js进行... [更多...]

Posted in: 操作答疑  Tags:
网站数据采集是一个比较专业的活,通过此类软件就可以知道,因为这类型的软件通常比较难于上手,比起word、excel来讲确实比较难。但一旦你做起了这份工作,有了一些经验,那就很容易了,就好像用word一样容易(当然如果把word用熟确实还要有一段路要走,呵呵)。Soukey采摘是不会提供软件使用帮助的,一是因为一孑比较懒,有这个功夫还不如写点博文,说说其他的,搞个帮助出来最终看的人还不多确实比较伤心,二来是因为Soukey采摘是因为当前Soukey采摘使用起来比较容易,对于一些复杂的地方都用红色字体做了标识,所以也就无需再用帮助说明了,还有一点也是最重要的,永远不要低估用户的潜力,呵呵。 ... [更多...]

Posted in: 操作答疑  Tags:
  /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-qformat:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-... [更多...]

Posted in: 操作答疑  Tags:
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE ... [更多...]

Posted in: 操作答疑  Tags:
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... [更多...]

Posted in: 操作答疑  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号