网站数据采集是一个比较专业的活,通过此类软件就可以知道,因为这类型的软件通常比较难于上手,比起word、excel来讲确实比较难。但一旦你做起了这份工作,有了一些经验,那就很容易了,就好像用word一样容易(当然如果把word用熟确实还要有一段路要走,呵呵)。Soukey采摘是不会提供软件使用帮助的,一是因为一孑比较懒,有这个功夫还不如写点博文,说说其他的,搞个帮助出来最终看的人还不多确实比较伤心,二来是因为Soukey采摘是因为当前Soukey采摘使用起来比较容易,对于一些复杂的地方都用红色字体做了标识,所以也就无需再用帮助说明了,还有一点也是最重要的,永远不要低估用户的潜力,呵呵。
本文不是技术文章,所以为了通俗易懂,很多技术专业的内容可能不够严谨,旨在为了说明问题,不在进行技术培训。
首先我们要知道数据采集的原理,知道了原理就一切都不成问题了。所以下面要开始一步一步的说明了。
我们在浏览网页的时候,地址栏的地址都会是HTTP打头,表明的意思就是一种协议,用这种协议和站点通讯,HTTP准确的说法是超文本传输协议,既然是超文本,那不管你怎么超,归根结底还是文本,所以传输的内容就是文本,浏览的网页也是文本,这就是我们可以采集网站数据的根本。如果传输的不是文本,变成了其他的一些内容,有可能就无法实现了网站数据采集了这个梦想了。
好了,继续,既然我们通过浏览器看到的都是文本数据,那么意味着有两个问题就会出现:
1、我们需要的数据肯定在这个文本中;
2、文本中含有了特殊字符,这些特殊字符将告诉网页该如何显示这些文本,也正是有了这些特殊字符,我们现在的网页才会如此的丰富多彩,从专业角度来讲,这些特殊的字符可以简单的理解为两个内容:布局字符即XHTML超文本标记语言与CSS层叠样式表。
通过xhtml和css网页就可以实现了各种各样的显示风格,但这部分并不是我们需要的,因为我们需要的是网页数据,并不考虑它的布局和显示风格。但如果没有这些字符,我们采集数据也会变的很困难。
了解了上面所说的内容,我们就知道,实际所谓的采集网站数据,就是从一大推文本字符中找到你想要的内容,为了达到这个目的我们通过手工方式可以这样做:
1、用浏览器打开一个网页 ;
2、用浏览器“查看网页源代码”(Firefox)或“查看源文件”(IE)的功能打开这个网页的传输文本内容;
3、可以把这个文本内容全部拷贝到一个专业的文本编辑工具中,也或者直接采用浏览器自带的功能;
4,通过查找的功能,开始找你想要的内容,
5,找到之后需要把它拷贝出来;
原理很清楚,技术提供支持
1、告诉软件你需要采集的网址,就是http后面的内容,软件会根据网址自动将传输的文本下载下来;即soukey采摘中任务信息中的采集网址;
2、告诉软件该如何采集你需要的数据,也就是手工找数据的查找和判断过程,所以在这个过程需要告诉软件查找和确认的标记,即soukey采摘中任务信息的采集规则;
3、告诉软件采集到这些数据之后该如何操作,保存文件?发布数据还是? 即soukey采摘中任务信息的发布数据;