修正采集网址具备导航及下一页两重规则时,对于下一页规则中带有?参数解析不正确的bug。
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。
修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本)
1、下载源码,打开项目工程;
2、找到文件cGatherWeb.cs文件,在Gather目录下;
3、 第221行,strCut += "[^<>].*?"; 删除“.”,修改后为:strCut += "[^<>]*?...
[更多...]
Posted in:
技术文档 Tags:
bug