实例教你使用采集本节通过采集“帝国官方技术文档”作为采集教程实例
不同系统模型都有自己的采集表单,无论是内置的还是用户自定义的系统模型,新闻系统有新闻系统采集,下载系统有下载系统采集等等。
下面只是新闻系统模型的采集,其它系统模型采集基本雷同,用户可举一反三。
采集页面地址:http://www.phome.net/document/java/
一、登陆后台-》“管理栏目”-》“增加采集节点”。
二、“选择要增加采集的栏目”(选择终极栏目)后进入增加节点表单:
三、由于前面许多选项是依实际需求而设定。我们下面主要讲解正则的主要内容:
1、输入“采集页面地址”列表,如下图:(每个列表用回车格开)
2、由于采集列表页的信息链接正则不包含域名,所以要设置地址前缀:
3、设置“信息页链接正则”:
说明:由于此采集页面不需要设置“信息链接区域正则”,所以直接设置“信息页链接正则”即可。
上面正则由下面得出的:(查看列表页的源文件:http://www.phome.net/document/java/
说明:因为下面链接地址没有加上域名,所以我们上面要设置“内容页地址前缀”。
4、设置“标题正则”:
上面正则由下面得出的:(查看内容页的源代码:http://www.phome.net/document/java/200505/java111590843215168.html
5、设置“作者正则”:
上面正则由下面得出的:(查看内容页的源代码)
6、设置“信息来源正则”:
上面正则由下面得出的:(查看内容页的源代码)
7、设置“新闻正文正则”:
上面正则由下面得出的:(查看内容页的源代码)
8、点击“提交”按钮即可增加完毕,整个表单最终效果如下:
[点击查看整个采集表单]
其他说明:关于采集测试、入库等相关操作可以看“管理采集节点”教程
 
如果查看网页源代码?看下图: