采集常用技巧
1、过滤文章内容的链接:
广告正则:“<a [!--ad--]>”;替换“</a>”为空。
2、同上得出,过滤font之类的标签:
广告正则:“<font[!--ad--]>”;替换“</font>”为空。其他依此类推。
3、清除采集时的空白内容的数据:
“系统设置”-》“执行SQL语句”运行下面SQL语句即可:
delete from phome_ecms_news where newstext='';
4、同一链接的页面如何二次采集:
到“管理采集节点”那清空节点即可。