| 1、采集操作流程: |
(1)、增加采集节点;
(2)、预览采集正则是否正确;
(3)、开始采集;
(4)、对采集的数据进行审核并入库;
(5)、生成栏目及内容HTML页面。 |
|
| 2、帝国CMS采集正则实际就是:把 正则变量 替换为 要采集内容 后的代码内容。 |
识别代码头部[!--变量名--]识别代码尾部
(注意事项:上面的“识别代码头部”一定是要唯一的标记,空格也是识别符号。)
范例:
如网页内容是:“ <div>要采集的内容</div>”
采集正则就是:“ <div>[!--变量名--]</div>” |
|
| 3、帝国CMS采集正则还有表示任意内容的字符:“*” |
| 如果“识别代码头部”中有内容是变化的,那么我们可以用*代替它。 |
|
| 4、采集正则书写技巧: |
(1)、正则要找出唯一性的开头字符。有时候空格都会成为识别的依据。
(2)、对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:
“ )”、“(”、“{”、“}”、“[”、“]”、“\”、“?”等等。 |
|
| 5、采集时提示:Warning: preg_replace() [function.preg-replace]: Compilation failed: range out of order in character class... |
| 答:你的采集正则变量名写错导致,请检查你的正则变量。 |
|
| 6、过滤文章内容的链接: |
| 广告过滤正则设置:“<a [!--ad--]>,</a>” |
|
| 7、同上得出,过滤font之类的标签: |
| 广告过滤正则:“<font[!--ad--]>,</font>”,其他依此类推。 |
|
| 8、同一链接的页面如何重复采集: |
| 到“管理采集节点”那清空节点即可重复采集已入库的页面。 |
|
| 9、采集内容分页正则说明: |
| 如果是全部列表式,则只需看第一页的页面HTML代码。 |
|
| 10、“下载地址正则”格式说明: |
格式:地址正则([!--ecmsdownpathurl--])[!empirecms!]名称正则([!--ecmsdownpathname--])
说明:名称正则可以不设置,由系统自己命名。(两个正则是分开的,并且是用“[!empirecms!]”格开。) |
|
| 11、“在线观看地址正则”格式说明: |
格式:地址正则([!--ecmsonlinepathurl--])[!empirecms!]名称正则([!--ecmsonlinepathname--])
说明:名称正则可以不设置,由系统自己命名。(两个正则是分开的,并且是用“[!empirecms!]”格开。) |
|
| 12、“图片集正则”格式说明: |
格式:缩略图([!--ecmsspicurl--])[!empirecms!]大图([!--ecmsbpicurl--])[!empirecms!]名称([!--ecmspicname--])
说明:大图与名称正则可以不设置。(三个正则是分开的,并且是用“[!empirecms!]”格开。) |
|
| 13、什么字段可以选择远程保存文件? |
| 答:只要字段“输入表单显示元素”是“图片(img)”、“FLASH文件”、“文件(file)”均支持远程保存文件到本地。 |
|
| 14、哪个字段名支持远程保存内容里的图片? |
| 答:“newstext”字段名才支持远程保存内容里的图片和FLASH到本地。 |
|
| 15、服务器是否支持采集或远程保存功能说明: |
支持采集或远程保存需要满足以下两个条件:
(1)、php配置文件 php.ini 的allow_url_fopen项要设置为On
allow_url_fopen = On
(2)、服务器DNS设置:
远程读取是通过服务器去访问对方网页或文件,所以你的服务器访问不了对方网站或速度慢就会无法读取或保存。
还有部分DNS可能无法访问部分网站,这个都要注意。 |
|
| 16、测试空间是否支持采集或远程保存: |
本地用记事本建个 fp.php 文件,内容为如下:
<?php
echo file_get_contents('http://www.163.com');
?>
然后把fp.php文件上传空间访问,如果访问fp.php显示内容为http://www.163.com网站内容就表明空间支持采集与远程保存,否则为不支持。
测试建议:连续访问fp.php文件多次,以测试空间网络是否稳定,部分空间网络不稳定会一会儿能读取一会儿不能。 |
|
| 17、如何采集源页面地址? |
| 系统模型表新增加一个字段:“empireselfurl”,这个字段不用设置正则,入库后他自然就是采集的页面地址。 |
|
| 18、放一个帝国的万能采集过滤正则: |
|
| 19、帝国CMS基础教程之采集使用篇: |
|
| 20、特殊字段正则的说明: |
|
| 21、实例教你使用采集: |
|
| 22、帝国CMS采集正则介绍与写法: |
|