AKCMS采集器的使用（已废弃）

注意：此功能已在新版中废弃

注：本文较旧，不适合最新版的AKCMS，新的文档还没写，抱歉

AKCMS3.3重新加入了采集功能，并增加了单页采集、正文分页采集、文内图片采集等实用功能。下面介绍一下：

AKCMS将采集分为两步：采集列表和采集正文。以采集cnBeta站首页为例：先采集首页根据列表采集设置分析出一些正文页的地址：

http://www.cnbeta.com/articles/124902.htm
http://www.cnbeta.com/articles/124901.htm
……

然后系统依次采集每个正文，根据正文采集设置分析出题目、正文……等等字段，然后根据设置写入数据库，完成采集操作。

在实际设置采集规则的时候的流程是先写“内容页采集规则”再写“列表页采集规则”并将二者绑定起来。每个内容页规则可能对应多个列表页规则；但每个列表页只能对应一个内容页规则。

内容页采集规则的说明如下：
名称：
网址举例：可以通过采集这个网址预览效果
特征：是指网页中必须含有指定内容才采集，可以设置多个词，一行一个，至少包含其中一个
跳过：如果网页中含有指定的内容就不再采集，可以设置多个词，一行一个，出现任何一个就不再采集
替换：将网页中的内容替换，可以替换多组，一行一组，每组前面是待替换的，后面是替换为的，中间用竖线隔开。比如：a|b则把网页中的a都替换成b
跳过 SQL Where：这里直接写SQL语句的WHERE部分，如果能查出结果则跳过，如果是不想题目有任何重复可以这样写（假设数据块1的内容写入题目）：title='[field1]'；如果目标地址不想有重复可以这样写（假设数据块5的内容写入目标地址）：aimurl='[field5]'，此功能是高级功能，需要大致了解AKCMS的数据表结构，不会填写可以跳过

采集内容块：是指待采页面中的内容部分，通过指定开始标志和结束标志获取其中的内容，共有20个内容块。

在采集内容块那里：

开始标志写：<url:
结束标志写：>

获取到的就是当前页面的URL

TXT：选中此设置则采集前先将其中的HTML标签替换为TXT符号，比如将”替换为引号
保留标签：默认的将去掉内容块中的HTML标签，如果想保留某个标签可以在这里设置，比如想保留图片和粗体则这样写<b><strong><img>
删除连续空格：将删除内容中连续的空格和\t
Trim：将去除内容块前后的空格
采集图片：将采集内容块中<img>的图片到本地服务器（参见《采集图片》）

分页：某些网站的正文页是分页显示的，分页设置可以把分页内容合为一页入库（分页采集视频教程：http://jimifan.com/download/medias/spider-content-page.wmv）

开始标志：分页区域的开始标志
结束标志：分页区域的结束标志
分页URL特征：分页URL中出现的一个字符串，用于剔除无用的链接
分页URL替换：第1页URL经过替换可以得到分页URL的规则，用[page]代替页码，比如：.html|_[page].html，可以识别网易新闻的分页http://focus.news.163.com/10/1018/15/6J9MM5O000011SM9.html
分页内容块ID：采集分页后会把多个页面的指定内容块内容合并，一般设置为正文对应的内容块

保存：将上面的内容块与文章字段对应的设置
每个字段对应的值可自行指定，用[field1]代表1内容块，以此类推。也可以用多个内容块拼起来保存到一个字段，比如：[field1]-[field3]-[field5]就会把1、3、5数据块的内容用横线连起来保存到字段中。

时间字段是一个比较特殊的字段，如果不指定时间则此字段将设置为采集那一刻的时间，如果设置为内容块的值则会智能识别时间，已经支持的时间格式有（2010-10-25 01:23:59、2010年10月25日17:29）。另外还可以对采集到的时间进行运算，单位是秒。比如：“[field1]-3600”代表取内容块1的时间并把时间提前一个小时。这样有利于SEO，让搜索引擎认为你的内容的发表时间比采集对象早。（3.3.2开始）

关键词字段也比较特殊，如果数据源有现成的关键词就按照和其他字段一样的办法保存。如果没有关键词可以通过服务器自动分析。设置方法是：以[auto]开头，后面跟着要分析的数据块，比如：[auto][field3][field4][field8]代表从3、4、8三个数据块自动分析关键词。（此功能依赖AKCMS官方的服务）

采集的内容也可以保存到扩展字段中，字段的第一个文本框填写字段对应的名称（字母或数字）

至此，内容页采集规则就设置完了，有朋友会问那采集的内容保存到哪个栏目里去呢？接下来就到了。

列表页采集规则的说明如下：

名称：
内容页采集规则：对应的正文的采集规则
如果已经采集：更新/跳过，如果待采集内容经常变化实用更新，一般来说都设置为跳过
对应栏目ID
对应主题ID
URL：要采集的网址
开始标志：网址列表区域的开始标志，必须填写的非常精确，只要把无关的链接过滤掉即可
结束标志：网址列表区域的结束标志
内容页URL采集特征：符合特征的URL才采集，可设置多个特征，一行一个，需全部符合才采集
内容页标题采集特征：符合特征的题目才采集，可设置多个特征，一行一个，需全部符合才采集
内容页URL采集特征：符合特征的URL跳过，可设置多个特征，一行一个，符合任何一个即跳过
内容页标题采集特征：符合特征的题目跳过，可设置多个特征，一行一个，符合任何一个即跳过（如果采集cnBeta可以跳过IPv4、iPhone、iPad）