注意:此功能已在新版中废弃
注:本文较旧,不适合最新版的AKCMS,新的文档还没写,抱歉
AKCMS3.3重新加入了采集功能,并增加了单页采集、正文分页采集、文内图片采集等实用功能。下面介绍一下:
AKCMS将采集分为两步:采集列表和采集正文。以采集cnBeta站首页为例:先采集首页根据列表采集设置分析出一些正文页的地址:
http://www.cnbeta.com/articles/124902.htm
http://www.cnbeta.com/articles/124901.htm
……
然后系统依次采集每个正文,根据正文采集设置分析出题目、正文……等等字段,然后根据设置写入数据库,完成采集操作。
在实际设置采集规则的时候的流程是先写“内容页采集规则”再写“列表页采集规则”并将二者绑定起来。每个内容页规则可能对应多个列表页规则;但每个列表页只能对应一个内容页规则。
内容页采集规则的说明如下:
名称:
网址举例:可以通过采集这个网址预览效果
特征:是指网页中必须含有指定内容才采集,可以设置多个词,一行一个,至少包含其中一个
跳过:如果网页中含有指定的内容就不再采集,可以设置多个词,一行一个,出现任何一个就不再采集
替换:将网页中的内容替换,可以替换多组,一行一组,每组前面是待替换的,后面是替换为的,中间用竖线隔开。比如:a|b则把网页中的a都替换成b
跳过 SQL Where:这里直接写SQL语句的WHERE部分,如果能查出结果则跳过,如果是不想题目有任何重复可以这样写(假设数据块1的内容写入题目):title='[field1]';如果目标地址不想有重复可以这样写(假设数据块5的内容写入目标地址):aimurl='[field5]',此功能是高级功能,需要大致了解AKCMS的数据表结构,不会填写可以跳过
采集内容块:是指待采页面中的内容部分,通过指定开始标志和结束标志获取其中的内容,共有20个内容块。
在采集内容块那里:
开始标志写:<url:
结束标志写:>
获取到的就是当前页面的URL
TXT:选中此设置则采集前先将其中的HTML标签替换为TXT符号,比如将”替换为引号
保留标签:默认的将去掉内容块中的HTML标签,如果想保留某个标签可以在这里设置,比如想保留图片和粗体则这样写<b><strong><img>
删除连续空格:将删除内容中连续的空格和\t
Trim:将去除内容块前后的空格
采集图片:将采集内容块中<img>的图片到本地服务器(参见《采集图片》)
分页:某些网站的正文页是分页显示的,分页设置可以把分页内容合为一页入库(分页采集视频教程:http://jimifan.com/download/medias/spider-content-page.wmv)
开始标志:分页区域的开始标志
结束标志:分页区域的结束标志
分页URL特征:分页URL中出现的一个字符串,用于剔除无用的链接
分页URL替换:第1页URL经过替换可以得到分页URL的规则,用[page]代替页码,比如:.html|_[page].html,可以识别网易新闻的分页http://focus.news.163.com/10/1018/15/6J9MM5O000011SM9.html
分页内容块ID:采集分页后会把多个页面的指定内容块内容合并,一般设置为正文对应的内容块
保存:将上面的内容块与文章字段对应的设置
每个字段对应的值可自行指定,用[field1]代表1内容块,以此类推。也可以用多个内容块拼起来保存到一个字段,比如:[field1]-[field3]-[field5]就会把1、3、5数据块的内容用横线连起来保存到字段中。
时间字段是一个比较特殊的字段,如果不指定时间则此字段将设置为采集那一刻的时间,如果设置为内容块的值则会智能识别时间,已经支持的时间格式有(2010-10-25 01:23:59、2010年10月25日17:29)。另外还可以对采集到的时间进行运算,单位是秒。比如:“[field1]-3600”代表取内容块1的时间并把时间提前一个小时。这样有利于SEO,让搜索引擎认为你的内容的发表时间比采集对象早。(3.3.2开始)
关键词字段也比较特殊,如果数据源有现成的关键词就按照和其他字段一样的办法保存。如果没有关键词可以通过服务器自动分析。设置方法是:以[auto]开头,后面跟着要分析的数据块,比如:[auto][field3][field4][field8]代表从3、4、8三个数据块自动分析关键词。(此功能依赖AKCMS官方的服务)
采集的内容也可以保存到扩展字段中,字段的第一个文本框填写字段对应的名称(字母或数字)
至此,内容页采集规则就设置完了,有朋友会问那采集的内容保存到哪个栏目里去呢?接下来就到了。
列表页采集规则的说明如下:
名称:
内容页采集规则:对应的正文的采集规则
如果已经采集:更新/跳过,如果待采集内容经常变化实用更新,一般来说都设置为跳过
对应栏目ID
对应主题ID
URL:要采集的网址
开始标志:网址列表区域的开始标志,必须填写的非常精确,只要把无关的链接过滤掉即可
结束标志:网址列表区域的结束标志
内容页URL采集特征:符合特征的URL才采集,可设置多个特征,一行一个,需全部符合才采集
内容页标题采集特征:符合特征的题目才采集,可设置多个特征,一行一个,需全部符合才采集
内容页URL采集特征:符合特征的URL跳过,可设置多个特征,一行一个,符合任何一个即跳过
内容页标题采集特征:符合特征的题目跳过,可设置多个特征,一行一个,符合任何一个即跳过(如果采集cnBeta可以跳过IPv4、iPhone、iPad)