动易网站管理系统》的具有针对网站内容的采集系统。该系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。

采集管理共分5 大项
1.文章采集(用于采集设置好的采集项目) 2.项目管理(用于建立采集项目,管理采集项目,复制采集项目) 3.过滤管理(用于过滤采集中的标题/正文的字符),如:过滤法轮功。 4.历史记录(记录采集过程中的已采集的记录,避免重复采集) 5.导入|导出(灵活共享迁移采集项目)
文章采集

1.选择您要采集的项目,可多选用于批量采集操作。 2.颜色灰暗的是不可选的,证明没有通过审核,看到灰暗处的状态栏有个×,您要必须在“项目管理”中连续通过两步,采样测试 -> 设置属性 才能通过审核√ 。 3.显示最新的采集日期, 黑色:表示上一次采集的时间。如:2005-5-8 14:45:44) 红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间会变成黑色)。
4.采集分为“稳定采集”和“快速采集”两种模式。 稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。(请注意:采集比较消耗服务资源。) 快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的,快速采集将发挥采集的最快速度,采集的效率可达到最高。
在sp1标准版中还有“测试采集”和“正文预览”两项,分别是来测试建立项目成功后是否有效。
5.每页页数您可以下拉选择每页显示的页数,用于批量采集,比如一次20个项目或更多。
项目管理

1.添加新的采集项目随后介绍。 2.选择您要删除的采集项目(多选),选择后单击“删除”按钮即可。 3.“操作”列功能链接说明: 编辑:修改你指定的采集项目。 测试:测试你的采集项目是否,正确,如果显示采集的正文页证明成功,否则会提示您第几步错误。 属性:设置你采集到的文章,放在那个频道中,那个栏目中,相对应的属性设置。 复制:这个很重要,避免您重复劳动,(大部网站的模板都一样的,建立一个用这个可科隆多个)。 如果导入采集项目后,就需要审核,是否是正确的采集项目,您必须点要审核项目的, 测试和属性,连续两项后方可通过审核。测试:保证采集项目正确,属性:制定采集后的储存位置。 4.底部系统提供将已选定的项目“删除”或“清空所有记录”二个操作按钮: 清空所有记录:本功能为格式化采集表功能,执行此功能将删除“采集项目表”、“历史记录表”和“过滤表”的所有记录,请慎重操作!
采集步骤一:添加项目 添加项目名称、网站名称、新闻列表网址(注:主要采集网站的列表页)、网页编码格式(GB2312或UTF-8)、网站登录(不需要登录或设置参数:登录地址、提交地址、用户参数、密码参数)、项目备注。
采集步骤二:基本设置

1.管理导航 如果是编辑项目,可任意点击所属的项目链接。 2.新闻列表地址 本步骤采集是采集网页的栏目列表页。不是首页。是标题作多的列表页。 3.网页编码格式 国内的网站都是GB2312 默认选项可不选,如果要采集海外网站就要用 UTF-8。
采集步骤三:列表设置

1.列表的开始代码:列表的结束代码:两个问题框。 这里您要填写采集列表代码的头部和尾部的代码。请尽量用较少的代码,一行内的代码以保证代码的准确性。 注:填写的代码必须保证是当前列表页唯一的,可点击旁边的测试代码按钮是否唯一。
2.列表索引分页。 有4项选择: (1)不作设置。注:当前采集的列表页不分页。 (2)设置标签。注:采集列表分页的“下一页”和“上一页”的代码,请获取它们头尾的代码。

例如:“共 82 篇新闻 首页 上一页 下一页 尾页”,这是某列表页的分页链接。
 请注意:中间得到的那段代码,正好是一个网络URL地址,这就是我们要设置的。 要正确的得到下一页URL地址关键是/news/List/List_2_2.html(如果是相对路径也不用担心,系统会自动转换为绝对路径。),您还要可以点击旁边“测试”按钮以确认唯一性,因为下一页代码少,所以不可能全部唯一,只要有一处代码为唯一,就可以了。 从新定向分页: 当有的栏目页用的是js代码运算,获得的url不是地址,但是不管它如果运算它最后成功的页面可定是正确的。把正确的URL添在下面以针对 js处理的栏目页。 注:分页地址中如果包含 & ,请用 {$id} 代替。 例: http://www.xxxx.net/xxxx/list.asp?id=166&name=xxxx&CurPage=27改为http://www.xxxx.net/xxxx/list.asp?id=166{$id}name=xxxx{$id}CurPage=27 (3)批量生成:如果分页的代码都是数字,就可用批量生成自动控制分页。

例如:http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html,有数字规律,就可这样在原字符中这样写: http://www.xxxxx.com/news/index_{$ID}.html。其中{$ID}代表分页数。 生成范围,可写 1 to 10 或 10 to 1,意思是采集1到10页或 10 倒序到 1 页。 (4)手工添加:

如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL。注:一行一个分页Url地址。(事实证明这种效率并不高,为无奈下使用,因为无头绪的分页它的列表分页未必是有头绪的。)
3.分析代码(辅助功能) 在采集页面时,代码框中会显示非常多的代码,令人头晕眼化。小巧的分析代码功能虽不是很强但在一定程度上辅助您快速找到你需求的代码。

使用例举: 寻找列表页头部代码:在最上面的视图中,复制列表第一标题的头部字符。然后粘贴到“分析网页字符”框中,选择向前代码,字符300,执行分析,这样就得到了以列表第一标题为开始以上的300字符。(不用说列表开头也肯定在这里)。同理在列表尾部标题粘贴,选择向后代码并进行分析,则列表尾部也很快找到。 这个功能可用多处,如列表头、列表尾、下一页、标题(选择前后代码)、正文等等。 注:您复制的视图代码要求代码的唯一性,如果不是唯一就用不了分析。一般列表标题、正文没有重复。 小技巧:在正文页,正文的开头是没有重复代码的。复制正文页的开头几个字符到分析代码,选择向前,字符数设大些如1000并执行,结果就很好找了。标题、来源、时间、作者和正文的开头都在这里。
采集步骤四:链接设置

获得链接代码:如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。 使用例举:
这时获得的字符正好是个可运行的Url /chinese/SPORT-c/859117.htm。这里,如何获得Url是关键。 绝对链接字符:同列表重新定向原理一样,就是当有的栏目页用的是js代码运算,获得的url而不是地址。但如果运算它并出现最后成功的页面,则可认为是正确的。把正确的URL添在下面以针对js处理的栏目页。 注:分页地址中如果包含 & 用 {$id} 代替。 例如: http://www.xxxx.net/xxxx/list.asp?id=166&name=xxxx&CurPage=27改为http://www.xxxx.net/xxxx/list.asp?id=166{$id}name=xxxx{$id}CurPage=27
采集步骤五:正文设置

正文页设置,这里不用多述,原里和列表页设置一样,对正文页进行进一步的设置。 标题开始标记,标题结束标记 是对网页正文的标题进行设置
 就会得到我们想要的标题,正文设置、时间设置、作者设置、来源设置、关键字词设置、正文分页设置同上述设置方法相同。 注:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。 另外您可以指定作者设置、来源设置和关键字词设置的自定义文字。在关键字词设置中,如果想让关键字是正文的标题,可这样操作:在关键字词设置中随便输入字符。错误信息:系统会把当前标题默认为关键字(关键字如果太长不利于相关文章)。所以除了标题和指定,设置的关键字都会被打散。
采集步骤六:采样测试
这没有什么要说的,就是看看采集的效果是否正常!如果有分页注意一下,下面的小红色文字的提示。
采集步骤七:属性设置

这是采集的最后一步,这里不用作太多的介绍,大家看文字也都能明白。给2点建议 1.内容页分页,推荐选择手动分页,已对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0 在生成html时会有问题。 2.过滤问题,过滤采集正文页的 html字符, 推荐 过滤 IFRAME 过滤内联 Object 过滤 Falsh 和 控件 Script 过滤脚本(js,vbs) Class 过滤 类 Div 过滤层 Span 过滤 但层 A 过滤链接 (这个要过滤,不然用户一点跑到人家网站去了) 剩下的就不用设置了。 注:sp1 标准版还有过滤表格等选择。 恭喜,采集项目建立完成!
注:大多数网站都是用一套模板的,就是只要建立一个采集项目成功,就可通用所有栏目列表。在项目管理中选择新建的采集项目,用批量设置更改一下栏目地址,就可一次生成要常用的多个采集项目。
过滤管理

主页面不在讲述,原里和项目管理相同。 过滤的添加与注意点: 过滤主要是过滤采集新闻的标题和 正文 两处。 在过滤对象中可选择 标题过滤 和 正文 过滤 过滤的类型。分为 1 简单过滤 2 高级过滤 1.简单过滤的讲解 简单过滤分为 内容 和 替换 两个文本,主要用途是 例:内容:法轮功 替换:(无)什么都不写 就会把采集中标题或正文所有的 含有法轮功 的字符 消除掉。 2.高级过滤的讲解 高级过滤分为 开始标记 ,结束标记 和 替换 三个文本,主要用途是 如果采集的网站有大量的广告,是很麻烦的,用高级过滤就可替换掉广告 例:想过滤掉这快活动的广告
 替换 (无)‘什么都不写 这样刚才那段广告就过滤了。
历史记录

历史记录是要求看的,维护的一般操作较少,但很重要尤其到多项目和采集的后期它的重要性甚至比采集项目本身还重要。 简要说下常用的3点和注意点: (1)顶部的项目查询:选择所属的采集项目历史记录(尤其是对采集文章的时候这个使用最频繁)。 (2)删除制定项目:后期历史记录是很重要的,如果想删除某个项目再重新采集一次,请在这里选择。 (3)清除失败记录:采集某项目中会提示失败的记录,说明你采集项目有问题。当采集项目设置后,回到历史记录,在顶部下拉中选择失败记录,会显示所有的失败记录。您可以删除失败记录再测试。 请注意:有个格式化的“清空所有历史记录”按钮,在初期是非常快捷的操作,但在后期就绝不要轻易用了,会清空所有历史记录。在采集后期历史记录是非常宝贵,一但在后期丢失无法恢复!
导入|导出

这个操作查觉简单,操作是可视的,应该能看明白。 请注意:导入导出的采集备份数据库是PE_Item.mdb 默认的放在系统的根目录下,这个数据库您可以与他人共享采集项目了。 |