一套内容采集系统 解放编辑人员

简介: 内容采集系统,对于以内容为主的网站来说是非常好的助手,除了原创内容外,其它内容需要编辑人员或者采集系统来收集整理,然后添加到自己的网站里。Discuz DvBBS CMS等产品,内部都自带了一个内容采集功能,来采集指定的相关内容。

内容采集系统,对于以内容为主的网站来说是非常好的助手,除了原创内容外,其它内容需要编辑人员或者采集系统来收集整理,然后添加到自己的网站里。Discuz DvBBS CMS等产品,内部都自带了一个内容采集功能,来采集指定的相关内容。 单客户端的火车头采集器也可以非常好的采集指定的内容。这些工具都是想让机器代替人工,把编辑人员从内容搬运的工作中解放出来,做一些更高端的工作,例如采集结果的内容微调,SEO优化,设定精确的采集规则,让采集的内容更加符合自己网站的需要。


下面的内容采集系统就是从这个想法开发而来的,这个采集系统由两个部分组成:
1.  编辑人员所使用的采集规则设定器和对采集结果进行审核、微调和发布所使用的Web站点。
2.  部署在服务器上的定时采集器和定时发送器。


首先由编辑人员通过一个采集规则设定器(NiceCollectoer.exe)设定要采集的站点,再等采集完成后,编辑人员再通过一个Web站点(PickWeb)对采集的结果进行审核、微调和优化然后发布到自己的网站上。编辑人员所需要做的是采集规则的设定,和对采集结果的优化,其它部分的工作都由机器完成。
1
NicePicker 是Html 分析器,用来抽取Url,NiceCollector 和HostCollector 都使用NicePicker来分析Html, NiceCollectoer 就是采集规则设定器,一个目标网站只用设定一次:
2 

3


使用起来和最早的火车头采集器类似,这里使用博客园来做目标采集站点, 设定采集精华区的文章,采集规则非常简单:当编辑人员设定好采集规则后,这些规则会保存到NiceCollector.exe同目录下的 Setting.mdb中。一般当采集规则设定好以后,基本上不用再变动了,只在目标网站的Html Dom结构发生变化时,需要再次微调一下采集规则。NiceCollector同时用于新目标采集站点的设定和添加操作。
等编辑人员完成采集规则的设定后,把Setting.mdb放到 HostCollector.exe下, HostCollector 会根据Setting.mdb的设定进行真正的采集,并把采集的结果存入数据库。


到这一步就完成了内容的采集工作,编辑人员可以打开PickWeb,对采集结果进行微调和优化,然后审核通过并发送到自己的网站上:
4


5
真正发送采集结果到自己网站的工作不是由PickWeb完成的,编辑人员完成内容审核后,PostToForum.exe 会读取数据库并发送这条通过审核的采集结果到自己的网站上,在自己的网站上当然需要一个. ashx或者某种其它方式来接收采集的结果,不建议PostToFormu.exe直接去操作自己网站的数据库,最好通过自己网站上的某个API,来接收采集结果。


NiceCollectoer, HostCollector, PickWeb, PostToForum, 这几个程序联合工作,基本上已经完成了采集和发送的工作,HostCollector, PickWeb, PostToForum 是部署在服务器上的,HostCollector需要被周期性的调用,来采集目标网站所产生的新内容,HostRunnerService.exe 是一个Windows Service,用来周期性调用HostCollector,使用管理员身份在控制台下运行 installutil / i HostRunnerService.exe 就可以安装这个Windows Service了:
6
HostRunnerService 的配置也很简单:
7
在RunTime.txt 中设定每天定时采集几次:
8
当新内容被采集后,编辑人员需要定期的登录PickWeb,来优化、微调、并审核新内容,也可以设定默认审核通过。同样PostToForum 也需要被周期性的调用,用来发送审核通过的新内容,CallSenderService.exe 与 HostRunnerService.exe类似,也是一个Windows Service,用来定期的调用PostToFormu.exe。


到这里整个系统基本上完成了,除此之外还有两个小东东: SelfChecker.exe 和HealthChecker.exe。 SelfCheck.exe 是用来检查Setting.mdb中设定的规则是否是一个有效的规则,例如检查采集规则是否设定了内容采集项。HealthChecker.exe用来收集HostCollector.exe 和 PostToForum.exe 所产生的log,然后将log发送给指定的系统维护人员。


这个内容采集系统还有很多地方需要改进和优化,现在的状态只能说是个Prototype吧,例如 NicePick 需要进一步抽象和重构,给出更多的Interface,把分析Html的各个环节插件化,在各个分析步骤上,可以让用户加载自己的分析器。 在NiceCollector上,需要更多更全面的采集规则设定。在PickWeb上可以加入一些默认的SEO优化规则,如批量SEO优化Title的内容,等其它方面吧。

可执行文件下载:

08_453455_if8l_NROutput.rar(链接已更新)

源代码下载:

08_234324_if8l_NiceCollector.rar (链接已更新)

 

相关文章
|
9月前
|
开发框架 Java 编译器
2025年1月推荐-工欲善其事,必先利其器-程序员必备之-核心基本工具—不要看什么国际排行榜-没有用-编辑器和编译器推荐-优雅草央千澈
2025年1月推荐-工欲善其事,必先利其器-程序员必备之-核心基本工具—不要看什么国际排行榜-没有用-编辑器和编译器推荐-优雅草央千澈
317 1
|
9月前
|
机器学习/深度学习 人工智能 缓存
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
RAIN 是一款创新的实时动画生成工具,支持在消费级硬件上实现无限视频流的实时动画化,适用于直播、虚拟角色生成等场景。
343 25
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
|
人工智能 算法 自动驾驶
人工智能的伦理困境与未来展望
本文探讨了人工智能技术发展中遇到的伦理挑战,并对其未来发展趋势进行了预测。文章首先介绍了AI技术的基本原理和应用,然后分析了伴随其发展而来的隐私、就业和决策透明度等问题。最后,提出了对AI未来发展的几点展望,包括技术进步、伦理规范建立和人机合作模式。
474 1
|
存储 边缘计算 运维
开源物联网平台ThingsBoard数据库40张数据表设计一览
开源物联网平台ThingsBoard数据库40张数据表设计一览
2752 15
开源物联网平台ThingsBoard数据库40张数据表设计一览
|
C#
C#高性能二进制序列化
二进制序列化可以方便快捷的将对象进行持久化或者网络传输,并且体积小、性能高,应用面甚至还要高于json的序列化;开始之前,先来看看dotcore/dotne自带的二进制序列化:C#中对象序列化和反序列化一般是通过BinaryFormatter类来实现的二进制序列化、反序列化的。
2110 0
|
弹性计算 容灾 安全
阿里云服务器配置选择指南?如何选择适合自己的云服务器配置
阿里云服务器配置选择指南?如何选择适合自己的云服务器配置,2023阿里云服务器购买流程更新,选购云服务器有两个入口,一个是选择活动机,只需要选择云服务器地域、系统、带宽即可;另一个是在云服务器页面,自定义选择云服务器配置,这种方式购买云服务器较为复杂,需要选付费方式、地域及可用区、ECS实例规格、镜像、网络、公网IP、安全组等配置,阿里云百科来阿里云服务器购买流程指南2023新版教程
1248 0
阿里云服务器配置选择指南?如何选择适合自己的云服务器配置
|
SQL 应用服务中间件
Tomcat 无法及时响应,http请求一直pending状态
Tomcat 无法及时响应,http请求一直pending状态
1227 0
Tomcat 无法及时响应,http请求一直pending状态
|
存储 Kubernetes 监控
理论篇:让我们一起鲁克鲁克——rook(开源存储编排)
理论篇:让我们一起鲁克鲁克——rook(开源存储编排)
1063 0
|
机器学习/深度学习 人工智能 自然语言处理
商汤的数字人研究,在CVPR上成了爆款
在 CVPR 大会上,看数字人技术的最新趋势。
843 0
商汤的数字人研究,在CVPR上成了爆款
|
编解码 小程序 API
【微信小程序开发小白零基础入门】微信小程序媒体API【建议收藏】
微信小程序媒体API文章目录微信小程序媒体API一、图片管理1. 选择图片2. 预览图片3. 获取图片信息4. 保存图片二、录音管理1.start(options)方法的参数说明2.采样率和码率关系三、音频管理1. 背景音频管理2. 音频组件控制四、视频管理1. 选择视频2. 保存视频3. 视频组件控制五、相机管理1. cameraContext对象的方法2. takePhoto的OBJECT参数3. startRecord的OBJECT参数4. stopRecord的OBJECT参数六、推荐小程序(欢迎各位大佬指导)小程序使用wx.chooseImage(OBJECT)从本地相册选择图片或使
【微信小程序开发小白零基础入门】微信小程序媒体API【建议收藏】