庆祝备案通过,算是一点点小福利吧,只讲下原理,不公开程序。
1)基础词
以Nginx为例,当前共采集到长尾词2968个。这些长尾词要用来到搜索引擎去搜索文章用。
启用长尾45个,表示已经使用45个长尾词到搜索引擎去搜索文章,其中33个已经全部完成。
点击“长尾”按钮查看所有长尾词。
2)长尾词
这个没什么好说的,以第一个,“nginx 配置”为例,使用这个长尾词共采集到1030篇文章。
点“审核”按钮查看所有文章。
3)文章列表
这里是所有用“nginx 配置”这个词搜索到的文章,共1030个。
4)文章页
左上角显示了汉字数量,和程序自动判断出的这篇文章的可读性,可读性越高,文章排版越整齐,过低的话,说明这个页面上的内容很可能不是一篇 “文章”,直接抛弃。
点击发布“按钮”后,当前这篇文章会被发布到网站数据库,根据绑定的栏目ID发到指定的栏目,发布之后会跳转到网站后台这篇文章的编辑页面,因为有些文章可能需要再整理下或者重新排版。
利用这个程序不需要再针对任何网站写采集规则,使用的是正文提取算法,只需要一个网址,自动提取出正文内容,懒人专用。
为了保证文章质量,文章内容不会直接插入到网站数据库,而是先经过人工审核。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。