开发者社区> 问答> 正文

等待备案这段时间写的根据关键词自动采集的程序

庆祝备案通过,算是一点点小福利吧,只讲下原理,不公开程序。


1)基础词
以Nginx为例,当前共采集到长尾词2968个。这些长尾词要用来到搜索引擎去搜索文章用。
启用长尾45个,表示已经使用45个长尾词到搜索引擎去搜索文章,其中33个已经全部完成。
点击“长尾”按钮查看所有长尾词。




2)长尾词
这个没什么好说的,以第一个,“nginx 配置”为例,使用这个长尾词共采集到1030篇文章。
点“审核”按钮查看所有文章。




3)文章列表
这里是所有用“nginx 配置”这个词搜索到的文章,共1030个。




4)文章页
左上角显示了汉字数量,和程序自动判断出的这篇文章的可读性,可读性越高,文章排版越整齐,过低的话,说明这个页面上的内容很可能不是一篇 “文章”,直接抛弃。
点击发布“按钮”后,当前这篇文章会被发布到网站数据库,根据绑定的栏目ID发到指定的栏目,发布之后会跳转到网站后台这篇文章的编辑页面,因为有些文章可能需要再整理下或者重新排版。





利用这个程序不需要再针对任何网站写采集规则,使用的是正文提取算法,只需要一个网址,自动提取出正文内容,懒人专用。
为了保证文章质量,文章内容不会直接插入到网站数据库,而是先经过人工审核。

展开
收起
云代维 2013-07-24 16:28:14 7807 0
13 条回答
写回答
取消 提交回答
  • Re等待备案这段时间写的根据关键词自动采集的程序
    程序分享下吧  谢谢!@
    2013-08-21 14:54:23
    赞同 展开评论 打赏
  • 牛啊。。。。。。。。。。。
    2013-08-21 09:12:02
    赞同 展开评论 打赏
  • 不清楚        
    2013-08-20 11:09:50
    赞同 展开评论 打赏
  • 回 楼主(服务器之家) 的帖子
    比较期待公开程序 收费也行哈  
    2013-08-19 11:30:22
    赞同 展开评论 打赏
  • 回 8楼(嘟子) 的帖子
    自写
    2013-07-26 11:40:54
    赞同 展开评论 打赏
  • Re等待备案这段时间写的根据关键词自动采集的程序
    楼主这个采集程序是自己编写的还是用的???
    2013-07-25 09:17:01
    赞同 展开评论 打赏
  • 新域名每天更新不能太多,小心被百度K站。
    2013-07-24 20:38:26
    赞同 展开评论 打赏
  • Re等待备案这段时间写的根据关键词自动采集的程序
    不明觉历
    2013-07-24 19:25:52
    赞同 展开评论 打赏
  • 没太看懂,有什么用,可以提高百度的收录吗?最近一直为这个心烦,百度总是不收我的站。
    2013-07-24 19:20:11
    赞同 展开评论 打赏
  • 好像狠厉害
    2013-07-24 18:58:40
    赞同 展开评论 打赏
  • 回 楼主(服务器之家) 的帖子
    没看懂,求程序
    2013-07-24 16:58:15
    赞同 展开评论 打赏
  • 恭喜楼主备案通过哇,期待楼主的程序早日出世、
    2013-07-24 16:34:45
    赞同 展开评论 打赏
  • 支持了
    2013-07-24 16:30:04
    赞同 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
手机京东Crash自动分析处理系统 立即下载
阿里云 年度游戏安全报告 立即下载
阿里云年度游戏安全报告2017.3-2018.3 立即下载