众推项目的最近讨论

简介: openKM 想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件? 不知道openkm能不能做到。 OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。

openKM

想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?

不知道openkm能不能做到。

OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。

界面如下:

image

zongtui项目

项目地址:
(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler
(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter
(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier
(文档目录)https://git.oschina.net/zongtui/zongtui-doc

O$}1EMGOHJHEW`WHJG0)ALA

然后再推荐一篇文章:(深度学习 vs 机器学习 vs 模式识别)

http://www.itd4j.com/cloudcomputing/15538.html

自动化部署

请问 有Java的自动化部署工具推荐不?

有时候修改几个文件就要重新打包发布重启,太麻烦了,请问有什么更好的办法么?

Jenkins是一个开源软件项目,旨在提供一个开放易用的软件平台,使持续集成变成可能经济界。

云爬取

就是有一个客户端要爬取一千个商品,他可以提交给服务器,然后有服务器在分配给其它客户端来爬取。这样搞性能比较高,还能逃过IP限制。

那就是用户要爬什么资料。你就让用户自己去爬取。服务端只负责,接收任务,分配任务,返回任务。

等于是免费的ip池而已。。

项目新架构

经过讨论,目前的项目新架构已经修改如下:

7NXN9[J0T`ZGMNULRLI0@9C

这样,问题的集中点就在如何接入爬虫上了,因为现在各种爬虫已经太多,没必要在搞一个什么新鲜的东西!

core部分的思路参考:

2P3(8IO@K_~[GG[6FTB9J%G

下一步的处理

1.通过设定规则抓取页面;

2.设定页面存储方案;

3.通过页面材料分析出内容属性;

4.通过内容属性生成结果;

5.通过结果进行学习;

6.通过结果生成内容;

说一下为什么接入其它的,我举两个例子

1、webmagic

P{6{44@9$UV8D_I33%`X3ND[4]

就我知道,这哥们写了2年,基本上各种问题都遇到过。没必要再走一遍它的路,如果有问题可以通过它预留的接口帮它完善,或者直接用自己的实现。比如有性能问题,就我知道现在国内没有一个比较权威的对各种爬虫做比较。

2、Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

说它有问题我觉得只有这么几种可能:

1、场景不适合。

2、没理解,没用明白。

所以我觉得没必要非得造个轮子。

个性化推荐

用户端就是数据呈现了,我的理解是内容方主要的工作是:采集、整理、推荐、打TAG、分值(多个)、推荐、赞、踩、回复数、类型(图文、视频、文本、微信、微博等);

用户这边的东西就确实高级很多:单体关系画像,不同社交圈关系画像,主要人群划分TAG得分,年龄、性别、职业、特别事件、喜欢内容TAG得分、收藏内容TAG得分、分享内容TAG得分、不感兴趣内容TAG得分(负值或其他分数)
推荐引擎主要的工作:按照用户的tag得分匹配内容,结合地理位置(当前的和常用的)、当前时间段(早、中、下、晚)、当前日期(节日、周末)、热点实时注册的时候选择标签这个是SNS的做法了,头条现在基本上都是从用户关系拿了关联用户数据再来推。

众推只要完成了初步的推荐功能,其他的基本上都是靠运营的人来积累数据。没有足够的数据肯定精准度要差点。比如一点资讯,现在内容差不多已经全搬过来了,但是推荐还是很烂,主要靠套用头条的编辑推荐那块,人工加了点分值。要不然感觉推荐会更加不准。

目录
相关文章
|
数据可视化 开发者
《支付宝地推的设计故事-商服作业 CRM 设计-梦宛》演讲视频&文字版
《支付宝地推的设计故事-商服作业 CRM 设计-梦宛》演讲视频&文字版
115 0
|
8月前
|
JSON 缓存 NoSQL
Github上线就星标120k!这份阿里独有的高并发实战笔记首次曝光
总有些小伙伴问当下最火的热门技术是什么?
79 0
|
9月前
|
设计模式 Cloud Native Java
GitHub爆出阿里内部突击路线+配套学习资源,直接霸榜
又到了一年一度的备战秋招的时间,虽然这两年因为经济环境不太好,年初互联网行业的各大厂都再裁员,前半年的行业发展趋于平稳,随着经济形势正在复苏,今年秋招各个公司hc也逐渐开放,很多小伙伴也反馈面试机会变多了,想查缺补漏冲刺大厂,我软磨硬泡终于从阿里p8手里弄来了突击秘籍,分享给大家。 涨薪秘籍从Java核心并发开始,到经典的框架源码设计模式、分布式微服务架构设计、微服务NetFilx体系和Alibaba体系、微服务架构性能调优、云原生以及虚拟化、Spring Cloud Alibaba项目实战。
123 2
GitHub爆出阿里内部突击路线+配套学习资源,直接霸榜
|
监控 算法 SEO
谷歌霸屏外推技术原理,谷歌留痕霸屏怎么做?
优化您的网站:对每个网站进行优化,包括关键字研究、元标记、内容优化和内部链接。
373 0
谷歌霸屏外推技术原理,谷歌留痕霸屏怎么做?
|
监控 前端开发 jenkins
新来个技术总监,给团队引入了这款开发神器,同事直呼哇塞
带团队时间久了,就能发现整个 Team 都渐渐疲了。前两年老板还专门买了个系统搞 OKR,现在也不大提了;Scrum 我们也搞了,用起来也就那样;项目管理工具试了好几个,禅道、Worktile、现在用 Coding,反正有一个能用的就行;微服务化改造从去年开始在吭哧吭哧搞,我们自己搞得觉得很厉害,但业务部门那边就觉得没啥差别,搞不懂你们研发部门每天在弄些什么,赶紧做我们提的需求要紧。
新来个技术总监,给团队引入了这款开发神器,同事直呼哇塞
|
Web App开发 SQL 搜索推荐
知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大降薪|架构周报
本周架构视点:知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大规模降薪;网易云音乐起诉腾讯音乐;GitHub 弃用 io;ARM 安谋中国 430 多名员工联名签署公开信,反对软银夺权;Firefox:我们不会卖给亿万富翁
139 0
知网“哭穷”:赔不起 1200 亿;微信公众号文章留言显示 IP 属地;程序员延寿指南霸榜 GitHub;联想高层大降薪|架构周报
|
搜索推荐 API 开发者
让阅读有更多想象,Feedly 向所有开发者开放API
事实证明在Google Reader的关闭只会让整个RSS阅读市场和生态都更有活力。比如,最激进的Feedly自开放云平台、推出收费版本后,再一次有了一个重大举动:向所有开发者开放自己的API。这意味着它不仅要把自己打造成最好的阅读器工具,还要完成Google Reader未竟的事业:让自己成为一个平台,并搭建生态系统。
536 0
让阅读有更多想象,Feedly 向所有开发者开放API
想要搭建陪玩平台,这几点不容忽视
随着互联网经济的持续稳定发展,游戏市场的“封印”逐渐被打开,搭建陪玩平台成为一个新的热点。提起陪玩系统相信大家也不陌生,漫漫单排路如果有一个大神能带自己躺赢那是再好不过了,于是陪玩系统运营而生。想要搭建陪玩平台,应该注意哪些问题呢?
|
人工智能 供应链 算法
机器人在线“偷懒”怎么办?阿里研究出了这两套算法
随着互联网和电子商务的发展以及全球化的不断加速,中国产业持续升级,人工智能与机器人集群逐步被应用于制造业与物流供应链产业中。机器人集群的主要目的是与人协同合作,将人从沉重的重体力搬运任务中解放出来,专注于更精细的操作当中。由于在工业界的广泛应用与进一步智能化生产的思考,机器人集群调度成为了多智能体系统(Multi-agent System)学术研究中的一个新兴研究方向,其核心问题是如何调度机器人执行合适的任务并规划高效的路径,使得系统整体效率最优。 文末福利:七道典型算法笔试模拟题精解。
1227 0
机器人在线“偷懒”怎么办?阿里研究出了这两套算法