skyme张_高分内容_个人页-阿里云开发者社区

发表了文章 2017-06-30

智能分单算法

算法描述目前在物流，企业用工等领域，都有着大量的通过算法对接到的订单进行智能分配的需求。本文模拟的是用户下订单，然后商家接到订单，由配送人员进行派送的场景。在实际的应用中类似于百度外卖等有着非常多的实际应用。

发表了文章 2016-08-17

海量数据处理利器greenplum——初识

简介及适用场景如果想在数据仓库中快速查询结果，可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性：第一，完善的标准支持：GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。

发表了文章 2015-08-12

跟我一起ggplot2（1）

ggplot2 R的作图工具包，可以使用非常简单的语句实现非常复杂漂亮的效果。 qplot 加载qplot library(ggplot2) # 测试数据集，ggplot2内置的钻石数据 qplot(carat, price, data = diamonds) dsmall ...

发表了文章 2015-07-16

一文搞懂HMM（隐马尔可夫模型）

什么是熵(Entropy) 简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。

发表了文章 2015-07-15

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

本挖掘典型地运用了机器学习技术，例如聚类，分类，关联规则，和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报，生命科学，客户呼声，媒体和出版，法律和税收，法律实施，情感分析和趋势识别。

发表了文章 2015-06-28

跟我一起hadoop（1）-hadoop2.6安装与使用

伪分布式 hadoop的三种安装方式： Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode 安装之前需要 $ sudo apt-get install ssh $ sudo apt-get install rsync 详见：http://hadoop.

发表了文章 2015-04-30

众推项目的最近讨论

openKM 想问下有没有这样的开源文件管理系统，所有人都可以上传文件，只有有权限的管理员才可以下载他人的文件？不知道openkm能不能做到。 OpenKM是一个开放源代码的电子文档管理系统，它的特点是可用于大型公司或是中小企业，适应性比较强。

发表了文章 2015-04-20

基于java的分布式爬虫

分类分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。

发表了文章 2015-03-31

跟我一起数据挖掘（23）——C4.5

C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

发表了文章 2015-03-26

分布式爬虫技术架构

Spiderman Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

发表了文章 2015-03-25

众推项目的文档分享流程

文档分享流程今天在群里与大家讨论，想一个比较合理的分享流程。我想看到流程应该是挺清楚了，就不再多加文字方面的解释了！有想参与的可以一起进来讨论群号 194338168 想深度参与的加，不想参与的就别往里进了，现在需要的主要是开发和文档两类人。群会定期往出清人！（项目会开源出来）

发表了文章 2015-03-24

众推平台架构——分布式爬虫

分布式爬虫架构经过新一轮的投票，项目的范围已经基本确定。大家决定全力以付，集中攻克“分布式爬虫”。分布式爬虫架构1 使用队列，即生产者，消费都模式。由于生产者将规则生成到队列，然后由爬虫集群（消费者）到队列中取规则，然后按优先级等规则进行爬取。

发表了文章 2015-03-23

数据挖掘开源项目立项

项目背景因为最近一直都在搞数据挖掘类的项目，且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法，以前也搞过一个开源的项目，当时只是想把权限集中化做一下，项目的名称和地址是： http://www.cnblogs.com/skyme/archive/2012/02/07/2341364.html 但是后期实在工作太忙，就搁置在那里了。

发表了文章 2015-03-14

跟我一起数据挖掘（22）——spark入门

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

发表了文章 2015-03-08

跟我一起数据挖掘（21）——redis

什么是Redis Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。

发表了文章 2015-03-05

跟我一起数据挖掘（20）——网站日志挖掘

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术，对站点用户访问Web服务器过程中产生的日志数据进行分析处理，从而发现Web用户的访问模式和兴趣爱好等，这些信息对站点建设潜在有用的可理解的未知信息和知识，用于分析站点的被访问情况，辅助站点管理和决策支持等。

发表了文章 2015-03-03

跟我一起数据挖掘（19）——什么是数据挖掘（2）

什么是数据仓库？数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。

发表了文章 2015-02-28

跟我一起数据挖掘（18）——什么是数据挖掘（1）

什么是数据挖掘前两天看到群里有人问，什么是数据挖掘，现在就数据挖掘的概念做一下分析，并且尽量用大白话说一下数据挖掘到底是个啥东西，为啥大数据来了数据挖掘也火了（其实原来就挺火）。先看一上概念：数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。

发表了文章 2015-02-23

跟我一起数据挖掘（17）——分布式缓存

分布式缓存架构先看架构：图一用户通过访问http服务器，然后访问应用服务器资源，应用服务器调用后端的数据库，在第一次访问的时候，直接访问数据库，然后将要缓存的内容放入memcached集群，集群规模根据缓存文件的大小而定。

发表了文章 2014-09-19

jeechart

个人网站地址：http://blog.niubua.com jeechart（1）——普通的分页查询：http://blog.niubua.com/2014/09/18/jeechart（1）-普通的分页查询/ jeechart（2）——无分页列表和图表demo ： http://blog.

发表了文章 2014-02-24

算法——贝叶斯

发表了文章 2014-02-09

算法——递推算法

递推算法给定一个数的序列H0,H1,…,Hn,…若存在整数n0，使当n>n0时,可以用等号(或大于号、小于号)将Hn与其前面的某些项Hi(0f(1)-->f(0){f(0)=1}-->f(1)-->f(2)--f(3){f(3)=6} 而递推如下: f(0)-->f(1)-->f(2)-->f(3) 由此可见,递推的效率要高一些,在可能的情况下应尽量使用递推.但是递归作为比较基础的算法,它的作用不能忽视.所以,在把握这两种算法的时候应该特别注意。

发表了文章 2013-12-05

跟我一起云计算（5）——Shards

什么是sharding Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库 (server)上，从而缓解单一数据库的性能问题。不太严格的讲，对于海量数据的数据库，如果是因为表多而数据多，这时候适合使用垂直切分，即把关系紧密（比如同一模块）的表切分出来放在一个server上。

发表了文章 2013-12-04

跟我一起云计算（4）——lucene

了解lucene的基本概念这一部分可以参考我以前写的博客： http://www.cnblogs.com/skyme/tag/lucene/ lucene是什么下图是一个很好的说明： 1、lucene是构建索引、查询、高亮、拼写检查的类库。

发表了文章 2013-11-24

跟我一起云计算（3）——hbase

hbase HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

发表了文章 2013-11-21

博客群发（2）--实现登陆

模板方法 python也是一种面向对象的语言，所以在实现群发的时候，会登陆不同的网站，但是登陆的方法什么的不尽相同，所以这里想到的是模板方法。模板方法模式：应用特性：重复做相同逻辑的事情，但是具体细节不同的场景结构特性：相同逻辑抽取至父类，具体细节留置子类。

发表了文章 2013-11-21

跟我一起云计算（6）——openAPI

介绍 Open API即开放API,也称开放平台。所谓的开放API（OpenAPI）是服务型网站常见的一种应用，网站的服务商将自己的网站服务封装成一系列API（Application Programming Interface，应用编程接口）开放出去，供第三方开发者使用，这种行为就叫做开放网站的API，所开放的API就被称作OpenAPI（开放API）。

发表了文章 2013-11-16

博客群发（1）--构思

博客群发最近想把博客发到多个博客里去，发现现在网上很多软件都是收费的，而且效果怎么样也不清楚，于是有了这个想法，想做一个博客群发的软件，基本的语言使用的是python。基本想法构思已基本完成，在google code上建立项目。

发表了文章 2013-08-19

使用oracle的大数据工具ODCH访问HDFS数据文件

软件下载 Oracle Big Data Connectors：ODCH 下载地址： http://www.oracle.com/technetwork/bdc/big-data-connectors/downloads/index.

发表了文章 2013-08-18

虚拟化平台cloudstack（8）——从UI开始

UI ucloudstack采用的是前后端分离的架构，就是说前端可以选择使用web、swing甚至其它的界面，都可以。我们来看cloudstack的UI信息吧，所有的cloudstack的UI都在{cloudstack_home}/cloudstack/ui目录下。

发表了文章 2013-08-08

虚拟化平台cloudstack（7）——新版本的调试

调试环境 ubuntu 12.04 JDK1.7 apache-maven-3.10 eclipse 4.2 Juno mysql 5 源码下载及调试上面的几个软件在上一篇中已经介绍了。

发表了文章 2013-08-03

虚拟化平台cloudstack（6）——使用maven:jetty调试

调试环境 ubuntu 12.04 JDK1.7 apache-maven-3.10 eclipse 4.2 Juno mysql 5 apache ant JDK的配置和安装安装可以参考： http://my.oschina.net/jamesju/blog/94916 我是安装在~//java/jdk1.7.0_21下，执行java -version可以看到当前的JDK版本。

发表了文章 2013-07-29

虚拟化平台cloudstack（5）——参考资料

虚拟化的几种方式完全虚拟化：半虚拟化：硬件辅助虚拟化：详细的内容可以看： http://pan.baidu.com/share/link?shareid=4134188256&uk=271407 xen虚拟化及工作原理： http://www.

发表了文章 2013-07-04

虚拟化平台cloudstack（4）——几个异常

cloudstack主机添加不成功 CloudStack正常启动，添加区域、提供点和群集都正常，但是添加主机时提示添加不成功。先添加主机：然后出现提示：在网上找了一圈，基本上没什么回复，没办法，还得自己搞。

发表了文章 2013-07-03

虚拟化平台cloudstack（3）——安装（下）

登录时用户名和密码错误默认账号密码 admin/password 管理节点安装好后，初始化数据库，完了使用admin和password登陆提示用户名密码错误，查看日志： Fail to generate certificate! 经过检查原来是ssh没有安装，输入： sud...

发表了文章 2013-06-28

虚拟化平台cloudstack（2）——安装（上）

vmware workstation安装ubuntu server12.04 这个其实没什么说的了，下软件，安装，一顿下一步，OK。安装完成后，为ubuntu server 12.04安装桌面。使用下面的命令来进行更新源列表和安装图形桌面。

发表了文章 2013-06-23

vmware安装ubuntu12.04嵌套安装xen server（实现嵌套虚拟化）

环境准备软件：vmware workstation 9.0 　　 ubuntu-12.04.2-server-amd64（官方下载）硬件：确认CPU支持虚拟化VM-T vmware设置 vmware修改配置如下：打开虚拟化功能。

发表了文章 2013-06-21

搭建hadoop1.2集群

环境准备我使用的是vmware workstation，首先安装ubuntu 12.04，安装完成后通过vmware的clone，clone出两个虚机，设置的IP分别是： 192.168.74.130 master 192.168.74.132 node1 192.168.74.133 node2 然后修改各个主机的/etc/hosts中的内容。

发表了文章 2013-06-06

虚拟化平台cloudstack（1）——介绍

什么是cloudstack CloudStack是一个开源的具有高可用性及扩展性的云计算平台。目前Cloudstack支持管理大部分主流的hypervisors，如KVM，XenServer，VMware，Oracle VM，Xen等。

发表了文章 2013-06-05

虚拟化技术（1）——介绍

什么是虚拟化虚拟化是指计算机元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量，简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU并行，允许一个平台同时运行多个操作系统，并且应用程序都可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。

发表了文章 2013-04-23

红帽的PAAS平台openshift

什么是paas PaaS是Platform-as-a-Service的缩写，意思是平台即服务。把服务器平台作为一种服务提供的商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service)，而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Platform as a Service)。

发表了文章 2012-12-21

JavaFX——（第一篇：介绍篇）

什么是JavaFX JavaFx平台是一个富客户端平台解决方案，它能够使用应用程序开发人员轻松的创建跨平台的富客户端应用程序。它构建在Java技术的基础之上，JavaFX平台提供了一组丰富的图形和媒体API与高性能硬件加速图形和媒体引擎,简化开发数据驱动的企业客户端应用程序。

发表了文章 2012-08-18

JRuby——Java和Ruby的强强联合

什么是JRuby JRuby是一个纯Java实现的Ruby解释器。通过JRuby，你可以在JVM上直接运行Ruby程序，调用Java的类库。很多Java编写的Ruby IDE都是使用JRuby来解释语法的。

发表了文章 2012-08-15

如何搭建sshpermissions工程

从svn上下载源码原来缺少的tgBase, tgTemplateEngine, tgTree三个包的源码，也已经上传到服务器上，接下来看如何配置工程。打开eclipse，然后选择导入，从SVN导入源码：　　　　　　　　图：从svn导入系统源码添入svn中的sshpermissions的地址　　　　　　　　图：svn远端路径选择工程　　　　　　　　图：sshpermission工程选择　　　　　　　　　　图：指定工程名然后点击完成，就可以完成导入了。

发表了文章 2012-08-10

一步一步学Mule ESB——（第二篇：Ajax篇）

待完成功能使用Ajax请求向后端发送请求把网页的数据转换成请求的处理流使用XSL and Mule Transformers转换成Google API可以理解的格式创建一个Google API的拼写检查，处理网页输入返回XML数据到页面实施一个Jetty服务器在流程中创建工程创建工程ajaxflow，然后在ajaxflow.

发表了文章 2012-08-09

一步一步学Mule ESB——（第一篇：基础篇）

mule 它是一个以Java为核心的轻量级的消息框架和整合平台，基于EIP（Enterprise Integeration Patterns,由Hohpe和Woolf编写的一本书）而实现的。Mule的核心组件是UMO(Universal Message Objects，从Mule2.0开始UMO这一概念已经被组件Componse所代替)，UMO实现整合逻辑。

发表了文章 2012-08-06

如何选择ESB

什么是ESB 企业服务总线（Enterprise Service Bus，ESB）的概念是从面向服务体系架构(Service Oriented Architecture， SOA)发展而来的。SOA描述了一种IT基础设施的应用集成模型；其中的软构件集是以一种定义清晰的层次化结构相互耦合。

发表了文章 2012-08-03

三步学会用spring开发OSGI——（第三步：web篇）

接下来就是我们要创建的web工程了，为了简单，我们直接利用virgo所带的模板来新建工程，控制层使用的是spring mvc 3。创建web工程打开STS，新建工程，我们选择Sprinng Template Project 　　　　　　　　　　图：新建spring template project 选择Spring MVC Project 　　　　　　　　图：模板选择向下，然后输入工程名和包名，就是我涂红的两部分　　　　　　　　　　图：输入工程名及包名点击完成，中间可能需要下载文件，正常选择下载就可以了。

发表了文章 2012-08-02

关于SourceForge不能使用的问题

sourceforge SourceForge.net，又称SF.net，是开源软件开发者进行开发管理的集中式场所，也是全球最大开源软件开发平台和仓库。 SourceForge.net由VA Software提供主机，并运行SourceForge软件。

发表了文章 2012-08-02

一步一步学lucene——（第四步：搜索篇）

下面说的主要是lucene如何进行搜索，相比于建索引，搜索可能更能提起大家的兴趣。 lucene的主要搜索的API 下面通过表格来看一下lucene用到的主要的搜索API 类目的 IndexSeacher 搜索操作的入口，所有搜索操作都是通过IndexSeacher实例使用一个重载的search方法来实现 Query(及其子类) 具体的Query子类为每一种特定类型的查询进行逻辑上的封装。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

skyme张_个人页

个人介绍

擅长的技术

智能分单算法

海量数据处理利器greenplum&mdash;&mdash;初识

跟我一起ggplot2（1）

一文搞懂HMM（隐马尔可夫模型）

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

跟我一起hadoop（1）-hadoop2.6安装与使用

众推项目的最近讨论

基于java的分布式爬虫

跟我一起数据挖掘（23）——C4.5

分布式爬虫技术架构

众推项目的文档分享流程

众推平台架构——分布式爬虫

数据挖掘开源项目立项

跟我一起数据挖掘（22）——spark入门

跟我一起数据挖掘（21）——redis

跟我一起数据挖掘（20）——网站日志挖掘

跟我一起数据挖掘（19）——什么是数据挖掘（2）

跟我一起数据挖掘（18）——什么是数据挖掘（1）

跟我一起数据挖掘（17）——分布式缓存

jeechart

算法——贝叶斯

算法——递推算法

跟我一起云计算（5）——Shards

跟我一起云计算（4）——lucene

跟我一起云计算（3）——hbase

博客群发（2）--实现登陆

跟我一起云计算（6）——openAPI

博客群发（1）--构思

使用oracle的大数据工具ODCH访问HDFS数据文件

虚拟化平台cloudstack（8）——从UI开始

虚拟化平台cloudstack（7）——新版本的调试

虚拟化平台cloudstack（6）——使用maven:jetty调试

虚拟化平台cloudstack（5）——参考资料

虚拟化平台cloudstack（4）——几个异常

虚拟化平台cloudstack（3）——安装（下）

虚拟化平台cloudstack（2）——安装（上）

vmware安装ubuntu12.04嵌套安装xen server（实现嵌套虚拟化）

搭建hadoop1.2集群

虚拟化平台cloudstack（1）——介绍

虚拟化技术（1）——介绍

红帽的PAAS平台openshift

JavaFX——（第一篇：介绍篇）

JRuby——Java和Ruby的强强联合

如何搭建sshpermissions工程

一步一步学Mule ESB——（第二篇：Ajax篇）

一步一步学Mule ESB——（第一篇：基础篇）

如何选择ESB

三步学会用spring开发OSGI——（第三步：web篇）

关于SourceForge不能使用的问题

一步一步学lucene——（第四步：搜索篇）

智能分单算法

海量数据处理利器greenplum&mdash;&mdash;初识

跟我一起ggplot2（1）

一文搞懂HMM（隐马尔可夫模型）

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

跟我一起hadoop（1）-hadoop2.6安装与使用

众推项目的最近讨论

基于java的分布式爬虫

跟我一起数据挖掘（23）——C4.5

分布式爬虫技术架构

众推项目的文档分享流程

海量数据处理利器greenplum——初识

海量数据处理利器greenplum——初识