• 关于

    聚类

    的搜索结果

回答

聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点: 本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K< 缺点: 1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。

珍宝珠 2019-12-02 03:14:10 0 浏览量 回答数 0

问题

没有层次聚类算法组件吗?

w乌鸦 2019-12-01 20:28:51 1054 浏览量 回答数 1

问题

关于算法平台里的k均值聚类

like757 2019-12-01 21:39:46 3618 浏览量 回答数 4

阿里云试用中心,为您提供0门槛上云实践机会!

0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

问题

在PAI上kmeans怎么循环传聚类数K,选取最佳的聚类数?

wgy灬 2019-12-01 19:38:51 1009 浏览量 回答数 4

回答

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。

珍宝珠 2019-12-02 03:14:10 0 浏览量 回答数 0

问题

阿里算法平台初始化质心聚类报错

foriyte 2019-12-01 20:16:01 1360 浏览量 回答数 0

问题

什么是聚类分析?

珍宝珠 2019-12-01 21:56:42 63 浏览量 回答数 1

回答

性能对比首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。测试环境:CPU:7000个;内存:单机128GB;版本:Hadoop 2.3.0,Spark 1.4,Flink 0.9数据:800MB,8GB,8TB;算法:K-means:以空间中K个点为中心进行聚类,对最靠近它们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。迭代:K=10,3组数据

flink小助手 2019-12-02 01:37:56 0 浏览量 回答数 0

问题

K-Means聚类和主成分分析

珍宝珠 2019-12-01 22:05:19 22 浏览量 回答数 1

问题

聚类算法有哪几种?选择一种详细描述其计算原理和步骤。

珍宝珠 2019-12-01 21:56:42 60 浏览量 回答数 1

回答

Mahout中K-Means算法实现原理在Mahout中,K-Means算法由两大部分组成:其一,外部的循环,即算法的准则函数不满足时要继续的循环;其二,循环的主体部分,即算法的主要计算过程。Mahout中实现的K-Means算法和上面对应,分别使用KmeansDriver来设置循环,使用KmeansMapper、KmeansReducer(KmeansCombiner设置后算法运行速度会提高)作为算法的主体部分。该算法的输入主要包含两个路径(或者说文件),其中一个是数据的路径,还有一个是初始聚类中心向量的路径,即包含k个聚类中心的文件。这里要求数据都是序列化的文件,同时要求输入数据的key设置为Text(这个应该是没有做硬性要求的),value设置为VectorWritable(这个是硬性要求的,和Canopy Clustering一样)。其实在该算法中可以通过设置参数来自动提取原始数据中的k个值作为初始中心点的路径,当然,如果读者要自己提供初始中心点的文件,也可以通过Canopy算法来得到聚类的中心点作为K-Means算法的初始中心点文件。该算法在KmeansDriver中通过不断循环使用输入数据和输入中心点来计算输出(这里的输出都定义在一个clusters-N的路径中, N是可变的)。输出同样是序列文件,key是Text类型,value是Cluster类型。该算法的原理图如图3-11所示。KmeansDriver通过判断算法计算的误差是否达到阈值或者算法循环的次数是否达到给定的最大次数来控制循环。在循环过程中,新的聚类中心文件路径,一般命名为“clusters-N”且被重新计算得到,这个计算结果是根据前一次的中心点和输入数据计算得到的。最后一步,是通过一个KmeansMapper根据最后一次的中心点文件来对输入文件进行分类,计算得到的结果放入到文件名为“clusteredPoints”文件夹中,这次任务没有combiner和Reducer操作。KmeansMapper在setup函数中读取输入数据,然后根据用户定义的距离计算方法把这些输入放入到最近的聚类中心簇中,输出的key是类的标签,输出的value是类的表示值;KmeansCombiner通过得到Mapper的输出,然后把这些输出进行整合,得到总的输出;KmeansReducer通过设定一个Reducer来进行计算,接收所有的combiner的输出,把相同的key的类的表示值进行整合并输出。

云栖技术 2019-12-02 02:36:52 0 浏览量 回答数 0

问题

文本聚类

tnullt 2019-12-01 19:25:46 1123 浏览量 回答数 1

回答

Set 是媒体搜索、人脸聚类的范围。不允许跨 Set 进行搜索、聚类。以次为依据进行划分。如云相册场景,建议每个终端用户一个 Set。

1934890530796658 2020-03-31 13:04:40 0 浏览量 回答数 0

问题

pai 命令在哪里 ?

iamwxianfeng 2019-12-01 19:28:20 1162 浏览量 回答数 1

回答

Re调查:第二赛季希望有哪些机器学习的算法包 希望聚类能够提供层次聚类 然后最关键的是希望逻辑回归能够提供损失函数正负例带权的接口。其实这个一点都不麻烦,在原来算法包的基础上稍微改一点点就好,但是感觉有没有结果差别挺大的

懒惰啊我 2019-12-02 03:03:39 0 浏览量 回答数 0

回答

Re调查:第二赛季希望有哪些机器学习的算法包 感觉聚类的算法太少了。数据挖掘课本上的很多聚类算法都没有。只有一个k-means算法。协同过滤的算法也没有哦! 请问我们该学hadoop的哪部分?哪部分对s2最有帮助?

hadoop123 2019-12-02 03:03:39 0 浏览量 回答数 0

回答

以我对问题的理解,提供一条可能可行的思路,但具体问题还是要具体分析的。首先需要有个可量化的聚类目标,不然计算机都不知道什么是最优的聚类,对吧?,其次,想做到参数的自动迭代,我目前知道的方案是shell脚本+odpscmd的方式。通过自动化脚本来遍历参数,就是时间上慢了点。

openrec 2019-12-02 00:42:30 0 浏览量 回答数 0

回答

研究生一年级的时候上了一门《演化算法》方面的课程,大作业做了创新性算法研究,具体内容是把PSO和DBSCAN聚类结合来做多峰优化,算法最大优点是参数少,不需要预估峰半径和峰个数。任课老师觉得内容比较有创新性,建议我投稿发表。 我5月份投了《系统工程与电子技术》,大概25天出了结果直接退稿,外审大概用了10天时间,外审意见如下: 1. 文章原创性不足,类拟这类结合实现方法组合太多,这种组合方法针对单一性能分析和方法的理论分析意义不大; (根据我看过的文献,直接把聚类算法和演化算法结合来做多峰优化的确实不多,而且能够不需要峰半径和峰个数信息的同类算法复杂度都很高……) 2. 关于算法的2个参数的设置在是否具有通用性,即在维度更高的时候能否适用。

小哇 2019-12-02 01:21:25 0 浏览量 回答数 0

回答

分别描述的是模块内部特征,和模块外部引用关系。内聚就是一个模块内各个元素彼此结合的紧密程度,高内聚就是一个模块内各个元素彼此结合的紧密程度高。内聚是就其中任何一个模块的内部特征而言的。耦合是就多个模块组成的系统中各个模块的关联关系而言的。高内聚是说模块内部要高度聚合,低耦合是说模块与模块之间的藕合度要尽量低。前者是说模块内部的关系,后者是说模块与模块间的关系。起因:模块独立性指每个模块只完成系统要求的独立子功能,并且与其他模块的联系最少且接口简单,两个定性的度量标准――耦合性和内聚性。 耦合性也称块间联系。指软件系统结构中各模块间相互联系紧密程度的一种度量。模块之间联系越紧密,其耦合性就越强,模块的独立性则越差。模块间耦合高低取决于模块间接口的复杂性、调用的方式及传递的信息。 耦合性与内聚性是模块独立性的两个定性标准,将软件系统划分模块时,尽量做到高内聚低耦合,提高模块的独立性,为设计高质量的软件结构奠定基础。有个例子很容易明白:一个程序有50个函数,这个程序执行得非常好;然而一旦你修改其中一个函数,其他49个函数都需要做修改,这就是高耦合的后果。一旦你理解了它,你编写概要设计的时候设计类或者模块自然会考虑到“高内聚,低耦合”。

wangccsy 2019-12-02 01:50:02 0 浏览量 回答数 0

问题

Python数据挖掘与机器学习技术进阶实战PPT及代码

福利达人 2019-12-01 21:26:43 591 浏览量 回答数 1

回答

大体分为四大类,分类、聚类、回归、协同过滤。

珍宝珠 2019-12-02 03:08:04 0 浏览量 回答数 0

回答

不建议这样操作。CreateGroupFacesJob 接口为增量分组接口。通常可以在一批照片完成索引后,一次性调用 CreateGroupFacesJob 来进行批量聚类。 推荐如下两个方案: 简单方法,即对每一个 Set,每隔固定间隔(如 5 分钟)调用一次 CreateGroupFacesJob 接口进行聚类。 更佳方案,每次 IndexImage 时,将其对应的 Set 推入一个延迟队列。定时从该队列中获取 SetId,即可得到有新图片的 Set。在其最后一次 IndexImage 的(10+3)秒后运行 CreateGroupFacesJob。

1934890530796658 2020-03-31 13:00:20 0 浏览量 回答数 0

回答

最好是吧?最好就是如下软件:用智能媒体管理系统,这个里面包含了如下功能:1.文档格式转换、预览支持共48种文件类型不同办公文档的格式转换与预览。帮助用户搭建文档内容中心。1.图片内容识别支持25个主标签,上千个子标签。图片场景快速添加标签,帮助图片内容管理。3.人脸识别、聚类支持照片的人物识别与聚类。能够为照片添加人物维度属性,帮助快速查找人物。4.OSS云存储整合支持通过OSS 文件的URL直接进行数据处理分析。用户无需额外开发即能让OSS文件支持文档预览。至于设置,三言两语写不完,每一个功能都有具体的设置方法,自己认真去看一下。另外,关于视频直播,建议你用阿里云的视频直播系统。

ystpt 2019-12-02 01:41:25 0 浏览量 回答数 0

回答

图片型实例能够帮助您快捷管理图片类型数据,提供一站式完成图片的处理、分析、搜索、管理等操作,它包含 2 种类型: 图片标准型。支持对于图片的基础内容识别如 人脸检测、内容识别功能,以及基于媒体集 Set 的管理 / 搜索功能。 图片专业性。支持 人脸聚类 功能,能够适用于智能云相册,以及更多人与物维度照片管理。 基于媒体集 Set 的管理功能目前处于公测状态。 图片管理类型对应功能 功能 图片标准型 图片专业型 人脸检测旧版 支持 支持 内容识别旧版 支持 支持 内容搜索旧版 - 支持 人脸聚类 - 支持 媒体集管理 支持 - 人脸检测新版 支持 - 内容识别新版 支持 -

1934890530796658 2020-03-31 12:40:48 0 浏览量 回答数 0

问题

如何通过聚类或其他算法实现一组名词的抽象

蛮大人123 2019-12-01 19:58:49 1061 浏览量 回答数 1

回答

主要区别 1. 接口只能声明函数,抽象类可完成部分函数实现 2. 接口声明的函数和属性均是公开、静态、不可变更的,抽象类的方法支持各类权限控制 3. 从低耦合高内聚角度考虑,应该优先针对接口编程

1194723399011780 2019-12-02 01:00:52 0 浏览量 回答数 0

问题

如何通过聚类或其他算法实现一组名词的抽象,也可以说是关键词的提取?

a123456678 2019-12-01 20:08:00 931 浏览量 回答数 1

回答

回 2楼叶子gggg的帖子 谢谢~顺便问一下,像文本处理类的功能,数加平台有集成吗?机器学习平台是不是只包含了传统的决策树、聚类、朴素贝叶斯等等,没有包括前沿的神经网络、文本处理等等

弥漫的幻雪 2019-12-02 00:23:36 0 浏览量 回答数 0

问题

用PAI搭建聚类模型时发现错误,求指教

sfxy 2019-12-01 21:44:09 1382 浏览量 回答数 2

问题

【精品问答】110+数据挖掘面试题集合

珍宝珠 2019-12-01 21:56:45 2713 浏览量 回答数 3
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板