《大数据架构和算法实现之路:电商系统的技术实战》——第2章 方案设计和技术选型:聚类 2.1 聚类的基本概念

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本节书摘来自华章计算机《大数据架构和算法实现之路:电商系统的技术实战》一书中的第2章,第2.1节,作者 黄 申,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

方案设计和技术选型:聚类

学习了这么多关于分类的知识后,让我们再回到小丽提出的第二大需求:帮助商家进行合理的搜索关键词优化。对于电商平台的商家而言,站内搜索的流量和转化率是至关重要的。而要想被搜索引擎搜索到,最基本的条件是使用了足够并且合理的关键词来描述商品。因此,帮助他们在商品文描中优化和补充适当的关键词,将会提升商品被用户搜索到的可能性,也能增加商家运营的效率。对此,小明是这么理解的:“可以充分利用大家的智慧,来帮助商家进行关键词SEO。对于某个新刊登的商品A,根据其现有的关键词,查找和其最相似的其他商品,并将这些相似品放入集合B中。然后在集合B中,统计热门的关键词,为A发现它可能漏掉的用词。”

“可是,我们怎样为某个商品查找所有的相似品呢?之前阐述监督学习的时候,你提到的KNN算法好像可以完成这个任务。”

“没错。但是KNN算法最大的问题是需要人工标注的数据。这里将学习另一种非监督式的机器学习方法——聚类,以及聚类中的经典算法K均值(K-Means)。该算法的原理和KNN在一定程度上比较类似,不过其应用场景有所不同。”

2.1 聚类的基本概念

如前所述,监督式学习通过训练资料学习建立一个模型,并依此模型推测出了新的实例。实际场景中,我们经常还会遇到另一种更为原始的情况:不存在任何关于样本的先验知识,让我们在没人指导的情形下去将很多东西进行归类。因此,归类系统必须通过一种有效的方法“发现”样本的内在相似性,然后通过一种被称为“非监督学习”的方法来设计该归类系统。这一节将致力于阐述特征向量的非监督学习方式,通常称为“聚类”(Clustering)。实质上这是一种数据驱动的方法,它试图发现数据自身的内部结构,将数据对象以群组(Cluster)的形式进行分组。假想另外一个场景,还是以1000颗水果为例,这次我们不会事先告诉果农,只可能有苹果、甜橙和西瓜三种水果,而是让他们按照水果之间的相似程度,进行归组,更相似的放入一组。这就是最基本的聚类问题。和分类问题相同的地方在于,果农可能会将甜橙和苹果弄混淆。不同之处在于,在没有修改游戏规则之前,分类问题下永远只有3个分类,而聚类这种方式可能会导致聚出多于或少于3个的分组。

根据数据的类型、样本在聚类中的积聚规则,以及应用这些规则所用的方法来看,有很多种聚类算法。大体上可以分为如下两大类。

  • 质心调整型(Centroid Adjustment):这种算法使用一种迭代的方法来调整聚类的典型模式点,也称聚类的质心,从而形成一系列可以分配给它们的样本。
  • 层次型(Hierarchical):层次型的算法也可以称为树状聚类,它采用数据对象的连接规则,去制造一个层次化序列的聚类模型。这和质心调整型所给出的扁平化解决方案有所不同。

通常情况下,由于缺乏人为的标注,聚类的效果会比分类的效果要差一些,不过聚类也有其独特的优势:更加节省人力,适合用于对精度要求不高,或是一些需要预处理的场景。例如这里提到的如何为给定的商品找到其他相似品。再有,在做客户关系管理(CRM)的时候,需要对用户进行分组并打上兴趣标签。大型的网站其用户量有上百万,而标签量也可能上万,那么完全依赖分类技术对于平台的起步而言过于困难。这时可以考虑通过聚类来发现相似的用户,并自动将他们归为一组。然后,可对聚类的初步结果进一步进行提炼,对于重要的客户再进行基于分类的标注和处理。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
1
0
0
1408
分享
相关文章
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
185 0
基于SCA的软件无线电系统的概念与架构
软件通信体系架构(SCA)是基于软件定义无线电(SDR)思想构建的开放式、标准化和模块化平台,旨在通过软件实现通信功能的灵活配置。SCA起源于美军为解决“信息烟囱”问题而推出的联合战术无线电系统(JTRS),其核心目标是提升多军种联合作战通信能力。 上海介方信息公司的OpenSCA操作环境严格遵循SCA4.1/SRTF标准,支持高集成、嵌入式等场景,适用于军用通信、雷达等领域。 SCA体系包括目标平台资源层(TRL)、环境抽象层(EAL)、SRTF操作环境(OE)及应用层(AL)。其中,SRTF操作环境包含操作系统、运行时环境(RTE)和核心框架(CF),提供波形管理、资源调度等功能。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
202 2
智慧电厂AI算法方案
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
112 3
|
3月前
|
Spring底层架构核心概念解析
理解 Spring 框架的核心概念对于开发和维护 Spring 应用程序至关重要。IOC 和 AOP 是其两个关键特性,通过依赖注入和面向切面编程实现了高效的模块化和松耦合设计。Spring 容器管理着 Beans 的生命周期和配置,而核心模块为各种应用场景提供了丰富的功能支持。通过全面掌握这些核心概念,开发者可以更加高效地利用 Spring 框架开发企业级应用。
121 18
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
322 0
MPP 架构与 Hadoop 架构技术选型指南
MPP架构与Hadoop架构是处理海量数据的两大选择。MPP通过大规模并行处理实现快速查询响应,适用于企业级数据仓库和OLAP应用;Hadoop则以分布式存储和计算为核心,擅长处理非结构化数据和大数据分析。两者各有优劣,MPP适合结构化数据和高性能需求场景,而Hadoop在扩展性和容错性上表现更佳。选择时需综合考虑业务需求、预算和技术能力。
281 14
重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖
OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。
442 12

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等