MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据|数据分享

简介: MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据|数据分享

全文链接:http://tecdat.cn/?p=32794


近年来电子商务发展迅速,随之而来的信用问题给消费者带来诸多困扰,造成电子商务网上各种交易问题产生的原因是多方面的,但总的来说是缺乏有效的信用评价体系点击文末“阅读原文”获取完整代码数据


目前各电子商务网站虽然都建立了信用评价体系,但是各网站提出的信用评价系统、流程以及指标体系大体相同并已经使用多年,并没有根据电子商务的现实发展而进行创新优化,也没有根据评价用户实际需求进行更精准的设计。

本文以淘宝网为例,帮助客户改进了指标体系,并通过模糊C均值聚类对卖家基于新的指标体系进行信用分类。

聚类算法是一种常用的数据分析和模式识别方法,用于将数据集划分为若干个相似的子集,每个子集称为一个簇。模糊聚类算法是一种基于模糊理论的聚类方法,具有较好的鲁棒性和灵活性,因此在许多领域得到了广泛的应用。


传统的模糊C均值聚类算法

模糊C均值聚类算法是最早和最常用的模糊聚类算法之一。该算法通过最小化目标函数来确定数据集中每个样本的隶属度和聚类中心,从而实现聚类分析。然而,传统的模糊C均值聚类算法存在收敛速度慢、对初始聚类中心敏感等问题。

改进的模糊聚类算法

为了克服传统模糊C均值聚类算法的不足,研究者们提出了许多改进的模糊聚类算法。例如,基于遗传算法的模糊聚类算法、基于粒子群优化的模糊聚类算法等。这些改进算法在收敛速度、聚类效果等方面都有所提升。

基于模糊聚类的其他应用领域

除了在数据分析和模式识别领域,模糊聚类算法还被广泛应用于其他领域。例如,在图像分割、模式识别、生物信息学等领域都有模糊聚类算法的应用。这些应用领域的研究为模糊聚类算法的发展提供了新的方向和挑战。

图描述了一个凝聚模糊聚类方法AGENES和一个分裂模糊聚类方法DIANA在一个包括五个对象的数据的集合{a,b,c,d,e}上的处理的过程。初始时,AGENES将每个样本点自为一簇,之后这样的簇依照某一种准则逐渐合并,例如,例如簇C1中的某个样本点和簇C2中的一个样本点相隔的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为簇C1和簇C2是相似可合并的。

image.png

点击标题查阅往期内容


SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据


01

02

03

04


结果分析


C2C电子商务信用评价模型的基本原理是:确认收货之后,买方可以根据模型内的评价指标,如商品质量,物流速度,售后服务等方面,在一定时间内,根据自身交易完成情况为卖家评价,也可以双方互评以形成信用记录。交易双方的信用反馈都会按模型设定的计算方式累计,以反映该用户的信用状况,以便其他交易方做选择时参考。

目前淘宝网所采用的信用评价模型是累加模型,即原有的信用积分基础上直接进行加减,其模型表示如下:

image.png

其中:Rn、Rn-1分别表示淘宝用户截止到第 n、n-1 次交易之后所获得的信用得分,rn{-1,0,1}表示{差评,中评,好评},即当 rn获得“差评”时在原来信用积分的基础上加上“-1”分,用户获得中评时,就在原来信用积分的基础上加“0”分,当用户获得好评时,在原来信用积分的基础上加“+1”分。累加模型能够简单直观的展现交易双方的信用积分,一定程度上可作为交易双方的信用参考。


平台


MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。


构建指标体系


由于本文主要是基于 C2C 电子商务交易过程中的信用问题,从交易主体的角度来对 C2C 电子商务信用风险进行评价,目前淘宝网的信用评价指标体系主要由三个指标构成,分别是:与图片相符程度、服务态度以及发货速度,如下图所示:

image.png

而在实际网购过程中可以发现这三个指标并不能让消费者对于物品的进行准确评价,消费者往往需要额外进行大片文字的叙述来评价商品以及服务。

故此,本文根据消费者评论文字中经常出现的关键词新增了评价指标,选择了商品属性,卖家服务以及物流服务作为相应准则层,具体的指标体系如下:

image.png

数据集搜集及预处理

本文以日常生活使用较多的淘宝网为例,按照指标体系中所列指标进行数据获取,其中与图片相符程度,服务态度以及发货速度三个指标在淘宝网上能够直接获取,其他指标由于淘宝网上没有直接数据,故选择了朋友购买过的淘宝服装店铺,针对其他指标给出自己的评分,将所有指标的评分原始数据汇总查看文末了解数据免费获取方式,计算平均值,所得数据汇总如下:

image.png

点击标题查阅往期内容


R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化


01

02

03

04


实验过程(关键参数设置)


一次聚类算法是一种无监督的层次聚类算法,需要事先给定层次聚类数C。

% 计算样本点距离聚类中心的距离
% 输入:
%   center     ---- 聚类中心
%   data       ---- 样本点
% 输出:
%   out        ---- 距离
out = zeros(size(center, 1), size(data, 1)); 
for k = 1:size(center, 1), % 对每一个聚类中心
f = U.^expo;       % 隶属度矩阵进行指数运算结果
dist = distfcm(center, data);       % 计算距离矩阵
%将options 中的分量分别赋值给四个变量; 
expo = options(1);          % 隶属度矩阵U的指数
max_iter = options(2);  % 最大迭代次数
min_impro = options(3);  % 隶属度最小变化量,迭代终止条件
display = options(4);  % 每次迭代是否输出信息标志
objfcn = zeros(max_iter, 1); % 初始化输出参数obj_fcn

由于数据集各指标值的量纲相同,因此不需要对相关指标值进行标准化处理,得到如图所示的结果

相应的聚类图如图所示:

plot(data(:,1), data(:,2),'o'); 
       hold on; 
       maxU = max(U); 
       index1 = find(U(1,:) == maxU); 
       index2 = find(U(2,:) == maxU); 
       line(data(index1,1),data(index1,2),'marker','*','color','g'); 
       line(data(index2,1),data(index2,2),'marker','*','color','r'); 
       plot([center([1 2],1)],[center([1 2],2)],'*','color','k')

image.png

image.png

结果分析

对于现有指标体系,增加了新的指标如:售后服务,送货速度,包装完整度等,使得指标体系更完全,通过淘宝卖家的指标数据的处理,得出最终的信用综合评分,由排名可以看见第四家得分最高,而第四家由于其商品质量高,价格却很便宜,在服务态度以及物流服务方面都深得买家的喜欢,排名最低的第一家买家其销量非常高,但是由于商品质量不过关,使得商品的质量与其价格不对称,而且卖家售后服务态度恶劣,由此可以看出淘宝现有的信用评价体系能够给买家提供一定的参考,但是如果能够增加一些指标,将会对买家起到更好的参考作用。


总结


本文总结了简单介绍了层次聚类算法国内外研究现状,重点介绍了层次聚类算法的基本原理与实现流程。同时,针对 C2C 电子商务中所出现的信用风险问题,提出使用信用评价体系来降低信用风险。并简述了国内外在信用评价方面的研究现状。基于现有的评价指标体系,添加新指标,给出了更为全面完善的指标体系。以淘宝网为例,采集数据,应用层次聚类对店铺进行聚类分析。对比最终结果和实际购买体验,证明了淘宝现有信用评价模型对于消费者选择卖家时有一定的指导意义,但是体系有明显提升空间。


参考文献


[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明,范宏建等译.数据挖掘导论[M].北京:人民邮电出版社,2006.

[2]J.Han,M.Kamber著.范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001:1~262.

[3] 张鑫.层次聚类算法的研究与应用[D]:[硕士学位论文].江西:江西理工大学,2008.

[4] 段明秀.层次聚类算法的研究及应用[D]:[硕士学位论文].长沙:中南大学,2009.

[5] 杨海斌.一种新的层次聚类算法的研究及应用[D]:[硕士学位论文].甘肃:西北师范大学,2011.

[6] 马晓艳,唐雁.层次聚类算法研究[J].计算机科学,2008,34(7):34~36.

[7] 魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22~24.

[8] 蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293~296.

相关文章
空心电抗器的matlab建模与性能仿真分析
空心电抗器是一种无铁芯的电感元件,通过多层并联导线绕制而成。其主要作用是限制电流、滤波、吸收谐波和提高功率因数。电抗器的损耗包括涡流损耗、电阻损耗和环流损耗。涡流损耗由交变磁场引起,电阻损耗与电抗器半径有关,环流损耗与各层电流相关。系统仿真使用MATLAB2022a进行。
|
1天前
|
编解码 算法 数据安全/隐私保护
基于BP译码的LDPC误码率matlab仿真,分析不同码长,码率,迭代次数以及信道类型对译码性能的影响
本内容介绍基于MATLAB 2022a的低密度奇偶校验码(LDPC)仿真,展示了完整的无水印仿真结果。LDPC是一种逼近香农限的信道编码技术,广泛应用于现代通信系统。BP译码算法通过Tanner图上的消息传递实现高效译码。仿真程序涵盖了不同Eb/N0下的误码率计算,并分析了码长、码率、迭代次数和信道类型对译码性能的影响。核心代码实现了LDPC编码、BPSK调制、高斯信道传输及BP译码过程,最终绘制误码率曲线并保存数据。 字符数:239
28 5
|
8天前
|
算法
基于Adaboost模型的数据预测和分类matlab仿真
AdaBoost(Adaptive Boosting)是一种由Yoav Freund和Robert Schapire于1995年提出的集成学习方法,旨在通过迭代训练多个弱分类器并赋予分类效果好的弱分类器更高权重,最终构建一个强分类器。该方法通过逐步调整样本权重,使算法更关注前一轮中被误分类的样本,从而逐步优化模型。示例代码在MATLAB 2022A版本中运行,展示了随着弱分类器数量增加,分类错误率的变化及测试数据的分类结果。
|
1月前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
22天前
|
算法 数据安全/隐私保护
数字通信中不同信道类型对通信系统性能影响matlab仿真分析,对比AWGN,BEC,BSC以及多径信道
本项目展示了数字通信系统中几种典型信道模型(AWGN、BEC、BSC及多径信道)的算法实现与分析。使用Matlab2022a开发,提供无水印运行效果预览图、部分核心代码及完整版带中文注释的源码和操作视频。通过数学公式深入解析各信道特性及其对系统性能的影响。
|
2月前
|
编解码 算法 数据安全/隐私保护
基于BP译码的LDPC误码率matlab仿真,分析码长,码率,信道对译码性能的影响,对比卷积码,turbo码以及BCH码
本程序系统基于BP译码的LDPC误码率MATLAB仿真,分析不同码长、码率、信道对译码性能的影响,并与卷积码、Turbo码及BCH编译码进行对比。升级版增加了更多码长、码率和信道的测试,展示了LDPC码的优越性能。LDPC码由Gallager在1963年提出,具有低复杂度、可并行译码等优点,近年来成为信道编码研究的热点。程序在MATLAB 2022a上运行,仿真结果无水印。
62 0
|
4月前
|
安全
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
本文介绍了2023年高教社杯数学建模竞赛D题的圈养湖羊空间利用率问题,包括问题分析、数学模型建立和MATLAB代码实现,旨在优化养殖场的生产计划和空间利用效率。
226 6
【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码
|
4月前
|
存储 算法 搜索推荐
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
本文提供了2022年华为杯数学建模竞赛B题的详细方案和MATLAB代码实现,包括方形件组批优化问题和排样优化问题,以及相关数学模型的建立和求解方法。
142 3
【2022年华为杯数学建模】B题 方形件组批优化问题 方案及MATLAB代码实现
|
4月前
|
数据采集 存储 移动开发
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
本文介绍了2023年五一杯数学建模竞赛B题的解题方法,详细阐述了如何通过数学建模和MATLAB编程来分析快递需求、预测运输数量、优化运输成本,并估计固定和非固定需求,提供了完整的建模方案和代码实现。
111 0
【2023五一杯数学建模】 B题 快递需求分析问题 建模方案及MATLAB实现代码
|
7月前
|
数据安全/隐私保护
耐震时程曲线,matlab代码,自定义反应谱与地震波,优化源代码,地震波耐震时程曲线
地震波格式转换、时程转换、峰值调整、规范反应谱、计算反应谱、计算持时、生成人工波、时频域转换、数据滤波、基线校正、Arias截波、傅里叶变换、耐震时程曲线、脉冲波合成与提取、三联反应谱、地震动参数、延性反应谱、地震波缩尺、功率谱密度

热门文章

最新文章