MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据|数据分享

简介: MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据|数据分享

全文链接:http://tecdat.cn/?p=32794


近年来电子商务发展迅速,随之而来的信用问题给消费者带来诸多困扰,造成电子商务网上各种交易问题产生的原因是多方面的,但总的来说是缺乏有效的信用评价体系点击文末“阅读原文”获取完整代码数据


目前各电子商务网站虽然都建立了信用评价体系,但是各网站提出的信用评价系统、流程以及指标体系大体相同并已经使用多年,并没有根据电子商务的现实发展而进行创新优化,也没有根据评价用户实际需求进行更精准的设计。

本文以淘宝网为例,帮助客户改进了指标体系,并通过模糊C均值聚类对卖家基于新的指标体系进行信用分类。

聚类算法是一种常用的数据分析和模式识别方法,用于将数据集划分为若干个相似的子集,每个子集称为一个簇。模糊聚类算法是一种基于模糊理论的聚类方法,具有较好的鲁棒性和灵活性,因此在许多领域得到了广泛的应用。


传统的模糊C均值聚类算法

模糊C均值聚类算法是最早和最常用的模糊聚类算法之一。该算法通过最小化目标函数来确定数据集中每个样本的隶属度和聚类中心,从而实现聚类分析。然而,传统的模糊C均值聚类算法存在收敛速度慢、对初始聚类中心敏感等问题。

改进的模糊聚类算法

为了克服传统模糊C均值聚类算法的不足,研究者们提出了许多改进的模糊聚类算法。例如,基于遗传算法的模糊聚类算法、基于粒子群优化的模糊聚类算法等。这些改进算法在收敛速度、聚类效果等方面都有所提升。

基于模糊聚类的其他应用领域

除了在数据分析和模式识别领域,模糊聚类算法还被广泛应用于其他领域。例如,在图像分割、模式识别、生物信息学等领域都有模糊聚类算法的应用。这些应用领域的研究为模糊聚类算法的发展提供了新的方向和挑战。

图描述了一个凝聚模糊聚类方法AGENES和一个分裂模糊聚类方法DIANA在一个包括五个对象的数据的集合{a,b,c,d,e}上的处理的过程。初始时,AGENES将每个样本点自为一簇,之后这样的簇依照某一种准则逐渐合并,例如,例如簇C1中的某个样本点和簇C2中的一个样本点相隔的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为簇C1和簇C2是相似可合并的。

image.png

点击标题查阅往期内容


SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据


01

02

03

04


结果分析


C2C电子商务信用评价模型的基本原理是:确认收货之后,买方可以根据模型内的评价指标,如商品质量,物流速度,售后服务等方面,在一定时间内,根据自身交易完成情况为卖家评价,也可以双方互评以形成信用记录。交易双方的信用反馈都会按模型设定的计算方式累计,以反映该用户的信用状况,以便其他交易方做选择时参考。

目前淘宝网所采用的信用评价模型是累加模型,即原有的信用积分基础上直接进行加减,其模型表示如下:

image.png

其中:Rn、Rn-1分别表示淘宝用户截止到第 n、n-1 次交易之后所获得的信用得分,rn{-1,0,1}表示{差评,中评,好评},即当 rn获得“差评”时在原来信用积分的基础上加上“-1”分,用户获得中评时,就在原来信用积分的基础上加“0”分,当用户获得好评时,在原来信用积分的基础上加“+1”分。累加模型能够简单直观的展现交易双方的信用积分,一定程度上可作为交易双方的信用参考。


平台


MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。


构建指标体系


由于本文主要是基于 C2C 电子商务交易过程中的信用问题,从交易主体的角度来对 C2C 电子商务信用风险进行评价,目前淘宝网的信用评价指标体系主要由三个指标构成,分别是:与图片相符程度、服务态度以及发货速度,如下图所示:

image.png

而在实际网购过程中可以发现这三个指标并不能让消费者对于物品的进行准确评价,消费者往往需要额外进行大片文字的叙述来评价商品以及服务。

故此,本文根据消费者评论文字中经常出现的关键词新增了评价指标,选择了商品属性,卖家服务以及物流服务作为相应准则层,具体的指标体系如下:

image.png

数据集搜集及预处理

本文以日常生活使用较多的淘宝网为例,按照指标体系中所列指标进行数据获取,其中与图片相符程度,服务态度以及发货速度三个指标在淘宝网上能够直接获取,其他指标由于淘宝网上没有直接数据,故选择了朋友购买过的淘宝服装店铺,针对其他指标给出自己的评分,将所有指标的评分原始数据汇总查看文末了解数据免费获取方式,计算平均值,所得数据汇总如下:

image.png

点击标题查阅往期内容


R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化


01

02

03

04


实验过程(关键参数设置)


一次聚类算法是一种无监督的层次聚类算法,需要事先给定层次聚类数C。

% 计算样本点距离聚类中心的距离
% 输入:
%   center     ---- 聚类中心
%   data       ---- 样本点
% 输出:
%   out        ---- 距离
out = zeros(size(center, 1), size(data, 1)); 
for k = 1:size(center, 1), % 对每一个聚类中心
f = U.^expo;       % 隶属度矩阵进行指数运算结果
dist = distfcm(center, data);       % 计算距离矩阵
%将options 中的分量分别赋值给四个变量; 
expo = options(1);          % 隶属度矩阵U的指数
max_iter = options(2);  % 最大迭代次数
min_impro = options(3);  % 隶属度最小变化量,迭代终止条件
display = options(4);  % 每次迭代是否输出信息标志
objfcn = zeros(max_iter, 1); % 初始化输出参数obj_fcn

由于数据集各指标值的量纲相同,因此不需要对相关指标值进行标准化处理,得到如图所示的结果

相应的聚类图如图所示:

plot(data(:,1), data(:,2),'o'); 
       hold on; 
       maxU = max(U); 
       index1 = find(U(1,:) == maxU); 
       index2 = find(U(2,:) == maxU); 
       line(data(index1,1),data(index1,2),'marker','*','color','g'); 
       line(data(index2,1),data(index2,2),'marker','*','color','r'); 
       plot([center([1 2],1)],[center([1 2],2)],'*','color','k')

image.png

image.png

结果分析

对于现有指标体系,增加了新的指标如:售后服务,送货速度,包装完整度等,使得指标体系更完全,通过淘宝卖家的指标数据的处理,得出最终的信用综合评分,由排名可以看见第四家得分最高,而第四家由于其商品质量高,价格却很便宜,在服务态度以及物流服务方面都深得买家的喜欢,排名最低的第一家买家其销量非常高,但是由于商品质量不过关,使得商品的质量与其价格不对称,而且卖家售后服务态度恶劣,由此可以看出淘宝现有的信用评价体系能够给买家提供一定的参考,但是如果能够增加一些指标,将会对买家起到更好的参考作用。


总结


本文总结了简单介绍了层次聚类算法国内外研究现状,重点介绍了层次聚类算法的基本原理与实现流程。同时,针对 C2C 电子商务中所出现的信用风险问题,提出使用信用评价体系来降低信用风险。并简述了国内外在信用评价方面的研究现状。基于现有的评价指标体系,添加新指标,给出了更为全面完善的指标体系。以淘宝网为例,采集数据,应用层次聚类对店铺进行聚类分析。对比最终结果和实际购买体验,证明了淘宝现有信用评价模型对于消费者选择卖家时有一定的指导意义,但是体系有明显提升空间。


参考文献


[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明,范宏建等译.数据挖掘导论[M].北京:人民邮电出版社,2006.

[2]J.Han,M.Kamber著.范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001:1~262.

[3] 张鑫.层次聚类算法的研究与应用[D]:[硕士学位论文].江西:江西理工大学,2008.

[4] 段明秀.层次聚类算法的研究及应用[D]:[硕士学位论文].长沙:中南大学,2009.

[5] 杨海斌.一种新的层次聚类算法的研究及应用[D]:[硕士学位论文].甘肃:西北师范大学,2011.

[6] 马晓艳,唐雁.层次聚类算法研究[J].计算机科学,2008,34(7):34~36.

[7] 魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22~24.

[8] 蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293~296.

相关文章
|
13天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
1月前
|
算法 数据挖掘
基于粒子群优化算法的图象聚类识别matlab仿真
该程序基于粒子群优化(PSO)算法实现图像聚类识别,能识别0~9的数字图片。在MATLAB2017B环境下运行,通过特征提取、PSO优化找到最佳聚类中心,提高识别准确性。PSO模拟鸟群捕食行为,通过粒子间的协作优化搜索过程。程序包括图片读取、特征提取、聚类分析及结果展示等步骤,实现了高效的图像识别。
|
1月前
|
编解码 算法 数据安全/隐私保护
基于BP译码的LDPC误码率matlab仿真,分析码长,码率,信道对译码性能的影响,对比卷积码,turbo码以及BCH码
本程序系统基于BP译码的LDPC误码率MATLAB仿真,分析不同码长、码率、信道对译码性能的影响,并与卷积码、Turbo码及BCH编译码进行对比。升级版增加了更多码长、码率和信道的测试,展示了LDPC码的优越性能。LDPC码由Gallager在1963年提出,具有低复杂度、可并行译码等优点,近年来成为信道编码研究的热点。程序在MATLAB 2022a上运行,仿真结果无水印。
57 0
|
2月前
|
算法 数据可视化
基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真
奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。
125 19
|
3月前
|
算法 Perl
【光波电子学】基于MATLAB的多模光纤模场分布的仿真分析
本文介绍了基于MATLAB的多模光纤模场分布仿真分析,详细阐述了多模光纤的概念、实现方法、仿真技术,并利用模式耦合方程分析方法,通过理论和仿真模型设计,展示了不同模式下的光场分布及其受光纤参数影响的分析结果。
90 4
【光波电子学】基于MATLAB的多模光纤模场分布的仿真分析
|
2月前
|
算法 数据挖掘 vr&ar
基于ESTAR指数平滑转换自回归模型的CPI数据统计分析matlab仿真
该程序基于ESTAR指数平滑转换自回归模型,对CPI数据进行统计分析与MATLAB仿真,主要利用M-ESTAR模型计算WNL值、P值、Q值及12阶ARCH值。ESTAR模型结合指数平滑与状态转换自回归,适用于处理经济数据中的非线性趋势变化。在MATLAB 2022a版本中运行并通过ADF检验验证模型的平稳性,适用于复杂的高阶自回归模型。
|
3月前
|
算法 测试技术 SoC
基于直流潮流的IEEE30电力系统停电分布及自组织临界性分析matlab仿真
本研究提出一种基于直流潮流的算法来分析电力系统的停电分布及自组织临界性。算法迭代更新参数并模拟线路随机断开,运用粒子群优化计算关键值,并评估线路接近容量极限的概率。通过改变参数β和μ,分析不同线路可靠性和容量增加方式下的停电分布,并探索系统趋向临界状态的过程及停电概率分布。该方法基于IEEE30测试系统,利用MATLAB2022a实现,简化处理有功功率流动,适用于评估电力系统稳定性及预防大规模停电事故。
|
4月前
|
机器学习/深度学习 算法 数据挖掘
基于改进K-means的网络数据聚类算法matlab仿真
**摘要:** K-means聚类算法分析,利用MATLAB2022a进行实现。算法基于最小化误差平方和,优点在于简单快速,适合大数据集,但易受初始值影响。文中探讨了该依赖性并通过实验展示了随机初始值对结果的敏感性。针对传统算法的局限,提出改进版解决孤点影响和K值选择问题。代码中遍历不同K值,计算距离代价,寻找最优聚类数。最终应用改进后的K-means进行聚类分析。
|
3月前
|
算法
蜂窝网络下行链路的覆盖率和速率性能matlab仿真分析
此程序在MATLAB2022a环境下运行,基于随机几何模型评估蜂窝网络的下行链路覆盖率和速率性能。通过模拟不同场景下的基站(BS)配置与噪声情况,计算并绘制了各种条件下的信号干扰加噪声比(SINR)阈值与覆盖率概率的关系图。结果显示,在考虑噪声和不同基站分布模型时,覆盖率有显著差异,提出的随机模型相较于传统网格模型更为保守但也更加贴合实际基站的分布情况。
|
3月前
|
算法
基于matlab的风力发电系统建模与详细性能仿真分析
本研究介绍风力发电原理与系统模型,使用MATLAB 2022a进行性能仿真。风力通过风轮转化为电能,涉及贝努利定理及叶素理论。仿真展示了风速与输出功率间的关系,包括风电利用系数、切入切出控制与MPPT控制效果。当风速超过25m/s时,系统自动停机保护设备。MPPT算法确保了在变化风速下获得最大功率。

热门文章

最新文章

下一篇
无影云桌面