1 题目
丝绸之路是古代中西方文化交流的通道,其中玻璃是早期贸易往来的宝贵物证。早期的玻璃在西亚和埃及地区常被制作成珠形饰品传入我国,我国古代玻璃吸收其技术后在本土就地取材制作,因此与外来的玻璃制品外观相似,但化学成分却不相同。
玻璃的主要原料是石英砂,主要化学成分是二氧化硅(SiO2)。由于纯石英砂的熔点较高, 为了降低熔化温度,在炼制时需要添加助熔剂。古代常用的助熔剂有草木灰、天然泡碱、硝石和铅矿石等,并添加石灰石作为稳定剂,石灰石煅烧以后转化为氧化钙(CaO)。添加的助熔剂不同,其主要化学成分也不同。例如,铅钡玻璃在烧制过程中加入铅矿石作为助熔剂,其氧化铅(PbO)、氧化钡(BaO)的含量较高,通常被认为是我国自己发明的玻璃品种,楚文化的玻璃就是以铅钡玻璃为主。钾玻璃是以含钾量高的物质如草木灰作为助熔剂烧制而成的,主要流行于我国岭南以及东南亚和印度等区域。
古代玻璃极易受埋藏环境的影响而风化。在风化过程中,内部元素与环境元素进行大量交换,导致其成分比例发生变化,从而影响对其类别的正确判断。如图 1 的文物标记为表面无风
化,表面能明显看出文物的颜色、纹饰,但不排除局部有较浅的风化;图 2 的文物标记为表面风化,表面大面积灰黄色区域为风化层,是明显风化区域,紫色部分是一般风化表面。在部分风化的文物中,其表面也有未风化的区域。
图 1 未风化的蜻蜓眼玻璃珠样品 图 2 风化的玻璃棋子样品
现有一批我国古代玻璃制品的相关数据,考古工作者依据这些文物样品的化学成分和其他检测手段已将其分为高钾玻璃和铅钡玻璃两种类型。附件表单 1 给出了这些文物的分类信息,
附件表单 2 给出了相应的主要成分所占比例(空白处表示未检测到该成分)。这些数据的特点是成分性,即各成分比例的累加和应为 100%,但因检测手段等原因可能导致其成分比例的累加和非 100%的情况。本题中将成分比例累加和介于 85%~105%之间的数据视为有效数据。
请你们团队依据附件中的相关数据进行分析建模,解决以下问题:
问题 1
对这些玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析;结合玻璃的类型,分析文物样品表面有无风化化学成分含量的统计规律,并根据风化点检测数据,预测其风化前的化学成分含量。
问题 2
依据附件数据分析高钾玻璃、铅钡玻璃的分类规律;对于每个类别选择合适的化
学成分对其进行亚类划分,给出具体的划分方法及划分结果,并对分类结果的合理性和敏感性进行分析。
问题 3
对附件表单 3 中未知类别玻璃文物的化学成分进行分析,鉴别其所属类型,并对
分类结果的敏感性进行分析。
问题 4
针对不同类别的玻璃文物样品,分析其化学成分之间的关联关系,并比较不同类别之间的化学成分关联关系的差异性。
附件
表单 1 玻璃文物的基本信息
表单 2 已分类玻璃文物的化学成分比例,其中
(1)文物采样点为该编号文物表面某部位的随机采样,其风化属性与附件表单 1 中相应文物一致。
(2)部位 1 和部位 2 是文物造型上不同的两个部位,其成分与含量可能存在差异。
(3)未风化点是风化文物表面未风化区域内的点。
(4)严重风化点取自风化层。
表单 3 未分类玻璃文物的化学成分比例
2 摘要及截图
当下,随着现代考古技术的发展、理化分析水平的显著提升,相关领域对古代玻璃制品的主要化学组成成分的研究有了极大的进步。针对古代玻璃制品分类特征信息、化学组成成分之间的关系及其统计学规律等问题进行了探讨,建立了对应分析、Kmeans++ 聚类、随机森林等模型,解决了古代玻璃制品的分类、鉴别及其化学组成成分间的相关 关系分析等问题。
针对问题一, 依据表单 1、2 给出的数据进行预处理,结合玻璃文物分类特征信息 及对应的频数,建立了对应分析模型,总结了文物的表面风化与其玻璃类型、纹饰和颜 色的相关关系。进而又通过对表单数据的运算处理,得到了文物样品表面有无风化与其 组成成分含量的统计规律。最后,根据风化点的检测数据,本文利用多元线性回归模型 预测得出了相应的风化前的化学成分含量。
针对问题二, 首先依据预处理后的数据进行统计分析,总结得出了高钾玻璃、铅钡玻璃的分类规律。之后,建立了 Kmeans++聚类模型,并对其聚类数 K 的取值做了分析,得到两种类型的玻璃样本聚类时,K 值都取 3,即在两个类别的玻璃制品之下,又各自分出三个亚类,进而又分析了三个亚类之中各个特征的差异性,验证了肺类的合理性。
针对问题三, 运用了随机森林模型,随机划分 80%的数据作为训练集,20%的数据 作为测试集,进行求解。最终的鉴别结果分别为:高钾玻璃、铅钡玻璃、铅钡玻璃、铅钡玻璃、铅钡玻璃、高钾玻璃、高钾玻璃、铅钡玻璃。之后,选取了两个最大深度为 5 的决策树,对表单三的八件玻璃制品进行鉴别,求解结果与上述结果相同,验证了模型的准确度与敏感性。
针对问题四, 首先验证了两种玻璃类别其化学成分之间的关联关系近似呈线性相关,进而建立了皮尔逊相关系数分析模型,并通过对不同类别之间的化学成分关联关系进行比较,探究了其差异性。分析得出,铅钡玻璃制品在风化后的化学成分关联关系较强,而高钾玻璃制品在风化后的化学成分关联关系相对减弱。
关键词: 对应分析;多元线性回归;Kmeans++聚类;随机森林;皮尔逊相关系数
3 文章及代码下载方式
方法一:https://www.betterbench.top/#/20/detail
方法二:在Github搜BetterBench-Shop,在此页面中ctrl+F查找“高教社杯”即可找到
若下载不成功,私信我,将文章链接发给我