《中国人工智能学会通讯》——12.59 基于模糊性的半监督学习

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.59节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.59 基于模糊性的半监督学习

假设 A 是一个大数据集,并且 A 中的大部分样例没有类标;B 是 A 中一小部分样例组成的集合,并且 B 中的每个样例都有类标。利用数据集 B 我们可以训练得到分类器,但我们不能保证这样的分类器对 A-B 中的样例有较好的预测结果。基于对数据集 A-B 中的每个样例的预测结果,我们想从 A-B 中挑选出一些样例(连同对这些样例的预测结果)加入到数据集 B 中。再次利用 B 进行训练得到的分类器对于 A-B 中样例的预测精度将会有所提升。此刻需要明确的关键问题是训练得到的分类器应该满足哪些条件和我们应该怎样从 A-B 中挑选样例。理论上讲,训练得到的分类器必须满足训练精度大于0.5。在以下描述的算法 1 中我们将从不确定性的角度讨论选择样例的策略。

算法 1:基于模糊性的样例选择
步骤 1:将数据集 A 随机划分为训练集 B 和测试集 A-B;
步骤 2:基于集合 B 训练得到一个基本的分类器;
步骤 3:对于每个既在训练集又在测试集中的样例,得到基于上述基本分类器的模糊向量输出;
步骤 4:计算每个输出结果的模糊度;
步骤 5:分别基于训练集中的模糊度和测试集中的模糊度对样例进行排序;
步骤 6:基于步骤 5 中的排序结果,将训练集和测试集分别划分成三组,即高模糊度组 G1、中模糊度组 G2和低模糊度组 G3;
步骤 7:G1 组和 G3 组连同它们的预测类标将会被添加到集合 B 中用以进行下一轮训练。

需要特别注意的是为了提高学习性能,我们通常只使用 G3 组,然而在此学习算法中 G3 组和 G1组都被用到了。

我们采集了一个关于中国象棋游戏局面分类(CCGSC)的大数据集,作为示例来说明分类器的训练过程。该数据集所占计算机的存储空间为 1.86GB,包含了 107 条象棋游戏记录,多于 109 条棋局记录。这是一个典型的基于非结构化数据的半监督学习,其中大量的棋局没有类标。为了得到复杂棋局的预测结果,我们需要请教象棋大师,这是一项耗费相当巨大的工作。传统的预测方法是根据棋局预测函数计算出一个数值,然后根据这个数值得到对棋局结果的预测,但是用该方法得到的精度很低。基于 CCGS 分类数据的实验结果表明,基于模糊性的半监督学习算法可以得到很高的预测精度。对不1. 基于模糊性的半监督学习假设 A 是一个大数据集,并且 A 中的大部分样例没有类标;B 是 A 中一小部分样例组成的集合,并且 B 中的每个样例都有类标。利用数据集 B 我们可以训练得到分类器,但我们不能保证这样的分类器对 A-B 中的样例有较好的预测结果。基于对数据集 A-B 中的每个样例的预测结果,我们想从 A-B 中挑选出一些样例(连同对这些样例的预测结果)加入到数据集 B 中。再次利用 B 进行训练得到的分类器对于 A-B 中样例的预测精度将会有所提升。此刻需要明确的关键问题是训练得到的分类器应该满足哪些条件和我们应该怎样从 A-B 中挑选样例。理论上讲,训练得到的分类器必须满足训练精度大于0.5。在以下描述的算法 1 中我们将从不确定性的角度讨论选择样例的策略。确定性的适当处理能够十分显著地提升分类系统的性能,这一事实进一步证明了我们的陈述。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
467 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1543 0
与世界同行 2017中国人工智能大会有感
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
|
人工智能 芯片
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
1566 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
633 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 监控
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
510 0
中国95后流行色是什么?人工智能给出的答案是它
|
机器学习/深度学习 人工智能 自然语言处理
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
453 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
|
机器学习/深度学习 人工智能 自然语言处理
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国