《中国人工智能学会通讯》——9.5 领域相关噪音正则

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第9章,第9.5节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

9.5 领域相关噪音正则

个人看来,误差建模未来最有希望的研究方向,可能正是在于考虑特定领域先验的噪音正则建模研究,其研究成果也有望进一步有力发掘机器学习方法所蕴含的潜能。形成这一看法本质的原因,是我们越来越多的发现现实数据中混有的所谓“噪音”,事实上往往具有非常丰富的结构信息和深刻的物理内涵。以两种图像数据为例:对 CT 图像,其噪音的形成经过了射线源投射、投影接收、成像、重构等复杂过程,每个阶段都会带来具有特定物理意义的噪音信息,从而最终体现为 CT 图像本身的噪音;对含雨图像,雨水滴落形成的噪音形态不仅具有条状连续等常规先验性质,且具有将背景变亮、整体方向一致等特别的物理特点。因此,摒弃传统的简单误差函数设置,而去更深刻考虑噪音的领域结构特点,并将其编码并嵌入到机器学习模型中对误差函数进行自适应调整和学习,也许更可能克服机器学习针对特定应用的鲁棒性问题,帮助其获得更加稳健的表现。

在我们所处的“大数据”时代,考虑领域先验对噪音进行细致建模的问题,可能变得尤为必要。一方面,大数据强调的重点也许并不仅在于其“大”,而更可能在于其“脏”。换句话说,由于数据来源的多样性,数据采集质量的良莠差异,数据特征与模态的复杂性等原因,大规模数据中蕴含的有益知识和信息,往往淹没于巨大而复杂的噪音干扰之中,从而导致传统算法很难有效从中提取信息。因此,取代于传统假设简单噪音的误差设置这把粗暴的大砍刀,通过更加细致、准确、有针对性地对数据噪音进行理解和认识,误差建模原理也许可以成为一把能够对领域噪音进行细致编码的雕刻刀,精细地剥去附着于数据之上的噪音,帮助机器学习实现更鲁棒的学习效果。

另一方面,也是极其重要的一个方面,即大数据可能会使对随机性噪音统计特征的估计更为稳健和有效。可以说,相比机器学习模型中对应数据确定性信息的模型参数,其对随机性信息相应参数(即噪音分布参数)进行估计的稳定性可能更加依赖于数据量的大小。大数据的“大”,也许可以很好地辅助误差建模方法找到其“脏”的本质统计规律,让数据帮助机器学习模型获得合理的误差函数形式,使其获得能够自适应于各种数据噪音的鲁棒计算。

综上所述,我们试图传达这样的观点:机器学习研究也许并不仅仅局限于确定性信息的建模问题,在未来的研究中,我们也许也应当聚焦于如何对随机性噪音信息进行更加充分合理的利用。针对这一问题,以上所介绍的误差建模原理提供了一种可行的实现手段,我们也期待该原理能够在未来引导出更多有趣的应用与发现。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
501 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
2049 0
与世界同行 2017中国人工智能大会有感
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
1794 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
788 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 监控
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
525 0
中国95后流行色是什么?人工智能给出的答案是它
|
机器学习/深度学习 人工智能 自然语言处理
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
544 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
|
机器学习/深度学习 人工智能 自然语言处理
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
|
人工智能 芯片
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句