北京大学王立威教授:高校算法的突破与创新要走在数据前面

简介:

雷锋网AI科技评论按:中国人工智能学会AIDL第二期【人工智能前沿讲习班】日前在北京中科院自动化所举行,本期讲习班的主题为【机器学习前沿】。北京大学教授王立威带来了题为《机器学习理论:回顾与展望》的主题报告,主要对机器学习中关于泛化能力的几个重要理论进行介绍。

北京大学教授王立威博士的主要研究领域集中于机器学习,在包括COLT, NIPS,JMLR, PAMI等权威会议期刊发表论文60余篇。2010年入选AI’s 10 to Watch,是首位获得该奖项的亚洲学者。2012年获得首届国家自然科学基金优秀青年基金,新世纪优秀人才。任NIPS等权威会议Area Chair,和多家学术期刊编委。在主题报告结束后,雷锋网AI科技评论与王教授做了短时间交流。

北京大学王立威教授:高校算法的突破与创新要走在数据前面

1. 您曾经指出,机器学习理论在于理解人工智能的局限性。结合您的研究经历,您认为人工智能现在能做什么?还不能做什么?可能的突破口又在哪里?

我觉得在过去几年,人工智能或者机器学习的发展已经把这个问题很好地展现了。现在做得很好的两个领域主要集中于图像和语音,由于深度神经网络的结构利用了先验知识,自然也非常适用于这两个领域。

当然,产业现在也发展得比较好,所以我认为未来短期内如果会有重大突破的话,更多的是在应用领域,找到和图像和语音相关的比较好的结合点,可能不是偏学术领域,而会是一个是偏商业化的方向。(AI科技评论:更好地产品化。)对,找到一个更好的应用。

2. 目前工业界开始出现与高校合作的趋势,前者提供数据和研发资金,后者提供研发支持,而往往这些研究都是应用导向的。您认为这样的合作会对理论研究产生怎样的影响?

我想举这么一个例子,就是产生很大影响的 AlphaGo。从最终展示出来的成果来看,我们可以认为,AlphaGo 是一个非常成熟的应用系统。而 Alpha Go 从最开始的想法到技术落地,同样很大地推动了学术的前进。比如 DeepMind,不论是从算法和理论上都有突破,这一点研究界也有目共睹。(工业界研究推动学术发展)同样也是很好的一个模式,我认为,将来工业界和高校的合作趋势也可以取得这样的一个成功。

3.现在云计算已经将计算力提升到一个以前不敢想象的高度,甚至已经远远高于样本的获取能力。那么构建样本会成为未来的研究重点吗?

数据其实是一个很大的问题,也牵扯到很多方面。我的一个考虑是,今天应用的比较成功的领域,包括图像和语音方面,实际上这些是属于非专业知识的数据,随便请一个人,一个普通人,就可以对图像或者语音进行标注。这类问题当然也有应用,但有很多相当一大类数据是属于专业数据,比如说医疗数据,这些只能让医生进行标注,它的成本实际上是很高的。

4.  此前与其它老师交流的时候,他们提及高校研究的数据量不够大的问题。那么从您个人的研究经验来看,数据对于算法而言处于怎样的地位?

我认为主要有两个方面。一种是应用,关注的是系统的最终性能,而数据对后者的影响是巨大的。当然高校是完全无法和企业相提并论的。但高校更重要的一个任务是,我能不能去设计新的更好的算法。我们并不是只停留在 Deep Learning 这样的算法上,就像我在演讲中提到的那样,也许两三年后,Deep Learning 也许就不是最好的,这完全有可能。那么这个新的算法该由谁来提供?我想这应该是高校教师的职责,是他的本职工作,researcher 就应该做这样的事情。所以我提出一个新的算法,未必要等到手里有巨大的数据量才开始做研究。

关于王教授及其他教授的主题报告,敬请期待雷锋网(公众号:雷锋网)的后续报道。

本文作者:奕欣

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
20天前
|
存储 人工智能 自然语言处理
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
55 6
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
|
1月前
|
存储 编解码 负载均衡
数据分片算法
【10月更文挑战第25天】不同的数据分片算法适用于不同的应用场景和数据特点,在实际应用中,需要根据具体的业务需求、数据分布情况、系统性能要求等因素综合考虑,选择合适的数据分片算法,以实现数据的高效存储、查询和处理。
|
1月前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
2月前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
36 5
|
1月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
55 0
|
2月前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
2月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
2月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
39 0
|
2月前
|
存储 算法 搜索推荐
算法进阶之路:Python 归并排序深度剖析,让数据排序变得艺术起来!
算法进阶之路:Python 归并排序深度剖析,让数据排序变得艺术起来!
81 0