在本届 IJCAI 上,阿里巴巴不仅有多篇论文入选,还以研讨会、交流、展览等形式全面展示了自己的 AI 实力。其中不仅有面向文娱的 AI 技术,也有近期广受好评的智能打假应用。
8 月 13 日晚,阿里大文娱与阿里安全还在 IJCAI 大会期间共同举办了一场「阿里之夜」,邀请来自阿里巴巴的技术专家以及学界著名教授朱军等人,一同进行了技术交流与分享。而阿里文娱摩酷实验室的负责人王晓博则向我们首次介绍了阿里旗下两大 AI 实验室的研究与近况。
发展面向文娱的 AI 技术:阿里文娱摩酷实验室
在位于威尼斯人酒店的 IJCAI 2019 阿里巴巴展台中,我们可以看到由阿里文娱摩酷实验室研发的北斗星智库。北斗星是泛内容的 AI 平台,依托 AI+大数据能力,对泛内容进行全维解构分析,在内容的投资、制作、运营、营销的全生命周期中,给予 AI+大数据的辅助决策参考。在本次 IJCAI 的 Demo 中,观众可以体验北斗星是如何从创作、运营、宣推各个阶段输出决策建议,并提供相关的数据分析。
现场 Demo 展示了人工智能对热播电视剧《长安十二时辰》中演员镜头与观看热度的分析。
除此之外,阿里文娱摩酷实验室这次还展示了智能对话式视频搜索 DEMO,这是阿里在智能终端上部署的基于多轮对话的视频搜索服务。它通过语音识别(ASR)、语义理解(NLU)和多轮对话管理(DM)等技术,在与用户交互的过程中,可根据检索结果自动生成用户友好的交互内容,并利用语音合成模块(TTS)朗读给用户,实现舒畅的交互体验。
阿里智能对话式视频搜索系统。
智能对话式视频搜索的重要特点,是将视频知识图谱和多模态的视频内容理解技术与智能对话系统结合起来,阿里的视频知识图谱实现了剧情/场景,角色/主演等关系的推理学习,以及对视频中人物/动作/场景的多层级对象的识别,满足用户对视频内容多维度的检索需求。如『我想看黄晓明老婆主演的都市电影』以及『我想看易烊千玺跳地板舞的视频』等。
据阿里文娱摩酷实验室负责人王晓博介绍,摩酷实验室是阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。
「视频生产的整个周期,从 IP 评估、剧本创作,再到拍摄和视频内容分发过程都应用了大量人工智能算法技术,」王晓博介绍道。「摩酷实验室将打造视频内容一站式解决方案,以技术赋能视频行业上下游,同时积极探索行业新赛道,实现科技与艺术的深度结合。」
阿里文娱摩酷实验室背靠阿里巴巴,联合达摩院,面向阿里希望大力开拓的文娱场景,致力于探索「AI 如何给用户带去更多的快乐」这一重要命题。在国内外众多基础 AI 研究机构面临转型的当下,摩酷实验室代表着阿里思维的转化:今天的阿里达摩院不仅在思考前沿科技,也在更多地思考如何让新技术落地这个问题了。
「现在,工业界和学术界的结合非常紧密,近年来淘宝 APP 的全面个性化就是其中的典范案例,而这一过程要依赖面向数据化驱动的产品设计理念,这会面临来自商家、用户、平台多方的挑战。」王晓博表示。「企业有更好业务场景的时候,海量用户的数据量会给我们带来很多的机遇和挑战。此前,学术界往往比较关注于新方法、新模型及新问题,而面对线上真实的用户反馈将会是完全不同的情况。」
阿里安全图灵实验室:直面 AI 最大挑战
在文娱之外,安全也是阿里极为重视的研究领域,其风险管理事业群早在 2009 年就已成立。在 IJCAI 2019 上,阿里展示了旗下机器学习研发团队「阿里安全图灵实验室」的最新技术。
阿里安全图灵实验室负责人薛晖曾表示,安全会成为人工智能发展最大的挑战,而阿里提出的安全 AI 在模型韧性、多模态、小样本学习等方面具有更强的攻防属性以及进化能力,会成为网络安全问题的核心解法。在 IJCAI 现场,这一观点也成为多位高校学者、研究人员和企业代表的共识。
阿里安全图灵实验室专门从事安全与风险方面的 AI 系统研发。其研究的核心技术包括计算机视觉、自然语言处理、生物特征识别、图计算以及异常检测和分析等。所研发的 AI 产品包括:
- 每天扫描数十亿文字图片,识别有害信息的「绿网」
- 对假货和侵权商品识别率超过 96% 的「知识产权大脑」
- 服务经济体内 100 余个场景的人脸识别技术
- 利用视觉技术建立的新零售安防系统「天眼」
其中最近被人们广泛关注「知识产权大脑」大放异彩——最近,由网信办、工信部和公安部联合主办的中国人工智能峰会在厦门开幕,曾被商务部发言人点赞的阿里巴巴「知产保护科技大脑」获评「人工智能创新之星」称号。
「知产保护科技大脑」是由阿里近 20 年来积累的海量线上线下假货特征库、打假经验聚合而成的算法技术系统。薛晖表示,这套系统的样本数据总量相当于 186 个中国国家图书馆藏量,仅累积的打假图片样本就超过 137 亿张。
据介绍,仅在过去 3 年中,阿里已使用这套技术协助全国 31 个省份、227 个区县的警方抓获制假售假嫌疑人 4439 人,捣毁制假售假窝点 4289 个。
阿里表示,知产科技大脑已经广泛应用于电商领域,96% 的疑似侵权链接会在发布瞬间即被拦截。目前阿里旗下每万笔订单中疑似假货数量仅为 1.11 笔。
在 IJCAI 大会上,阿里安全举办的研讨会吸引了来自哈佛大学、西交利物浦大学、香港中文大学等全球学者的投稿和分享,内容包括游戏模拟攻击者窃取企业敏感信息、移动支付非法账户识别等各类问题。
为了抵御未来 AI 面临的安全风险,近日阿里安全还宣布与清华大学合作,以对抗样本为核心发起安全 AI 挑战者计划。通过结合内容安全等场景,阿里安全从文字、图像、视频、声音等多个领域针对对抗样本赏金召集「挑战者」,打磨安全的机器学习模型,共同建立安全研究社区。
目前,阿里旗下共设有八大安全实验室。这家公司希望面向其整个经济体建立全面的网络安全、业务安全、数据安全与平台治理的管理机制,并利用大数据构建强大的实时风险防御能力。今天,阿里安全产品涵盖的业务范围既包括最底层的设备层、网关层以及流量层的网络威胁防御,也包括了业务层的安全治理,例如账号安全、假货与欺诈识别、内容合规、数据及信息保护、营商环境治理等等。
这些安全中台能力不仅已经应用在阿里的所有电商场景中,还全面输出给了阿里生态中的跨境公司以及其他合作伙伴。
人工智能技术的发展为安全技术带来了机遇,也带来了挑战。「从这次大会的见闻来看,我们不仅在讨论 AI 解决的问题,也在研究 AI 带来的问题。我们在讨论 AI 带来的偏见,在讨论 AI 对隐私保护的问题。」薛晖表示。「新技术会带来新的问题,我们要正视这些问题。有很多新技术在研发时是出于好意,但其用途会被人们歪曲。除了技术视角之外,我们还要有社会责任的视角。」
阿里的 IJCAI 2019
今年的 IJCAI 2019 大会共收到 4752 篇论文,其中收录 850 篇,接收率为 17.9%。据机器之心了解,阿里在本届会议中共有 11 篇论文入选,其中摩酷实验室就有 5 篇论文被接收,其中包含情感分析、推荐系统等方面的工作:
- Multi-View Multi-Label Learning with View-Specific Information Extraction
- Multi-View Active Learning for Video Recommendation
- Hybrid Item-Item Recommendation via Semi-Parametric Embedding
- Multi-Objective Generalized Linear Bandits
- Knowledge Amalgamation from Heterogeneous Networks by Common Feature Learning
随着人工智能技术不断进入落地阶段,我们正在看到学界开始拥抱业界的前沿研究——最近 KDD2019 大会将论文评选分成了「研究方向」与「应用方向」两个平行赛道就是最好的例子。在阿里举办的 IJCAI 酒会活动中,摩酷实验室负责人王晓博、图灵实验室负责人薛晖也与知名学者们共同对人工智能发展趋势,以及学界和业界的交流与合作进行了一番探讨。
「人工智能领域在近十五年来经历了很大的变化。过去,机器学习研究使用的数据集很小,人们更关注的是算法的精妙。而在今天,数据量的提升正让研究趋势发生改变,」清华大学计算机科学与技术系教授朱军表示。「在业界人们经常会问:新的算法虽然很有前瞻性,但是否真的实用?今天,阿里这样的公司对新方法有了更高的追求。科研机构与公司之间的合作也在增多。公司的资源、需求,也在为研究提出新的课题。人工智能领域的变化是全方位的。」
目前,阿里摩酷实验室和图灵实验室都在招募资深算法工程师,招收范围包括机器学习、自然语言处理、计算机视觉等研究方向的人才。
阿里与清华还联合推出了「安全 AI 挑战者计划」,希望能形成对抗样本社区,点击「阅读原文」了解更多内容。