网易有道 CEO 周枫:需求为先的 AI 技术赋能

本文涉及的产品
文本翻译,文本翻译 100万字符
票据凭证识别,票据凭证识别 200次/月
票证核验,票证核验 50次/账号
简介: 机器翻译领域正经历又一次骤雨疾风般的变革。2014 年,Yoshua Bengio 组做出了第一个循环网络编码器-解码器神经机器翻译模型。而后仅 3 个月,基于 LSTM 结构和注意力机制的神经机器翻译系统就达到了可以与统计机器翻译(SMT)媲美的水平。到了 2016 年,谷歌翻译正式将神经机器翻译用于八个英语与其他语言的语言对,让深度学习多了一个影响每个人的接口。

今年,网易有道上线了自主研发的 YNMT,让以中文为中心的、根据中文用户使用习惯定制的神经翻译系统服务于 6 亿有道用户。而最近,有道希望从 AI 服务提供者变成 AI 技术赋能者,「原来我们的技术主要服务于自己的产品,现在我们把技术输出,让更多人享受到这些技术的便利。」网易有道 CEO 周枫说。近日,在网易有道开放日活动上,周枫宣布正式上线 OCR 技术、「中日」、「中韩」语言对神经机器翻译和有道智云平台,智云的上线让更多的第三方开发者和企业能够利用相应技术,有道希望企业用户能够通过平台,以 SDK 或 API 等多种方式将神经机器翻译、OCR 等技术接入自己的应用,满足自己的需求,让技术可以转化成更多实际的产出,服务于更为广阔的用户群体。


周枫先后于清华大学和加州大学伯克利分校取得计算机本科、硕士和博士学位。2005 年,还在博士就读阶段的周枫就负责了网易有道搜索的基础架构搭建。毕业正式加入网易后,周枫先后负责了账号保护器「将军令」、有道词典、有道购物助手(现惠惠购物助手)的开发。其中有道词典利用独创的「网络释义」功能,通过对互联网信息的深度挖掘对单词给出具有时效性的参考释义,获得了广泛好评,现用户量已超过 6 亿。本次活动结束后,机器之心和周枫聊了聊有道神经机器翻译的开发历程,以及深度学习为业界带来了哪些变化。


微信图片_20211129095111.jpg

图:周枫在「网易有道开放日」现场


成立专门团队提前布局


从谷歌发布相关论文、切换系统开始,神经机器翻译「大火」还不到一年,而有道在神经机器翻译领域的部署远早于此。


「2014 年,NMT 达到和 SMT 同样水准,我们开始关注它。2015 年,学术界发表了超过 SMT 的 NMT 系统,我们就成立了专门的团队做这件事。当时并不知道能否做得出来,因为即使做出来效果很好,性能达不到标准也没法上线。但是我们都认同,虽然做这件事有风险,不做风险更大。」周枫说,「我们比较庆幸开始得非常早,因为深度学习尽管从模型角度做了很多简化,但在工程上还是有非常多『坑』需要逐一踩的。神经机器翻译系统我们做了整整两年,处理的数据数量在一亿句以上。而在性能方面,直到今年春节,还有很多问题没有解决,当时翻译一句话还要一秒钟。从原型到上线,我们的模型在速度上优化了 100 倍。」


在部署方面,团队做了很多尝试。最典型的例子是在推理部分(inference)的硬件选择上。「我们分别尝试了 CPU、GPU 与 FPGA,最后选择了 GPU。」周枫介绍道,「GPU 的特点是并发度高,CPU 的特点是单线程能力强。GPU 的优点在于能够同时翻译很多句子,但是用于翻译的推理障碍还是很多。尽管在单位计算量非常小的时候 GPU 有非常明显的优势,但是翻译一个句子计算量很大,会出现数据吞吐量(throughput)很大但是延迟很长的问题。我们的工程师对此做了非常多的优化。我们也研究了 FPGA,判断是 FPGA 低功耗和定制的特点让它更适合无人机等移动场景,在服务器环境下优势不明显且变成较为困难。」


词典与翻译的长期积累和大用户基数也为团队提供了极大的便利。「在训练数据中,来自互联网的爬虫数据占比最多,然而我们通过其他途径采集的针对性数据在作用上可能更为重要。从词典开始的网络释义工作帮了我们很多。我们通过比较深度的挖掘获取了非常多优质的短语语料,这些语料用于翻译系统,对翻译质量的提升有非常大的贡献。同时大量的用户给我们带来了很多及时的反馈,技术团队能够保持一个月更新一个版本的频率来发现问题、解决问题。」


基于用户需求,实现场景优化、新技术引入与新平台开放


从 SMT 时代起,网易有道已经有了很多企业级的应用案例,比如微信、支付宝、搜狗浏览器等巨无霸产品的内置翻译功能都由有道定制提供。从用户真实需求出发,是有道将技术开发与场景结合进行产品开发的关键。


网易有道的神经机器翻译最大特点是具有场景针对性。通过有道词典的十年积累,开发人员发现,中国人使用英语最常见的场景集中在学习、新闻、口语三类,相应地对翻译功能的需求也是如此。因此,在开发神经机器翻译产品的时候,有道从需求出发,充分利用了语言在不同场景下表现特点不同的的性质,为每一个场景「定制」模型。「以新闻场景为例,它的特点是句子比较长,句式比较复杂,经常出现一些新的人名、地名以及经常需要联系上下文。我们针对新闻场景特点采集数据,提高模型训练时新闻数据的配比,同时考虑到句子复杂度的提升,我们也会调节输入的维度、模型的层数与结构、覆盖度惩罚系数等等」,周枫解释道。


作为一个以中文为中心的产品,本次有道神经机器翻译还添加了「中日」和「中韩」两个语言对的支持。「大多数海外的引擎不仅没有对中文和其他小语种的语言对做专门优化,甚至需要通过英文进行转接」,用户得到的中日翻译,可能是从中文到英文、再从英文到日文的「二道翻译」。看到了小语种的需求与机会,有道以日韩两种语言为例,对翻译系统做了相应的改进。「每种小语种翻译的开发都需要解决特定的问题。例如中日韩不同于拉丁语系的一点是需要分词,它们的分词还各有特点。日语还会存在语序与其他语言显著不同的问题,这时候注意力模型的覆盖范围就要做对应的调整了。」针对性地解决了每个语言对的特定问题后,有道的翻译效果提升的很快。网易有道首席科学家段亦涛在活动上展示了网易在「中日」和「中韩」语言对上的机器翻译 BLEU 测评结果,可以看出虽然结果稍逊于中英,但 YNMT 相比于其他产品已经有了质的飞跃。


微信图片_20211129095116.jpg

图:「中日」及「中韩」语言对神经机器翻译结果测评比较


语料不足是开发小语种语言所面临的最大挑战,网易开发团队曾尝试过利用字幕组这类「民间」数据。「但是效果并不好,把数据添加进去模型效果反而会下降。可能原因是它的语言使用场景非常特殊,翻译也极度依赖剧情和上下文,我们还在探索有效利用这类数据的办法。」周枫告诉机器之心。


另一个针对用户需求进行的技术开发是离线功能。「离线的好处有很多,速度快、不费带宽,不用用户花钱。而且很多场景,比如视频中的文字识别,是必须离线处理的。」因此虽然离线的难度很大,有道仍然投入了大量资源去做。段亦涛也介绍了为了离线而对神经机器翻译模型做的优化:「一是通过裁剪减少参数,二是有针对性地根据权重做取舍,三是采用定点化,除此之外还有增加词表矩阵的稀疏性等等。」他开玩笑地说,「负责这方面的工程师都特别穷凶极恶。」


开放 OCR 技术也来自于对用户的观察。网易有道副总裁金磊在活动上介绍,「从我们最大的应用有道词典来看,我们拥有 6.6 亿用户量,每天使用自动翻译技术有 2000 万次,OCR 请求有 470 万次」。网易有道的 OCR 强调对中英混杂文本的识别。「大家对于中文识别的需求实际是对『主要是中文,偶尔有英文』场景的需求,邮件、新闻等等都属于这个类别。」


微信图片_20211129095120.jpg

图: OCR 技术结果测评比较


深度学习带来更广阔的视野


最近,神经机器翻译领域也产生了一系列技术成果,包括 Facebook 基于 CNN 的模型和谷歌完全基于注意力的模型。在周枫看来,学界和工业界的关注点不同,二者在目标上存在很大差异,他说:「在学术界,无论付出多大代价,只要产生改变,哪怕只有 1% 乃至 0.1%,都值得去做。但是对工业界来说,一个达到一定水准的、足够好的架构就可以了。注意力模型(attention)在这一点上特别强大。它在可以接受的复杂度和成本提升条件下让模型效果上了一个巨大的台阶。现在,据我了解,在大规模生产环境下实际应用的机器翻译应该都是基于注意力架构的。注意力之后的学术界成果都是在某一个特定角度做提升,而且提升往往需要付出特别大的代价。把模型变成可用的产品的过程本身有非常大的复杂度,我们暂时还没有看到足以推翻现有系统的新模型。」


他认为,深度学习最大的贡献是让系统变简单,让工程人员的经验拥有更广的使用范围。「以 TTS(文字转语音)为例,原来做这件事要读拳头厚的一本书,系统涉及十几个模块,每个模块完成特定任务,所以每个模块一章,章和章之间没有任何关系。深度学习来了之后你可以看到学术界逐渐改变它的过程。首先是每个模块的内部都变成一个深度学习模型,虽然模块数量没变,但是模块间的相似性带来了简化。紧接着又出现了论文,把模块的数量从 10 个减少到 5 个。这些简化不光具有学术意义,把事情变简单后,开发人员的经验适用范围也就变的更广了。比如现在翻译团队就有一部分工程师在研究语音模型,语音和他过去的工程经验毫无关联,然而在深度学习的背景下,他可以探索的范围变得非常广阔。」微信图片_20211129092521.png

相关文章
|
11天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
61 9
|
9天前
|
人工智能 搜索推荐 安全
AI技术在医疗领域的应用与挑战
【10月更文挑战第27天】 本文探讨了人工智能(AI)在医疗领域的应用,包括疾病诊断、药物研发和患者管理等方面。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题和技术局限性等。通过对这些方面的深入分析,我们可以更好地理解AI在医疗领域的潜力和发展方向。
111 59
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
45 11
|
3天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
27 4
|
3天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
7天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
6天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
6天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
8天前
|
人工智能 运维 数据挖掘
跨界融合:AI与5G技术如何共同推动数字化转型
【10月更文挑战第29天】本文探讨了人工智能(AI)与第五代移动通信技术(5G)的结合如何推动数字化转型。通过高速、低延迟的5G网络和AI的数据分析能力,两者相辅相成,实现了智能化网络运维、增强网络功能和多行业的实际应用。文中提供了网络流量预测和故障预测的示例代码,展示了技术的实际应用潜力。
23 1
下一篇
无影云桌面