怎么把AI变成生产力?钉钉:这题我会

简介: 对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。

「xx,今天开会你来做一下会议记录。」

听到这句话,瞬间精神了有没有?

对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。 马上就 2022 了,为什么我们还在这种简单的事情上耽误时间?让 AI 帮忙记录不香吗? 答案当然是「香」,尤其是将 AI 嵌入常用的办公平台之后。

想象一下,在一场线上会议结束之后,你可以立即收到一张卡片形式的信息。

打开这张卡片,你惊喜地发现整场会议已经被全部录制了下来,视频旁边就是完整的文字记录。视频播到哪儿,哪儿的文字就会高亮显示。点击任意文字,视频和音频也会跳到对应的位置,音、画、字三方同步,连进度条都不用自己拖动,是不是很方便? 

微信图片_20211206142401.gif


这就是钉钉在今年的「2021 未来组织大会」上正式发布的新功能——钉钉闪记,它是钉钉会议协作新产品「钉闪会」的一部分。

钉钉闪记有很多非常实用的小功能,比如自动翻译、自动生成会议关键词、文字检索、筛选发言人、上传视频转文字加字幕等。

对话的自动翻译相信很多人都在钉钉聊天框中体验过。这个功能给人的第一感觉就是:翻得很快啊。字刚打进输入框,翻译结果就出来了,而且还可以设置「接收消息实时翻译」,连翻译按钮都不需要自己点,难怪很多人将其纳入钉钉的「真香」系列。有了前面的成功经验,钉钉这次把自动翻译添加到了会议场景,支持 11 种外语,不知道可以拯救多少外语听力一般但还要经常跟国际客户开会的同学。

自动生成会议关键词、文字检索和筛选发言人在节省时间方面非常有用,尤其是在会议时间比较长的时候。毕竟工作那么忙,谁也没时间把每个会议记录都通读一遍。钉钉总裁叶军还表示,闪记下一步还将尝试智能提取段落大意、自动提取会议行动点等功能,进一步帮大家节省时间。

将上传的视频转成文字并加上字幕是一个让人有点意外的小功能,因为它的作用可不仅局限于开会,平时做个内部培训视频、产品 demo 都能用得到,你甚至能靠它当个 up 主,这真是妥妥的新生产力工具了。

值得一提的是,钉钉副总裁、协同平台业务负责人傅徐军在发布会上透露,从立项到开发再到上线,钉钉闪记只用了大概两个月的时间,而且后续还将扩展到线下场景。

为什么一个产品的上线可以如此之快?傅徐军解释说,「闪记是钉钉和阿里巴巴达摩院合作开发的新产品,我们看到的多国语言翻译以及语音转文字能力都是来源于达摩院强大的技术支持。」

以闪记用到的语音识别为例。我们刚才提到,钉钉闪记的语音转文字结果是「立即」可出的,这区别于一些需要等待的语音转写产品。后者利用的往往是离线系统,在准确率方面比较有优势,但缺点也很明显,就是延迟较高。因此,近年来,延迟较低的在线系统受到越来越多的关注,但准确率始终不及离线系统。为了综合二者的优势,在降低延迟的同时提高准确率,阿里达摩院与钉钉技术团队采用了新一代流式和离线端到端一体化模型方案(UNIVERSAL ASR),它可以同时支持闪记的实时转写和录制音频转写,识别率媲美纯离线端到端模型,但延迟大大降低。

微信图片_20211206142406.jpg

UNIVERSAL ASR 架构概览。图源:https://arxiv.org/pdf/2010.14099.pdf

此外,闪记还首次上线了新一代端到端热词定制技术,在端到端模型中加入了为额外文本进行建模的 Contextual LSTM 模块,使得模型具备了对特定文本进行纠偏增强的能力。与传统热词技术相比,该技术的热词丢失率下降了 60%,显著提升了定制场景的热词识别效果,且可设置热词数达到上千个。

再比如说声纹识别,技术人员针对会议场景的多角色分离任务,提出了多项核心算法创新技术。


首先,他们将只基于频域信息的传统声纹模型扩展到了频域和时空信息的三维说话人识别模型。通过有效建模空间信号信息 + 声纹神经网络,系统在多人会议中的性能大幅度提升,尤其是对说话人的起始时间的追踪、定位等能力。

 

微信图片_20211206142418.jpg

图源:https://arxiv.org/pdf/2107.09321.pdf


其次,针对长期困扰说话人识别研究者的短时文本无关任务,研究人员也做出了显著的优化。他们提出了一种基于 contrastive loss 的孪生网络结构 Phonetically-aware Coupled Network (PacNet),有效地同时建模声学信息和内容信息,可以有效减少短语音时文本内容对声纹识别带来的干扰,从而大幅度提升一场会议中短片段识别的准确率。


第三,针对强噪环境(如多人同时说话、电脑音频背景噪声等)下的说话人识别技术,技术人员提出了一种新的算法——CAM(针对声纹识别的 Context-Aware Masking)。该算法受到照相机聚焦技术的启发,可以在嘈杂的环境中「虚化」过滤掉背景噪声,突出需要识别的目标说话人的声音,从而在强噪环境下大幅度提升了识别的准确率。


最后,在角色区分的关键技术模块中,技术人员实现了基于 Global-Local 信息的算法思路,将传统聚类算法与端到端 diarization 有效结合,从而更准确地识别出会议中讲话人数、说话人变更点以及重叠语音。


在企业人工智能服务方向,钉钉其实是一个特别的样板。

首先,钉钉内并没有特别执着于精深的前沿 AI 技术,几乎很难找到 AI 领域的最新突破,反而大多数是业界已经相对成熟的技术。

但为什么要从 AI 角度看钉钉?因为这个平台上确实有很多 AI 技术的落地,例如 AI 翻译、语音速记、实时字幕、对话机器人、多模态等等,在语音 AI、视觉 AI、决策智能以及智能计算很多方面都有涉及。

这与钉钉的定位有关,它是用户每天都在使用的端,不允许不稳定因素,但它又有 AI 发展所欠缺的落地场景。

可以说,钉钉真正擅长的是为这些成熟的技术找到应用方向,做到 AI 技术的产品化,把 AI 变成每个普通人触手可及的生产力工具。

例如,在教育场景中,钉钉发布了「教师版钉钉」,上面有数学智能批改、语文朗读练习、英语口语评测等功能,用简单的 AI 帮老师节省了大量时间。

微信图片_20211206142424.jpg

图源:https://edu.sina.com.cn/l/2021-01-14/doc-ikftssan6101246.shtml

再比如,在工厂里,钉钉内的群聊机器人与制造业的生产系统集成,将生产车间出现的问题及时推送到群、人的聊天里。如果故障工单在一定时间内没有解决,钉钉机器人会将信息发送给更高一层负责人,这样层层推送,责任到人,大大提升了工厂的生产效率与解决问题的速率,让员工少跑腿。

透过钉钉这个界面我们看到:AI,即使是现阶段的 AI(弱人工智能),在提升人类生产力方面也蕴涵着巨大的潜力,只要你找对方向。

为什么钉钉如此看重用 AI 提升生产力?在钉钉总裁叶军看来,钉钉这类新生产力工具是企业数字化转型的有力支撑,可以帮助企业走向「两个数字化」——组织数字化和业务数字化,并通过两个数字化的相互融合和促进,实现组织内人财物事、产供销研、组织上下游生态产业链等场景环节的全链路数字化。

其中,组织数字化首先关注的是员工的数字化能力,让每一个员工拥有一套称手的新生产力工具,这也是钉闪会等协同产品的最终使命。

而阿里达摩院提供的 AI 技术能力为这一愿景提供了有力保障。

微信图片_20211206142428.jpg


除了开放自身能力之外,钉钉也承担了阿里巴巴科技能力的开放窗口这一重要角色。通过钉钉这一用户界面,用户可以按需调用阿里云、达摩院的各类技术组件、云产品和资源,其中就包括各项 AI 能力。

可以预见的是,在不断迭代的 AI 能力的支持下,钉钉将解锁越来越多的场景,让 AI 走进各行各业,走入田间地头,真正成为新生产力工具,而不是空中楼阁。这是幸事。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
存储 人工智能
2023 年最好的36款 AI 生产力工具(三)
简介: 本文主要展示了36 款 AI 应用,可以帮助读者更快、更好地工作。每个人都在与ChatGPT交流,从完整的博客文章到特定代码行的功能都在询问。其结果令人惊叹。虽然我们仍在探索如何将这项技术纳入我们的工作流程中,但明显的是,人工智能工具正在改变游戏规则。尽管ChatGPT是目前最受欢迎的,但它远不是首款进入市场的人工智能应用程序。经过Zapier团队的大量研究和测试,总结出了以下36款能够改变工作方式的人工智能生产力工具。
|
4月前
|
人工智能 UED
2023 年最好的36款 AI 生产力工具(二)
本文主要展示了36 款 AI 应用,可以帮助读者更快、更好地工作。每个人都在与ChatGPT交流,从完整的博客文章到特定代码行的功能都在询问。其结果令人惊叹。虽然我们仍在探索如何将这项技术纳入我们的工作流程中,但明显的是,人工智能工具正在改变游戏规则。尽管ChatGPT是目前最受欢迎的,但它远不是首款进入市场的人工智能应用程序。 经过Zapier团队的大量研究和测试,总结出了以下36款能够改变工作方式的人工智能生产力工具。
|
4月前
|
存储 人工智能 数据库
|
3月前
|
人工智能
钉钉AI助理创造大赛来袭,百万奖金等你拿!
尽情发挥你的想象力与创造力吧>>
|
1月前
|
人工智能 自然语言处理 算法
|
2月前
|
人工智能 自然语言处理 架构师
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
|
2月前
|
人工智能 BI 开发者
|
3月前
|
人工智能 自然语言处理 OLAP
AnalyticDB向量检索助力钉钉AI助理
2024年1月9日钉钉发布人人可用的AI助理产品,用户点击钉钉首屏右上角的魔法棒,即可唤起AI助理进行对话式数据AI、信息摘要、写工作总结、写文档等工作。AnalyticDB for PostgreSQL (下文简称ADB-PG) 向量检索引擎提供了核心实体的向量召回,帮助AI助理在智能问数等场景中大幅提升模型输出准确性。
643 6
|
3月前
|
人工智能 自然语言处理 机器人
AI赋能代码生成,FuncGPT(慧函数)解放开发者生产力
AIGC的出现,在内容生成领域一次又一次地引领着变革。AI 在绘画、音乐、视频等领域的逐渐渗入,大大减轻了内容生产者的工作负担,内容的生产方式也发生了质的变化。那么AIGC能否帮助开发者更简单、高效地生成代码,从而提升研发效率呢?
|
4月前
|
Web App开发 人工智能 自然语言处理
2023 年最好的36款 AI 生产力工具(七)
本文主要展示了36 款 AI 应用,可以帮助读者更快、更好地工作。每个人都在与ChatGPT交流,从完整的博客文章到特定代码行的功能都在询问。其结果令人惊叹。虽然我们仍在探索如何将这项技术纳入我们的工作流程中,但明显的是,人工智能工具正在改变游戏规则。尽管ChatGPT是目前最受欢迎的,但它远不是首款进入市场的人工智能应用程序。经过Zapier团队的大量研究和测试,总结出了以下36款能够改变工作方式的人工智能生产力工具。