怎么把AI变成生产力?钉钉:这题我会

简介: 对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。

「xx,今天开会你来做一下会议记录。」

听到这句话,瞬间精神了有没有?

对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。 马上就 2022 了,为什么我们还在这种简单的事情上耽误时间?让 AI 帮忙记录不香吗? 答案当然是「香」,尤其是将 AI 嵌入常用的办公平台之后。

想象一下,在一场线上会议结束之后,你可以立即收到一张卡片形式的信息。

打开这张卡片,你惊喜地发现整场会议已经被全部录制了下来,视频旁边就是完整的文字记录。视频播到哪儿,哪儿的文字就会高亮显示。点击任意文字,视频和音频也会跳到对应的位置,音、画、字三方同步,连进度条都不用自己拖动,是不是很方便? 

微信图片_20211206142401.gif


这就是钉钉在今年的「2021 未来组织大会」上正式发布的新功能——钉钉闪记,它是钉钉会议协作新产品「钉闪会」的一部分。

钉钉闪记有很多非常实用的小功能,比如自动翻译、自动生成会议关键词、文字检索、筛选发言人、上传视频转文字加字幕等。

对话的自动翻译相信很多人都在钉钉聊天框中体验过。这个功能给人的第一感觉就是:翻得很快啊。字刚打进输入框,翻译结果就出来了,而且还可以设置「接收消息实时翻译」,连翻译按钮都不需要自己点,难怪很多人将其纳入钉钉的「真香」系列。有了前面的成功经验,钉钉这次把自动翻译添加到了会议场景,支持 11 种外语,不知道可以拯救多少外语听力一般但还要经常跟国际客户开会的同学。

自动生成会议关键词、文字检索和筛选发言人在节省时间方面非常有用,尤其是在会议时间比较长的时候。毕竟工作那么忙,谁也没时间把每个会议记录都通读一遍。钉钉总裁叶军还表示,闪记下一步还将尝试智能提取段落大意、自动提取会议行动点等功能,进一步帮大家节省时间。

将上传的视频转成文字并加上字幕是一个让人有点意外的小功能,因为它的作用可不仅局限于开会,平时做个内部培训视频、产品 demo 都能用得到,你甚至能靠它当个 up 主,这真是妥妥的新生产力工具了。

值得一提的是,钉钉副总裁、协同平台业务负责人傅徐军在发布会上透露,从立项到开发再到上线,钉钉闪记只用了大概两个月的时间,而且后续还将扩展到线下场景。

为什么一个产品的上线可以如此之快?傅徐军解释说,「闪记是钉钉和阿里巴巴达摩院合作开发的新产品,我们看到的多国语言翻译以及语音转文字能力都是来源于达摩院强大的技术支持。」

以闪记用到的语音识别为例。我们刚才提到,钉钉闪记的语音转文字结果是「立即」可出的,这区别于一些需要等待的语音转写产品。后者利用的往往是离线系统,在准确率方面比较有优势,但缺点也很明显,就是延迟较高。因此,近年来,延迟较低的在线系统受到越来越多的关注,但准确率始终不及离线系统。为了综合二者的优势,在降低延迟的同时提高准确率,阿里达摩院与钉钉技术团队采用了新一代流式和离线端到端一体化模型方案(UNIVERSAL ASR),它可以同时支持闪记的实时转写和录制音频转写,识别率媲美纯离线端到端模型,但延迟大大降低。

微信图片_20211206142406.jpg

UNIVERSAL ASR 架构概览。图源:https://arxiv.org/pdf/2010.14099.pdf

此外,闪记还首次上线了新一代端到端热词定制技术,在端到端模型中加入了为额外文本进行建模的 Contextual LSTM 模块,使得模型具备了对特定文本进行纠偏增强的能力。与传统热词技术相比,该技术的热词丢失率下降了 60%,显著提升了定制场景的热词识别效果,且可设置热词数达到上千个。

再比如说声纹识别,技术人员针对会议场景的多角色分离任务,提出了多项核心算法创新技术。


首先,他们将只基于频域信息的传统声纹模型扩展到了频域和时空信息的三维说话人识别模型。通过有效建模空间信号信息 + 声纹神经网络,系统在多人会议中的性能大幅度提升,尤其是对说话人的起始时间的追踪、定位等能力。

 

微信图片_20211206142418.jpg

图源:https://arxiv.org/pdf/2107.09321.pdf


其次,针对长期困扰说话人识别研究者的短时文本无关任务,研究人员也做出了显著的优化。他们提出了一种基于 contrastive loss 的孪生网络结构 Phonetically-aware Coupled Network (PacNet),有效地同时建模声学信息和内容信息,可以有效减少短语音时文本内容对声纹识别带来的干扰,从而大幅度提升一场会议中短片段识别的准确率。


第三,针对强噪环境(如多人同时说话、电脑音频背景噪声等)下的说话人识别技术,技术人员提出了一种新的算法——CAM(针对声纹识别的 Context-Aware Masking)。该算法受到照相机聚焦技术的启发,可以在嘈杂的环境中「虚化」过滤掉背景噪声,突出需要识别的目标说话人的声音,从而在强噪环境下大幅度提升了识别的准确率。


最后,在角色区分的关键技术模块中,技术人员实现了基于 Global-Local 信息的算法思路,将传统聚类算法与端到端 diarization 有效结合,从而更准确地识别出会议中讲话人数、说话人变更点以及重叠语音。


在企业人工智能服务方向,钉钉其实是一个特别的样板。

首先,钉钉内并没有特别执着于精深的前沿 AI 技术,几乎很难找到 AI 领域的最新突破,反而大多数是业界已经相对成熟的技术。

但为什么要从 AI 角度看钉钉?因为这个平台上确实有很多 AI 技术的落地,例如 AI 翻译、语音速记、实时字幕、对话机器人、多模态等等,在语音 AI、视觉 AI、决策智能以及智能计算很多方面都有涉及。

这与钉钉的定位有关,它是用户每天都在使用的端,不允许不稳定因素,但它又有 AI 发展所欠缺的落地场景。

可以说,钉钉真正擅长的是为这些成熟的技术找到应用方向,做到 AI 技术的产品化,把 AI 变成每个普通人触手可及的生产力工具。

例如,在教育场景中,钉钉发布了「教师版钉钉」,上面有数学智能批改、语文朗读练习、英语口语评测等功能,用简单的 AI 帮老师节省了大量时间。

微信图片_20211206142424.jpg

图源:https://edu.sina.com.cn/l/2021-01-14/doc-ikftssan6101246.shtml

再比如,在工厂里,钉钉内的群聊机器人与制造业的生产系统集成,将生产车间出现的问题及时推送到群、人的聊天里。如果故障工单在一定时间内没有解决,钉钉机器人会将信息发送给更高一层负责人,这样层层推送,责任到人,大大提升了工厂的生产效率与解决问题的速率,让员工少跑腿。

透过钉钉这个界面我们看到:AI,即使是现阶段的 AI(弱人工智能),在提升人类生产力方面也蕴涵着巨大的潜力,只要你找对方向。

为什么钉钉如此看重用 AI 提升生产力?在钉钉总裁叶军看来,钉钉这类新生产力工具是企业数字化转型的有力支撑,可以帮助企业走向「两个数字化」——组织数字化和业务数字化,并通过两个数字化的相互融合和促进,实现组织内人财物事、产供销研、组织上下游生态产业链等场景环节的全链路数字化。

其中,组织数字化首先关注的是员工的数字化能力,让每一个员工拥有一套称手的新生产力工具,这也是钉闪会等协同产品的最终使命。

而阿里达摩院提供的 AI 技术能力为这一愿景提供了有力保障。

微信图片_20211206142428.jpg


除了开放自身能力之外,钉钉也承担了阿里巴巴科技能力的开放窗口这一重要角色。通过钉钉这一用户界面,用户可以按需调用阿里云、达摩院的各类技术组件、云产品和资源,其中就包括各项 AI 能力。

可以预见的是,在不断迭代的 AI 能力的支持下,钉钉将解锁越来越多的场景,让 AI 走进各行各业,走入田间地头,真正成为新生产力工具,而不是空中楼阁。这是幸事。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 数据可视化 API
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
10 分钟构建 AI 客服并应用到网站、钉钉或微信中测试评
107 2
|
4月前
|
人工智能
10 分钟构建 AI 客服并应用到网站、钉钉或微信中简说
10 分钟构建 AI 客服并应用到网站、钉钉或微信
|
3月前
|
人工智能 运维 负载均衡
10 分钟构建 AI 客服并应用到网站、钉钉或微信中
《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案通过详尽的文档和示例代码,使具有一定编程基础的用户能够快速上手,顺利完成AI客服集成。方案涵盖高可用性、负载均衡及定制化选项,满足生产环境需求。然而,若文档不清晰或存在信息缺失,则可能导致部署障碍。实际部署中可能遇到网络、权限等问题,需逐一排查。云产品的功能、性能及操作配置便捷性直接影响解决方案效果,详尽的产品手册有助于快速解决问题。总体而言,该方案在各方面表现出色,值得推荐。
|
3月前
|
人工智能 自然语言处理 运维
钉钉x昇腾:用AI一体机撬动企业数字资产智能化
大模型在过去两年迅速崛起,正加速应用于各行各业。尤其在办公领域,其主要模态——文字和图片,成为了数字化办公的基础内容,催生了公文写作、表格生成、文本翻译等多种应用场景,显著提升了工作效率。然而,AI引入办公场景也带来了数据安全与成本等问题。为此,钉钉与昇腾联合推出的“钉钉专属AI一体机解决方案”,通过本地化部署解决了数据安全、成本高昂及落地难等痛点,实现了从硬件到软件的深度协同优化,为企业提供了开箱即用的AI服务,推动了办公场景的智能化升级。
144 11
|
4月前
|
人工智能 机器人 API
一键打造你的专属钉钉AI助手
【8月更文挑战第7天】一键打造你的专属钉钉AI助手
202 14
一键打造你的专属钉钉AI助手
|
4月前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9970 10
|
3月前
|
存储 人工智能 机器人
动手实践召唤专属钉钉AI助手
通过简单几步,你可以在10分钟内在钉钉上增加一个AI机器人。首先创建一个百炼大模型应用,获取API凭证;接着创建钉钉应用,并配置机器人;然后利用阿里云AppFlow建立连接流,无需编码即可关联机器人与大模型应用;最后为大模型应用添加私有知识库,提升问答准确性。百炼提供新用户免费额度,降低初期成本。整个过程直观易懂,助你快速搭建智能助手。
138 0
|
5月前
|
人工智能 数据挖掘 Python
提升办公生产力工具——AI数据分析应用小浣熊
办公小浣熊广泛应用于日常数据分析、财务分析、商业分析、销售预测、市场分析等多个领域,为用户提供了强大的支持。
提升办公生产力工具——AI数据分析应用小浣熊
|
7月前
|
人工智能
钉钉AI助理创造大赛来袭,百万奖金等你拿!
尽情发挥你的想象力与创造力吧>>
|
6月前
|
人工智能
[AI Google] 三种新方法利用 Gemini 提高 Google Workspace 的生产力
Workspace 侧边栏中的 Gemini 现在将使用 Gemini 1.5 Pro,新的 Gemini for Workspace 功能即将登陆 Gmail 移动应用,等等。
[AI Google] 三种新方法利用 Gemini 提高 Google Workspace 的生产力