首页> 标签> 信息无障碍
"信息无障碍"
共 229 条结果
全部 问答 文章 公开课 课程 电子书 技术圈 体验
腾讯AI开放平台:AI赋能产业的一站式解决方案
几乎每一项新兴技术在真正成熟之前,都有一段曲折的经历。技术经过不断迭代,其经营模式,方法论经过几代的演进,技术产生的利益与潜力才会最终被市场接受。人工智能的发展历程可分为三个阶段,伴随着互联网时代积累起来的海量数据,深度学习技术的成熟和计算机运算速度的大幅增长,现阶段人工智能迎来爆发期。但数据表明,53%的企业还处于无信息化或基础数据化阶段,已采用AI技术或AI驱动的企业,占比还不到15%。如何打通AI技术与行业场景之间的壁垒无疑是第三次人工智能浪潮的关键。9月18日上午,2018年世界人工智能大会腾讯分论坛上,腾讯移动互联网事业群副总裁、开放平台总经理侯晓楠发布腾讯AI开放平台(AI.QQ.COM),联合腾讯AI Lab、WeChat AI,腾讯计算机视觉研发中心三大实验室,向全行业提供腾讯全方位的AI能力接口,推动AI技术在细分领域中的落地应用。值得注意的是,在前两次人工智能浪潮中,多是学界主导并不断提出问题,但在这次,商业需求开始主导,不断的应用技术解决问题成为主流,换言之,谁能运用AI解决问题,谁能拔得头筹。只争朝夕是乱象,厚积薄发才是开放开放这个词在我国的发展中具有里程碑式的意义,它在我国的互联网企业的发展中同样重要。当互联网公司发展到了一定量级,就会开始构筑自身的开放生态,伴随着AI的崛起,提出AI开放平台的也不在少数,包括BATJ科大讯飞等,如果问哪一家企业自带开放的血液,那么毫无疑问,腾讯榜上有名。腾讯在3Q大战之后,面临着巨大的舆论压力的腾讯提出开放战略,聚焦于“两个半”的核心业务:一个是社交平台,一个是数字内容,还有半个则是金融业务。而核心业务以外的领域,都开放给合作伙伴,开放策略造就了如今双马格局。开放不是一朝一夕的事,开放所带来的影响也不能立竿见影。腾讯的开放生态分为三个阶段:第一阶段:PC生态。2011年腾讯正式开启PC生态,到2012年,第三方总收益超过20亿。2013年底,应用宝正式融入腾讯开放平台体系,腾讯开放平台正式打通了应用宝、QQ、QQ空间、朋友网等腾讯全平台资源,实现一点接入全平台分发。当应用开发者做出应用提交到腾讯开放平台后,这个应用便会相应被推送到应用宝,QQ,QQ 空间,朋友网等所有腾讯平台,仅在当年,26款应用流水便超过了1000万。第二阶段:移动生态。伴随着智能手机的兴起,移动端成了当年的兵家必争之地。2014年腾讯开启移动生态,微信公众号就在此期间崛起。开启之初,合作公司总估值2000亿,第三方总收益超过100亿。随后,在大众创业万众创新的呼声下,腾讯众创空间在全国29个城市建立了34个众创空间,第三方收益总额超过230亿。第三阶段:AI生态。马化腾在腾讯开放初期反复强调,开放是一种能力,而不是一种姿态。开放的能力,包含了一个产业链条的建设,比如前期用户抵达,中期信息扩散,后续投资,底层技术储备等等。2018年,腾讯正式发布AI生态,腾讯前期对开放生态链的建设,在AI生态上将不断赋能于企业,产生深远的行业变革。腾讯AI加速器作为腾讯人AI开放生态抓手,在各行业挑选了最有潜力的AI创业项目,从技术赋能、思维升级、渠道合作几个方面加速企业成长。腾讯AI加速器一期的25个国内优质AI创业项目,已于今年4月毕业。在9个月的加速期内,整体估值从70亿增至260多亿,翻了近3倍,并最终形成15个行业解决方案。腾讯如今的AI开放生态所取得的成果,是长久开放策略的积累,也是其技术优势下的必然结果,绝非一朝一夕铸成。更重要的是,腾讯的AI生态开放,正在不断加快步伐。 技术推动开放,腾讯AI有的放矢AI开放平台想要真正赋能企业,最基本的要求还是技术过硬,否则别说打破技术与行业场景之间的壁垒,连打脸的资格都没有。推动AI开放平台开放,首要推动技术进步与变革。第三次人工智能浪潮引起人们的关注,无疑是AlphaGo以4:1的战绩大败李世石。事实上,人机对弈在三次人工智能浪潮中都是热点,1962年,IBM的阿瑟·萨缪尔开发的西洋跳棋程序战胜了一位盲人跳棋高手,报纸开始大肆报道人工智能。而在1997年,IBM的深蓝战胜卡斯帕罗夫后,人们对人工智能的关注也是屡创新高。据此,李开复说,这一方面是因为棋类游戏代表着一大类典型的、有清晰定义和规则、容易评估效果的智能问题;另一方面是因为具备一定复杂性的棋类游戏通常都会被公众视为人类智慧的代表,一旦突破了人机对弈算法,也就意味着突破了公众对人工智能这项新技术的接受门槛。在今年的UEC围棋比赛中,腾讯AI lab的AI绝艺战胜了日本DeepZenGO在内的多只AI,夺得了冠军。此后,绝艺一枝独秀,棋圣聂卫平在大盘讲解中也感叹“绝老师”的厉害。但和李开复所说的不同,腾讯没有将“绝艺“用来秀肌肉,他们的步伐没有停歇。腾讯AI Lab已经从围棋AI“绝艺”等单个AI的完全信息类游戏,转移到下一个攻坚堡垒——规则不明确、任务多样化、情况复杂的(Uncertainty、Diversity、Complexity)游戏类型,如《星际争霸》和《Dota2》等复杂的即时战略类RTS游戏或多人在线竞技类MOBA游戏。游戏是人们在虚拟世界里意识的延申,也是现实与虚拟的接口。因此,AI应用于虚拟世界里的经验,可以复制于现实场景中,实现对现实问题的解决。除了游戏,腾讯在内容、社交、医疗、零售等领域,都实现了技术落地,腾讯三大实验室在各自的领域深耕,步履不停,仅腾讯AI Lab,在成立两年多来,就已在CVPR、ACL、ICML和NIPS等四大顶级学术会议上发表共240多篇论文,位居国内企业前列。而在此次大会上,首次对外公开亮相的腾讯Robotics X实验室表示,将致力攻克ABC基础能力——人工智能(AI)、机器人本体(Body)与自动控制(Control),并探索代表机器人智能趋势的D到G能力——进化学习(Developmental Learning)、情感理解与拟人(EQ)、灵活弹性(Flexibility),最后实现成为人类守护天使(Guardian Angel)的终极目标。 当企业在说开放的时候,其实在说生态上世纪80年代,迈克尔·波特将企业的竞争力来源归结于“价值链理论”:企业与企业的竞争,不只是某个环节的竞争,而是整个价值链的竞争,整个价值链的综合竞争力决定企业的竞争力。随后,普拉哈拉德和哈默尔提出“核心竞争力”:企业所特有的、能够经得起时间考验的、具有延展性,并且是竞争对手难以模仿的技术或能力,开始着眼于企业本身。但现阶段,毫无疑问是生态。人工智能从业人士都有一个基本的共识,那就是人工智能不是一个行业,AI只有加上某个行业才有意义,但AI应用领域太广泛,没有一家公司有足够多的数据,只有把更多的数据汇集在一起,AI只能才能释放更大的潜力,因而企业的发展路径必然是推动AI开放的生态。企业仅仅只是生态中的一个个体,想要实现生态的良性发展,与用户和合作伙伴有着密不可分的关系。比如腾讯AI开放平台的AI技术为某市规划局提供手写体OCR、图片识别等技术接口,帮助其智能识别手写表格并自动分类,提升文档办公效率5倍以上。一家服装集团借助腾讯AI智能算法,对工艺制造环节进行高效的自动识别,减少人力投入、降低误判损失,提高整体生产效率20%。AI通过赋能传统行业,不仅改变了传统行业的格局,也开拓了全新的应用场景。同时,随着互联网人口红利已经到了尽头,人们开始不断探索AI的边界。正如世界人工智能大会上,马化腾的发言所说的,连接人与人的极限就是几十亿个节点,但是,如果连接人和物,人与服务,那么这个规模将会增长到几百亿,甚至几千亿的的量级。而人与物,人与服务连接的关键就在于人工智能。从2011年开始就在致力于搭建开放生态的腾讯来说,这波浪潮他无疑是弄潮儿,而这一轮变革下,将会发生如何的行业变革,答案静待揭晓。
文章
机器学习/深度学习  ·  人工智能  ·  文字识别  ·  算法  ·  机器人  ·  信息无障碍  ·  计算机视觉  ·  开发者
2021-12-20
撒花!斯坦福深度学习最新视频发布,吴恩达主讲!
就在 3 月 21 日,由吴恩达开设的斯坦福深度学习课程 CS230 课程视频发布到了网上。视频摄制于 2018 年秋季,时隔半年,线上课程终于上线并公开!再一次,我们终于又目睹了 AI 界的大 IP:吴恩达大佬的风采!本公开课视频由吴恩达(Andrew Ng)和 Kian Katanforoosh 共同讲解。总共包含了 5 节课。视频目录:Lecture 1 - Class Introduction and LogisticsLecture 2 - Deep Learning IntuitionLecture 3 - Full-Cycle Deep Learning ProjectsLecture 4 - How to tune your networkLecture 5 - AI + Healthcare课程视频首发于 Youtube 上,地址如下:https://www.youtube.com/playlist?list=PLoROMvodv4rOABXSygHTsbvUz4G_YQhOb考虑到有很多同学门观看视频不太方便,国内知名博主爱可可老师已经把视频搬运到了 B 站上!视频地址:https://www.bilibili.com/video/av47055599/最新的视频,欢迎尝鲜!不过值得注意的是,油管上的视频是配备英文字幕的,而 B 站上的暂时没有字幕。所以,想吃熟肉的还是尽量在油管上观看吧。以上这些新公开的教学视频是源自斯坦福的深度学习课程 CS230 的。对应 CS230,石头君之前发文介绍过。如今,这门课有了不少更新和新的资源,除了上面的视频之外,还有一些整理出来,希望对大家有用!课程简介首先,还是要简单介绍一下 CS230。CS230 涉及到深度学习的基础知识、神经网络构建,以及如何完成一个成功的机器学习项目。具体将涉及卷积网络,RNNs,LSTM,Adam,Dropout,BatchNorm,Xavier / He 初始化等,还提供医疗,自动驾驶,手语阅读,音乐创作和自然语言处理等多领域的案例研究。课程主页:http://cs230.stanford.edu/课程形式:CS230 采取课内和 Coursera 在线课程相结合的形式,其中每一个课程的模块都需要在 Coursera 上观看视频、做测试并完成编程作业。也就是说,你将先在家里观看 Coursera 视频、完成编程任务以及在线测验,然后来到课堂上做进一步讨论和完成项目。该课程将以开放式的最终项目结束,教学团队会在过程中提供帮助。教学大纲:教学大纲地址为:http://cs230.stanford.edu/syllabus/所有教学大纲中包含的课件离线下载地址:链接:https://pan.baidu.com/s/1VaY_v4dgbqhXKKq8insfQg 密码:01n1课程项目CS230 最大的特色是课程最后会要求学生设计一个大项目。课程项目的题目非常开放。吴恩达希望学生明智地选择一个符合自己兴趣的项目,同时又是既有动力又有技术挑战性的。项目类型主要分为三个类型:应用程序项目。这是迄今为止最常见的:选择一个你感兴趣的应用程序,并探索如何最好地应用学习算法来解决它。算法项目。选择一个问题或一系列问题,并开发一个新的学习算法,或现有算法的一个新变种来解决它。理论项目。证明一个新的或现有的学习算法的一些有趣的或不平凡的特性。(这通常非常困难,因此很少有项目,如果有的话,是纯理论的。)一些项目还将结合应用程序和算法的元素。课程网页上也公布了每个学期学生的优秀项目。以 2018 年秋季为例,项目前几名的作品和一些优秀的项目作品也都公开出来了。第一名的项目是《Deep Energies for Estimating Three-Dimensional Facial Pose and Expression》。点开就能看到这个项目的详细 Report。这里,附上地址:http://cs230.stanford.edu/projects_fall_2018/reports/12409058.pdf课程资料下面这份笔记和教程意在补充 Andrew Ng 和 Kian Katanforoosh 教授斯坦福大学 CS230 的材料。资料地址:https://cs230-stanford.github.io/这些资料包含一些 PyTorch 和 TensorFlow 的教程,可能会对最终项目有所帮助!对应的 GitHub 地址为:https://github.com/cs230-stanford/cs230-code-examplesCS230 速查表之前,MIT 的 Afshine Amidi 和斯坦福大学的 Shervine Amidi 在博客上整理了一份 CS230 课程知识点的归纳总结。这份总结提要基本遵循 CS230 的授课思路和流程,分卷积神经网络、递归神经网络、提示与技巧,三大方面由浅入深地介绍了深度学习的基本概念、网络模型、研究和实验操作方法等。下面就来看一下这三张速查表:1. Convolutional Neural Networks、上速查表的网页地址为:https://github.com/afshinea/stanford-cs-230-deep-learning离线下载地址:链接:https://pan.baidu.com/s/1DCIWDHdnvhKI7DTloV6cGA 提取码:w2aq最后,预祝你又拿下一门课!
文章
机器学习/深度学习  ·  人工智能  ·  自然语言处理  ·  算法  ·  自动驾驶  ·  PyTorch  ·  TensorFlow  ·  算法框架/工具  ·  数据安全/隐私保护  ·  信息无障碍
2021-12-19
唇语识别真会是语言交互的终极战场?
在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。虽说搜狗是国内第一家公开演示这项技术的公司,但早在2017年3月,海云数据创始人兼CEO冯一村在亚洲大数据可视分析峰会上,就发布了重庆市公安科研所与海云数据共同研发的唇语识别技术,它的中文识别模型准确率已达到70%。而谷歌DeepMind团队,在2016年利用BBC视频对他们的AI系统进行了5000个小时的训练,测试时唇语识别正确率达到了46.8%。这并不是场独角戏,那唇语识别到底是何物?未来又有着怎样的想象空间?唇语识别只是语言识别的进化虽说唇语识别近期才进入公众视野,但唇语识别技术的发展可以追溯到上世纪80年代。当时,语音识别技术迅速发展,出现了许多实用的语音识别系统,然而这些系统抗干扰能力不强,在有背景噪音与交叉谈话的情况下,它们的性能会大幅降低。而在自然应用环境中,噪音现象十分常见,研究者们为了解决上述缺陷,一方面采用降噪技术降低干扰,另一方面开始寻求其它解决方法。那唇语识别技术是怎么发展来的呢?语音识别的研究者们突然发现,其实人类的语言识别系统是由两个感知过程构成的,声音虽然是人类语言认知过程中最重要的方式,但在日常交流中,我们还会用眼睛看着对方的口型、对方的表情等,来更加准确的理解对方所讲的内容。受此启发,研究者们开始研究唇语识别。因为唇语识别完全不会受到噪声干扰,在多人对话中也能有效进行区分,这就有望解决语音识别的缺陷。事实上也是,将唇语识别与语音识别结合起来能够大大提高系统的正确率和抗干扰能力,于是唇语识别便有了更多的发挥空间。换汤没换药,近30年的发展,核心步骤还是三步经过研究各类资料,智能相对论(微信id:aixdlun)发现,唇语识别技术从摄像头输入到理解输出,中间最重要的是这三个单元——视觉前段、视觉特征提取、以及唇动识别。(图为:唇语识别的步骤)其中,视觉前段包括人脸检测与唇的检测和定位,早期检测方法比较笨拙,不允许人脸自由移动,有些还会手动添加特定标志来跟踪唇动。目前的检测方法主要是基于算法,先用人脸检测算法得到人脸然后有针对性的定位唇动;或者利用最佳闽值二值化算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。视觉特征提取是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为两大类:基于像素的方法和基于模型的方法。所谓基于像素的方法,就是利用包含嘴的灰度级图像或利用经过预处理后得到的特征向量的一类方法。这种方法的缺陷在于对二维或三维的缩放、旋转、平移、光照变化以及说话人的变化都很敏感,会造成提取过程中特征丢失的情况,不能得到完整的特征信息。而搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征信息包含在这个模型之中,并对模型中特征信息的变化用一个小的参数来描述。这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维信息,可能会对后面的识别过程造成影响。目前唇动识别采用的技术大多是隐马尔可夫模型,该技术基本思想是,认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条马尔可夫链。马尔可夫链可以用来描述统计特征信息的变化,并且这种变化过程与人的唇动过程是相吻合的,所以隐马尔可夫模型能够识别唇动并与相应语句匹配转化成文字。看似应用方向很多,最重要的还是辅助语音识别唇语识别技术的应用方向有很多,比如手语和听力障碍患者的辅助教育、国防反恐方面的情报获取、个人的身份识别以及公共安全领域等都拥有巨大的应用潜力。但在目前来看最大的应用还是辅助语音识别,毕竟它自诞生之初就是为了解决语音识别的噪音问题而研发的,这也会使得语音交互更加完善。说到这里就不得不提到智能音箱,其实除搜狗之外,很多大公司也在布局语音交互,国内有阿里巴巴、百度、科大讯飞,国外有苹果、谷歌、微软、亚马逊。在今年7月阿里巴巴就发布了一款智能音响天猫精灵,可以接受各种语音指令,搭载中文人机交流系统AliGenie,有望成为家庭智能小助手。在11月16日百度也推出了首款智能音响raven H,其采用19x19的点阵触摸屏,内置DuerOS 2.0语音交互系统,拥有语音和控制器两种交互方式。其余还有京东的叮咚智能音响,小米的小爱同学,喜马拉雅的小雅音响等智能音响产品。对于这些公司而言,似乎不出一个智能音响都不好意思说自己在人工智能领域混。那智能音响到底与唇语识别有啥关系?大厂们纷纷推出智能音响的原因是看到了新型交互方式的大趋势,但是智能音响能够满足需求的场景较少,且智能音响还有两大顽疾——抗噪音能力与远场交互能力较低。根据声学在线的测试,即便是市面上最主流的智能音响,在抗噪音能力与远场交互能力上的表现也不尽如人意,5米的中短距离上有很多失误。(图为:5m 距离智能音响唤醒失败次数统计)而且,传统语音交互对输入音频要求高,在背景噪音大时很容易失效,若人与机器再隔得远一点,失效的情况就更加严重了。但唇语识别就可以解决这两个问题。若要快速普及,还有两个问题待解自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。不过,根据智能相对论(微信ID:aixdlun)的观察,目前来说,唇语识别还不能快速普及。这主要的问题在:一、摄像头录入存在很大的限制,不能完全满足日常交互需求。在目前的唇语识别系统中,获得的嘴唇视觉特征信息都是正向的,这就意味着你与它交互时,必须时刻正对着它,第一视角被其牢牢占据,这在真实应用场景下难以达到。要能够应用更多的场景,应该使人在侧着身子说话时也能被检测识别,这要求在人脸识别、唇的检测与定位方面研究出更强的定位、跟踪算法,提高算法的普适性,使之适用于非特定姿势和位置的识别定位,并且唇动识别技术也要提高,使之能处理非正向的、较不完整的视觉特征信息。二、识别的准确度也是一个关键的问题,在有关安全的场景下,准确度是不容有差的。但我们知道其实口型与拼音序列是一对的多关系,如 zhi、chi、shi对应的口型序列是一样的,单纯利用视觉特征难以区分,会造成信息识别错误,处理这个问题,传统的技术方法是文法型语言模型,它基于人工编制的语言学文法,这种语言模型一般用于分析特定领域内的语句,无法处理大规模的真实文本。目前很多识别系统是人工限定的框架,在某一场景中对可能会出现的语句进行了很多设置,这是搜狗唇语识别系统在垂直场景(如车载)中表现得很好的原因,这同样也是它还不能大规模应用到其他场景的原因,因为要对所有场景进行设定,几乎是不可能的。不过,我们依然要满怀信心,随着人类社会的发展,真实信息越来越多,处理数据的手段也越来越丰富,基于语料库的统计语言模型发展迅速,借助于统计语言模型的概率参数,可以估算出自然语言中每个句子出现的可能性,并通过对语料库进行深层加工、统计和学习,获取自然语言中的语言知识,从而可以处理大规模真实文本,并能识别出语言中细微的差别。目前在通用识别场景的准确率只有60%到70%,虽然稍显不足,但可以预见,随着大数据与人工智能的发展,未来的识别准确率会达到更高。这看起来,一个新的时代正向我们迎面走来。
文章
人工智能  ·  自然语言处理  ·  算法  ·  安全  ·  大数据  ·  人机交互  ·  语音技术  ·  信息无障碍  ·  计算机视觉  ·  智能硬件
2021-12-17
SAP UI5 OData, annotation这些设计的意义
请看Jerry的SAP技术讨论群里,大佬们关于SAP UI5框架意义何在的精彩点评:uI5,不提有多少复杂控件如果深入理解了Odata binding,还有annotation,就会理解为啥sap要做自己的框架企业级应用,大部分是处理表状的结构化数据Sap后台大量使用odata, 其他的框架,语言读取odata,弄成json,然后再绑到ui上Ui5相当于可以直接把数据库字段绑定到界面,虽然只能cover 80%的case,但是当规模大了就节省巨大的成本还有ui5的界面纯xml,避免了JS和展现混在一起的情况,大大降低了维护的复杂度Ui5在做超过100个页面以上的系统时架构上的优势相对于其他框架是非常大的但确实不利于初期阶段,企业往往就是做三五个app试水S4 hana 1000多个ui5 app,用市面上的ui框架做,开发和维护成本不知道要高多少倍还不用提企业级应用,比如要支持IE,要支持从右到左,还要支持文本转语音,为盲人服务这些都是框架内建的部分,互联网技术为了性能,不会带着这些重的包袱
文章
XML  ·  JSON  ·  JavaScript  ·  数据库  ·  信息无障碍  ·  数据格式
2021-12-08
(0基础)学习XML的第二课:用途
  XML 应用于 web 开发的许多方面,常用于简化数据的存储和共享。  XML 把数据从 HTML 分离  如果你需要在 HTML 文档中显示动态数据,那么每当数据改变时将花费大量的时间来编辑 HTML。  通过 XML,数据能够存储在独立的 XML 文件中。这样你就可以专注于使用 HTML 进行布局和显示,并确保修改底层数据不再需要对 HTML 进行任何的改变。  通过使用几行 JavaScript,你就可以读取一个外部 XML 文件,然后更新 HTML 中的数据内容。  提示:您将在稍后的课程将学习更多这方面的内容。  XML 简化数据共享  在真实的世界中,计算机系统和数据使用不兼容的格式来存储数据。  XML 数据以纯文本格式进行存储,因此提供了一种独立于软件和硬件的数据存储方法。  这让创建不同应用程序可以共享的数据变得更加容易。  XML 简化数据传输  通过 XML,可以在不兼容的系统之间轻松地交换数据。  对开发人员来说,其中一项最费时的挑战一直是在因特网上的不兼容系统之间交换数据。  由于可以通过各种不兼容的应用程序来读取数据,以 XML 交换数据降低了这种复杂性。  XML 简化平台的变更  升级到新的系统(硬件或软件平台),总是非常费时的。必须转换二手域名买卖平台大量的数据,不兼容的数据经常会丢失。  XML 数据以文本格式存储。这使得 XML 在不损失数据的情况下,更容易扩展或升级到新的操作系统、新应用程序或新的浏览器。  XML 使您的数据更有用  由于 XML 独立于硬件、软件以及应用程序,XML 使您的数据更可用,也更有用。  不同的应用程序都能够访问您的数据,不仅仅在 HTML 页中,也可以从 XML 数据源中进行访问。  通过 XML,您的数据可供各种阅读设备使用(手持的计算机、语音设备、新闻阅读器等),还可以供盲人或其他残障人士使用。  XML 用于创建新的 Internet 语言  很多新的 Internet 语言是通过 XML 创建的:  其中的例子包括:  XHTML - 最新的 HTML 版本WSDL - 用于描述可用的 web serviceWAP 和 WML - 用于手持设备的标记语言RSS - 用于 RSS feed 的语言RDF 和 OWL - 用于描述资源和本体SMIL - 用于描述针针对 web 的多媒体假如开发人员都是理性的  假如他们都是理性的,就让未来的应用程序使用 XML 来交换数据吧。  未来也许会出现某种字处理软件、电子表格程序以及数据库,它们可以使用纯文本格式读取彼此的数据,而不需要使用任何的转换程序。  我们现在能做的只有祈祷微软公司和所有其他的软件开发商在这一方面取得一致了。  ps:学起来  看完可以评论交流交流嘻嘻 可以的话最好双击加点赞 谢谢各位  #我要上微头条##程序##CBA下赛季或采用“全华班”##外媒点赞中国航天成就##湖北十堰爆炸致25死 8人被刑拘#
文章
XML  ·  存储  ·  JavaScript  ·  前端开发  ·  数据库  ·  信息无障碍  ·  数据格式
2021-12-07
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。与此同时,科技的发展也在革新着阅读方式,例如语音合成技术的成熟让越来越多的读者选择听小说。语音合成技术中,让声音富有情感和表现力,一直是一大难点。而 QQ 浏览器最近上线的「听书」功能中,应用腾讯 PCG AI 交互部 StyleTTS 端到端合成框架业内创新技术让合成语音有了情感的温度,高保真音色可与真人媲美。QQ 浏览器使用的 StyleTTS 利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力。现阶段 QQ 浏览器「听书」功能已上线多种音色,每个音色都有自己的风格,满足不同人群的阅读喜好。在最新的一次更新中,QQ 浏览器上线了三名作家 AI 音色包,不同寻常的玩法背后是 QQ 浏览器为 AI 合成声音进一步应用落地的尝试。端到端声学模型,实现跨发音人的风格控制合成其实,语音合成技术一直伴随着网文的发展,因为它的历史更加久远。1939 年贝尔实验室利用共振峰原理制作的历史上第一台电子合成器属于语音合成的一个重要开端,直到上世纪 90 年代基于大语料库的单元挑选与波形拼接合成方法出现,可以合成高质量的自然人语音。在神经网络出现之前,波形拼接一直是语音合成的主要方式。波形拼接的基本原理就是根据输入文本的信息,从人工录制与标注的语料库中挑选合适的基元(通常为音素或音节),进行少量的调整,然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料,而且拼出来的语音虽然能让人听懂,但很难做到自然流畅。当波形拼接合成应用在朗读小说时,其合成语音比较僵硬,机械化的电子声音并不能给听众带来良好的听觉体验。而人类读文章时有自然的换气和停顿,韵律自然,听起来才不会累。深度神经网络克服传统的文本到语音转换系统的局限性,匹配口语中的语音顿挫和语调模式和韵律,并将语音单元合成为计算机语音。通过声学建模,即将文本特征转换为声学特征,利用半监督机器学习技术,实现了高精度、自动化的字音判别和贴近真人的语音生成效果。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样,具备人类语音一样的自然韵律和词汇清晰度。StyleTTS 结构图端到端语音合成系统,由前端、声学模型和声码器三部分组成。前端主要解决基于语义理解的文本发音问题,主要包含文本正则、分词、字转音、停顿预测等;声学模型负责为语音赋予韵律,比如语速、语调、停顿、重音和情绪变化等;最后一部分声码器负责还原语音的声学特征,也就是一般所说的嗓音或声线,如振幅、频率、波长等。为了更贴近朗读者的声音特点,QQ 浏览器此次用到的 StyleTTS 的端到端语音合成更加重视个性化与情感共鸣,合成效果也具有更高的自然度、辨识度,同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制,从而满足不同场景的需求。在前期上线的 6 个音色是精心挑选的具有小说风格同时有一定特点的声音,其中还包括东北女声。腾讯 PCG AI 交互部相关负责人向机器之心表示,在录制音库时,会专门加入一些东北方言文本,发音人按照方言朗读。训练 StyleTTS 声学模型时使用无监督学习帧级 VAE 对韵律进行帧级表征,实现说话人音色与韵律解耦,而与口音相关信息主要保留在韵律模型部分。在东北女声上,使用方言、普通话不同数据对韵律部分进行对抗训练,加强韵律模型对口音的学习。除了不同风格的音色以及方言,QQ 浏览器运用的 StyleTTS 端到端合成框架支持通过不同人 (声) 的韵律模型和音色模型重组搭配,能够实现跨发音人的风格控制合成,并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达,这对于语音合成来说是非常大的突破。此外,模型还加入说话人特征编码、语种特征编码等经典方法,进一步提升建模能力。未来,利用 StyleTTS 框架优势,可以让同一人学习并具备多种风格和语种,就能给用户带来更多选择。生成语音中的韵律、表现力等由声学模型决定,而清晰度则由声码器决定,声码器限制了最终合成语音的音质,同时也是整个语音合成模型的计算瓶颈。语音阅读主要在移动端,不仅对音质有高要求,同时也对性能提出很大挑战。StyleTTS 端到端合成框架采用 Multi-band MelGAN 分频带建模,可以在较短时间内合成较好的音频。针对移动端做了定制优化,在保证音频质量没有明显下降的情况下,实现合成速度数倍提升。关于语音合成在情感表达准确度的分辨,目前业内主要还是靠人工主观测听,通过 MOS 评分来判断。为此,QQ 浏览器正在联合腾讯 PCG AI 交互部等多方建立一套更加细致的音色生产和评分机制,从场景、风格、语速、年龄、语调、音质等多个维度进行详细评分,综合评价每一个音色的品质。QQ 浏览器的月活跃用户如今达到 4.45 亿,并且将免费小说作为一级入口放在了底部菜单栏,让用户打开浏览器就能够找到小说阅读的界面,足可见小说在其 “内容 + 服务的综合信息平台” 定位中的重要性。免费小说为 QQ 浏览器带来增量的同时,也让更多的优质 IP 得到了更大范围的推广。而 “听书” 为读者提供了另一种阅读方式,在增加了用户粘性的同时,也将吸引全新的读者。为此,QQ 浏览器也在 “听书” 模式上进行不断地尝试,从而为读者提供更好的阅读体验,StyleTTS 的应用则进一步满足了 “听书” 的个性化需求。语音合成成本降低,探索阅读新玩法在刚刚过去的国际盲人节,QQ 浏览器免费小说 “听书” 功能更新,推出叶非夜、公子衍、青衫取醉三位阅文作家的 AI 音色包,并上线 “朗读官” 频道。名人更具有影响力和号召力,因此容易被选择录制音色包,而 QQ 浏览器选择了三位作者,可以看出 QQ 浏览器在数字阅读方面积极探索玩法持续创新的决心,听作者读自己写的小说确实别有一番感受。QQ 浏览器免费小说频道拥有阅文集团上千万本小说以及上百万作者资源,这意味着在阅读上有足够的空间去做创新。如此一来,读者的体验感和大众化的默认语音会呈现巨大的不同。传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高,从启动定制到最终交付,制作周期长且成本高昂。而如今 QQ 浏览器运用的 StyleTTS 通过海量高质量录音数据构建了一个稳定的基础模型,只需要每种情感少量数据,就能很好的还原该发音人不同情绪效果,节省了大量的人力、物力及时间成本,且得到的效果几乎与真人朗诵别无二致。在中国主流音频平台上,有声书受欢迎度以 66.3% 高居榜首。而相关研究数据显示,中国现在已经成为全世界第二大有声阅读市场,2020 年中国的有声阅读市场规模已经超过 80 亿元。预计到 2022 年,有望超过美国,成为全球第一大有声阅读市场。可以想象,随着 StyleTTS 这一技术的应用普及,有声书行业也将随之发生巨大的改变。如何让人工智能具有人类的特质和技能?答案是不断吸收和学习。谷歌曾让它的 AI 读 2000 多本言情小说,只为它能像真人和人类对话,而且对话内容有更多的风格。而对于 StyleTTS 来说,为了能像真人一样说话,同样需要海量的录音数据供其分析、归纳从而吸收。在 QQ 浏览器「听书」功能中落地为 StyleTTS 提供了丰富的实践反馈,而 AI 朗读技术也将逐渐成熟、音色选择多、丰富流畅,将让听书成为常态。腾讯 PCG AI 交互部相关负责人表示,「听书」是 StyleTTS 现在重要发展的领域,后续会在用户个性化、多角色、情绪、情感等分析识别,甚至自动配乐、音效等更多尝试,逼近真人配音制作的水平。此外,在短视频、AI 交互、社交、实时通信等领域会有更多的应用探索。通过打造高品质、高效率的音视频内容创作工具,帮助创作者们进行更好的创作。
文章
机器学习/深度学习  ·  人工智能  ·  自然语言处理  ·  搜索推荐  ·  前端开发  ·  语音技术  ·  信息无障碍
2021-12-06
阿里云ecs服务器使用体验
裴斯泰洛齐在不经意间这样说过,今天应做的事没有做,明天再早也是耽误了。这不禁令我深思. 现在,解决阿里云ecs服务器使用体验的问题,是非常非常重要的。 所以, 叔本华曾经说过,意志是一个强壮的盲人,倚靠在明眼的跛子肩上。带着这句话, 我们还要更加慎重的审视这个问题: 阿里云ecs服务器使用体验的发生,到底需要如何做到,不阿里云ecs服务器使用体验的发生,又会如何产生。 我们一般认为,抓住了问题的关键,其他一切则会迎刃而解。 问题的关键究竟为何。  一般来说, 塞内加曾经提到过,勇气通往天堂,怯懦通往地狱。这句话语虽然很短, 但令我浮想联翩. 我们一般认为,抓住了问题的关键,其他一切则会迎刃而解。 冯学峰说过一句著名的话,当一个人用工作去迎接光明,光明很快就会来照耀着他。带着这句话, 我们还要更加慎重的审视这个问题: 问题的关键究竟为何? 要想清楚,阿里云ecs服务器使用体验,到底是一种怎么样的存在。 可是,即使是这样,阿里云ecs服务器使用体验的出现仍然代表了一定的意义。 从这个角度来看, 既然如何, 阿里云ecs服务器使用体验因何而发生? 现在,解决阿里云ecs服务器使用体验的问题,是非常非常重要的。 所以。  而这些并不是完全重要,更加重要的问题是, 带着这些问题,我们来审视一下阿里云ecs服务器使用体验。 生活中,若阿里云ecs服务器使用体验出现了,我们就不得不考虑它出现了的事实。 裴斯泰洛齐曾经说过,今天应做的事没有做,明天再早也是耽误了。这不禁令我深思. 一般来讲,我们都必须务必慎重的考虑考虑。 本人也是经过了深思熟虑,在每个日日夜夜思考这个问题。 阿里云ecs服务器使用体验因何而发生。  我们不得不面对一个非常尴尬的事实,那就是, 拉罗什福科曾经说过,我们唯一不会改正的缺点是软弱。我希望诸位也能好好地体会这句话. 达尔文说过一句著名的话,敢于浪费哪怕一个钟头时间的人,说明他还不懂得珍惜生命的全部价值。我希望诸位也能好好地体会这句话。
文章
弹性计算  ·  信息无障碍
2021-12-06
马斯克发布脑机接口重大突破:蓝牙连接,一小时植入,已获FDA认证,人体实验在即
刚刚,在 Neuralink 总部的发布会活动上,借助小猪格特鲁德的实时神经元活动演示,马斯克向人们介绍了该公司的最新进展。Neuralink 由马斯克于 2016 年创立,总部位于旧金山,主要从事马斯克所谓的「神经织网」(neural lace)技术开发,研发电脑与人脑融合技术,向人脑植入也许未来能够上传下载思想的微型电极。时隔一年,Neuralink 的脑机接口有了不小的进展,今天上台演讲的马斯克抑制不住自己的兴奋:Neuralink 推出的新设备,通信能力提升百倍,又尺寸极小易于植入,在技术上是一个重要突破。新版本的脑机接口尺寸更小,性能更好,和 Apple Watch 等智能手表一样能够待机一整天,在你睡觉的时候无线充电。马斯克等人给它的命名很简单:the Link v 0.9 版。「新版的脑机接口就像安装在你脑中的 Fitbit 手环,」马斯克说道。马斯克表示,目前的脑机接口可支持 1024 个信道(之前的设备只能做到 6-8 个),而且可以安全地植入多个,尺寸为 23mm×8mm,植入后紧贴颅骨,位置稳定且隐蔽,不容易伤害软组织。「我现在可能就装了个 Neuralink,但你们不会知道的,」马斯克说道。相比去年在小鼠上植入的 USB-C 有线脑机接口,the Link 的无线技术显然距离实用化迈进了一大步。马斯克表示,这种脑机接口现在的连接距离 5-10 米,和蓝牙耳机差不多(事实上它的确是用蓝牙进行通信的),它可以和你的手机无线连接。同时也因为可以实时连接,所以软件也可以不断升级,逐渐增加功能。有新的脑机接口,Neuralink 也开发了新版的手术机器人,相比去年的「缝纫机」看起来有了很大进步。这台机器会对大脑结构进行扫描,小心避开危险区域,所以植入过程也不会对大脑产生伤害。为了对 Neuralink 的效果进行验证,研究人员在猪的体内植入脑机接口,并展示出来,马斯克说道:「这是真正的 live demo。」选择猪这种动物,是因为它们与人类的大脑相似性较高,同时也易于保持快乐。要想对大脑的行动进行干预,首先我们需要对不同动作产生的脑部电波变化进行预测,这项工作目前已经实现了。在活动现场,我们可以实时看到有植入体动物的脑电波图。现在,脑机接口可以协同 AI 算法读取出大脑活动信息,未来研究人员将尝试进行写入。这会是治疗疾病、进行矫正的基础。Neuralink 技术的进展似乎预示着脑机接口技术的研发正在步入正轨。发布会上,马斯克还宣布了一个好消息:Neuralink 的脑机接口设备,已经在 7 月份获得了 FDA 的「Breakthrough Devices Program(突破性设备计划)」许可,即将在人类身上进行植入实验,该公司也正计划进行更多的实验批准申报。FDA 的「突破性设备计划」旨在通过更快地医疗设备开发、评估和审核,为患者和医疗设备需求者提供及时使用的机会,同时保留法定的标准以进行上市前的批准。有了 FDA 批文,意味着实验进入了重要新阶段。消息一出,现场响起掌声。不到一小时植入脑机接口马斯克的 Neuralink 0.9 版现在到了什么进度?过去几个月,Neuralink 为实验猪植入了宽度为 22.5 毫米、厚度为 8 毫米的设备。该硬件的顶部有一个计算芯片,上面有 64 根微小的线,线的末端悬有传感器。开颅手术之前,外科医生会将动物麻醉。移除部分头骨后,机器人会将线放入大脑的特定部位,以便传感器靠近神经元,读取清晰的大脑活动信号。机器人使用计算机视觉软件、高端相机及其他技术让线实现精确对准,缝合过程大约需要 30 分钟。但马斯克在接受采访时表示他对整个过程需要花费的时间并不满意。从术后恢复效果来看,目前站在摄像机面前的三头小猪都十分安详,Joyce 没有接受过植入手术,Dorothy 接受过手术,现在已经移除 Link 设备,伤口已经完全愈合,和其他没有植入物的小猪一样。格特鲁德则仍然佩戴 Link 芯片,当饲养员给格特鲁德喂食并蹭了蹭它的鼻子时,身后的一块电脑屏幕就会显示出变化:它的神经元开始兴奋,也就是在响应人类的触摸动作。与马斯克一同出现在演讲中的这台外科手术机器人同样吸引了许多关注。这台机器人来自温哥华的一家工业设计公司 Woke Studio,类似此前的耳后通讯终端。需要指出的是,这台机器人的底层技术仍然由马斯克的 Neuralink 负责,Woke Studio 负责外观和用户体验部分。Neuralink 手术机器人由三个部分组成:头部、身体和底部。机器人的头部是头盔的形状,能够包裹住患者的头部进行操作,还能指导手术针。此外,头部还包括用于绘制患者大脑图像的嵌入式相机和传感器。这款手术机器人的设计旨在使其具有拟人化的特征,使这种侵入性手术看起来没那么可怕。头盔内部还衬有一次性袋子,用于无菌操作。接受一场脑机接口的植入手术耗时不超过一小时,不需要进行全身麻醉,并且「当天就能出院」。尽管患者不会清醒着目睹这台机器的运转,但这台机器人的设计仍然遵循了马斯克的产品普遍拥有的设计美感。在无菌性和维护方面,它也需要满足医疗方面的要求,为手术操作者提供良好的使用体验。目前脑机接口的连接还比较表面,马斯克等人表示,未来的脑机接口会更深入大脑,如果更深的话,可以解决一些更加复杂的问题,甚至可以解决失明、失聪。我们都很期待用 Neuralink 来玩《星际争霸》,马斯克也回答了脑机接口未来是否能用来打游戏的问题:「当然,100% 可以。打打孤岛危机(Crysis)什么的不成问题」。脑后插管,创造新人类不过,缓解抑郁症,帮助解决强迫症和治疗脑外伤才是 Neuralink 发展这门技术的初衷。在 2019 年 7 月,马斯克「脑后插管」的黑科技首次亮相,其头骨钻孔、植入芯片的方法让世人惊艳。这种微创的手术方式可以让大脑与微小的电极相连,最终有助于恢复颅脑外伤患者的大脑功能。研究团队此前已经在小鼠和灵长类动物中成功地进行了这类实验。最终,马斯克希望能够使芯片植入的过程像激光视力矫正手术一样具有非侵入性,甚至不需要做全身麻醉。Neuralink 的一些手术需要神经外科手术机器人完成,该机器人可将一根柔韧的「线」与已经接入微型可植入计算机芯片的大脑相连。Neuralink 去年发布的「缝纫机」就是上面这个样子。用激光在头骨上钻孔,把电线和芯片植入你的大脑,这种方式你可以接受吗?业内专家:马斯克的话,不是满嘴跑火车今年 5 月,马斯克在做客一个播客节目时曾对 Neuralink 作出预测:「我认为这家创业公司会在不到一年时间内把神经链接植入人体内。」他描述了一种程序,可用于治疗癫痫和帕金森氏症等疾病。在最近社交网络上的交流中,面对人们的大量问题,马斯克也陆续表示:用脑机接口治疗成瘾、强迫症和抑郁症不成问题,治疗大脑损伤、渐冻症「很有潜力」。这些设备真的可以实现马斯克所说的技术突破吗?截至目前,按照科技界和神经科学家们的看法,的确是有可能的。曾资助过 Neuralink 科学家项目的 Justin Sanchez 认为,目前全球约有 20 万人已经植入了广义上的人工神经体。此类技术目前的发展速度较快,Sanchez 所在的 Battelle Memorial 研究所目前已经开发出一种基于神经技术的非植入设备,其目的是改善人们的高尔夫球挥杆动作。Neuralink 植入大脑的导线和电极长这样。马斯克选择今天发表研究进展的另一个重要原因,可能是 Neuralink 有望在明年进行人体试验。要想快速进入临床阶段,这家公司需要从美国食品药品监督管理局(FDA)获得跳过常规监管程序的豁免。这一工作目前看来执行的进度不错。不过可能还有问题需要解决:目前 Neuralink 植入大脑使用的柔性聚合物不太可能在人类体内工作十年——这是 FDA 要求不易拆除植入医疗设备能够坚持的最短时间。「如果要测试一个东西能否坚持 10 年,那么你必须真的等待 10 年,」德州人机交互设备公司 Paradromics 首席执行官 Matt Angle 说道。至于脑机接口能否治疗抑郁症和成瘾行为,神经科学家们一致认为,将电极放在大脑中可以帮助缓解这些状况。实际上,除了 Neuralink,也有其他研究团队在做这件事,其中包括明尼苏达大学的 Alik Widge。这种治疗包括在脑内称为内囊的部位上放电极,并通过刺激与前额叶皮层的连接来改善认知能力,如感知和判断。Widge 表示,全世界大约有 200 名患者已经尝试了这种抑郁症治疗技术。Neuralink 的上一代脑机接口「产品」示意图。在一些国家,阿片类药物成瘾者已经把电极植入大脑作为「戒毒」方法了。在美国,去年曾有一名男子在 WVU 洛克菲勒神经科学研究所接受了这样的手术。一位发言人称,此后他戒除了阿片类药物。本月初,另一名阿片类药物成瘾者接受了同样的手术。大脑损伤呢?马斯克曾在推特的回复中表示,Neuralink「具有帮助大脑受损、自闭症和肌萎缩性侧索硬化症(ALS,渐冻症)患者的潜力」。深度脑部刺激或通过植入电极用于颅脑外伤治疗,对于很多患者而言已是治疗的选项,并已获得了积极的成果。令人鼓舞的是,此类技术也可以帮助解决自闭症,但是治疗 ALS 可能会更加困难。尽管眼前的挑战还有很多,由于脑机接口在帮助瘫痪者和神经系统疾病患者方面具有巨大潜力,许多科学家都在欢迎马斯克参与这一医学领域。但也有人警告说,他对这些设备未来实用性的主张远未得到证实,而且他的进度表也显得过于乐观。最终结果会是如何,可能还要等待在人身上试验的结果了。从 SpaceX 到 Boring,上天入地,控制大脑,马斯克旗下的公司在各个领域不断向人类科技最前沿发起挑战。这些曾被人质疑脑洞过大的行为,最近一段时间已经收获了不少成功。更不用说还有全球市值第一的车企特斯拉。即使是这样,用脑机接口直连计算机的概念来得这么快,也超出了我们的预料,人们可能还需要一段时间来接受。最后,脑机接口能不能连硬盘记录你的记忆?马斯克说:「有了可以读写大脑活动的设备,我们自然会想到把 Neuralink 做成《黑镜》里那样,让机器作为人类记忆的备份工具。但现在肯定还是不行的,未来有可能会成功。」
文章
传感器  ·  人工智能  ·  算法  ·  机器人  ·  人机交互  ·  信息无障碍  ·  芯片  ·  UED  ·  计算机视觉  ·  智能硬件
2021-12-04
真·降维打击:这篇SIGGRAPH 2020论文帮你「想象」三维生物眼里的四维空间
四维空间是什么?三个空间维度加一个时间维度?不,那是四维时空,跟四维空间是两个不同的概念。四维空间的第四个维度也是空间维度,和我们熟知的 x、y、z 属于同一性质。作为一个三维世界的生物,人类是很难想象出四维空间的,就像一个困在二维空间里的人无法想象三维空间一样。对于这个二维世界的小人来说,一个三维世界的物体是神秘莫测的,它会时而变换形态,时而消失,因为该物体转换了角度或移动到了第三个维度。所以,对于一个没有上帝视角的二维世界小人来说,预测三维物体的移动轨迹、形状变化着实有点困难,因为他只能看到一条条变幻莫测的线。同理,在一个四维空间里,我们就变成了那个可怜的小人,眼前的四维物体似乎和三维物体没什么两样,但当它们在四维空间自由移动、碰撞时,我们也会发现它们时而变换形态,时而消失不见。这种情景我们通常只会想象一下,毕竟在现实生活中是体验不到的。但也有人对此兴味盎然,将其搬到了游戏世界中,甚至还凭借游戏的论文中了计算机图形学顶会 SIGGRAPH。在这篇论文中,研究者提出了一个适用于任何空间维度的刚体动力学公式。用几何代数来描述刚体的状态和运动方程。他将碰撞检测算法扩展到𝑛维,解析了物体之间的碰撞和接触。虽然作者实现的是四维,但该方法可以扩展到任意维度。他通过这些四维刚体的三维截面来展示他们,用户可以实时操纵这些物体。不同于常见的研究,这篇 6 页的论文充满了各式各样的几何代数公式。在双盲审稿过程中,一位审稿人对该论文的评价是:「异想天开(whimsical)」。大部分研究工作都是从 2012 年开始的,但作者也根据审稿人的建议增加了关于神秘翻转(Dzhanibekov effect)的部分。在此之前,物理模拟一直集中并局限于二维和三维的情况。但作者提出,使用所需方程式的恰当公式,就有可能将它们推广到更高维度。几何代数提供了一个简单的与维度无关的公式,可以实时操作相互碰撞的 n 维物体,就好像它们是真实的物体一样。这使得这些高维物体不那么抽象,和大多数人对它们的体验形成鲜明对比。这篇论文的贡献在于:1、将基于几何代数的经典三维刚体动力学公式推广到了 n 维。通过将几何代数算子表示为矩阵,以一种简单的方式构建、对角化(diagonalize)、转换任意 n 维简单网格,无论这个 n 是多少。这样一来,就可以在 n 维中建立欧拉方程,比如研究四维欧拉方程在无力矩条件下的情况。2、计算 n 维中的碰撞和接触处理过程,包括静摩擦和动摩擦。作者给出了 Minkowski 差分法和基于几何代数的分离轴定理碰撞检测方法的 n 维公式。3、提出了一种类似于我们对现实三维空间体验的四维物体互动方法。也许这篇论文最大的意义在于,它为我们提供了一种从侧面了解四维空间的方式。基于这篇论文中提到的技术,论文作者 Marc ten Bosch 开发了两款游戏,上面动图展示的就是其中一款游戏——「4D Toys」。这款游戏旨在以三维视角展示四维物体在四维空间里的特性。有人表示,该游戏就像在向一位盲人解释颜色的含义。目前,该游戏已经在 Steam、IOS 等平台上线。除此之外,他还打造了另外一款 4D 游戏「Miegakure」。在这个游戏中,一系列平行的 3D 世界因谜题而串联在一起,玩家可用视角转换的方式触发穿越机制,到达其他的 3D 场景。在 SIGGRAPH 2020 技术论文专场,作者也将详细介绍 4D Toys 和 Miegakure 游戏。对于 Miegakure 的老粉来说,论文被大会接收也令他们激动不已:还有人表示:「终于等到点书面的资料了,感觉 follow 这项研究已经有十年了!」估计这也是 SIGGRAPH 2020 技术论文计划开展以来,史上第一项介绍独立游戏的研究吧。论文地址:https://marctenbosch.com/ndphysics/NDrigidbody.pdf论文介绍界面:https://marctenbosch.com/news/2020/05/siggraph-2020-technical-paper-n-dimensional-rigid-body-dynamics/
文章
算法  ·  图形学  ·  信息无障碍
2021-12-03
技术反低俗究竟有多难?这一次,今日头条率先引入了 BERT
「灵犬」是一款检测内容健康程度的小工具,旨在帮助人们打击低俗低质内容,净化网络空间。新一代「灵犬」首次引入了自然语言处理领域里最近热门的 BERT 模型,在多达 1.2T 的数据训练之后,灵犬的内容识别准确率提升到了 91%。人工智能真的可以解决内容审核了?在今日头条总部,字节跳动人工智能实验室总监王长虎和我们进行了一番交流。目前看来,技术可以解决的问题很多,但缺点也不少。技术审核之难在移动互联网成为主流的今天,科技公司需要处理的数据正在呈几何级数增长,很多企业都在建立自己的技术审核机制。去年 9 月,Facebook 发布并部署了名为「罗塞塔」的系统来解决内容审核问题,罗塞塔每天可以实时从超过 10 亿张图像和视频帧中提取文本,并能识别并审核多种语言的文字内容。在国内,知乎去年推出的社区管理大脑「瓦力」,希望通过多种算法处理社区内不友善、答非所问、低质量、违法违规等方面的内容。据介绍,这一系统每天可以清理约 5000 条新产生的低质量内容。尽管各家公司都在使用自己的算法技术应对违规内容,但面对语言和图片的无限可能性,人工智能还是经常会出错。而另一方面,内容审核就像无人驾驶汽车一样,漏判造成的后果会很严重。没有足够召回率的话,再优秀的算法也无法实用化。去年的美国独立日期间,「独立宣言」的选段曾被 Facebook 的算法判定为涉嫌种族歧视而遭删除。2016 年,Facebook 曾恢复一张被误删除的越战新闻照片。照片描述了美国在越南轰炸制造的「战争恐怖」,画面是一个被凝固汽油弹烧伤的越南女孩,赤身裸体在奔跑。这是机器审核误伤的著名案例。那么,文本、图片处理的技术难点在哪里?让我们先从让技术如何学习语言说起。语言理解:皇冠上的明珠自然语言处理(NLP)的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生起,就有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译及自然语言理解。这并不意味着今天的机器对于语言的理解能力有多高,事实上,我们距离真正的智能还有很长一段路要走。计算机非常擅长使用结构化数据,例如电子表格和数据库表。但是我们人类通常使用非结构化的文字互相交流,这对计算机来说不是一件好事。让计算机理解「It」就是指代「London」,是非常困难的一件事——更不用说不带脏字的骂人和阴阳怪气的回复了。为了让机器理解语言,我们通常需要遵循一个流水线过程:首先把文本拆分成单独的句子,进而把句子分成不同的单词或标记,接下来,我们需要让机器尝试猜测每个标记的词类:名词,动词,形容词等等。经过词形还原、识别停止词、依赖解析等过程之后在命名实体识别(NER)过程中通过统计模型,使用上下文来猜测单词代表的是哪种类型的名词。自然语言处理技术虽然已经让计算机一定程度上能够理解文字的含义,但大多数研究都是基于英文的。仅从 NLP 研究角度而言:中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化(单复数、时态等)而汉语缺少这些屈折变化。让 BERT 学会中文对于文字内容审核来说,算法必须能够通过「拟合」过程知晓单词的语义;另一方面,算法也必须具备泛化能力,在理解语义的基础上,能够举一反三。目前最常见的文本分类模型主要包括 Fasttext、TextCNN、TextRNN 及其各种变体。其中,fasttext 直接基于文本中 token 的平均嵌入进行分类,该方法虽然未考虑词序,但简单有效。TextCNN 基于卷积建模文本的局部依赖关系 (local feature), 通过池化学习全局信息。CNN 能够在降维的同时捕捉到局部词序关系。若要建模长距离依赖关系,需依赖于多层的卷积和池化层,模型结构较复杂。TextRNN 基于 LSTM 或 GRU 建模文本的序列模式, 能够有效建模文本的长距离依赖关系。今日头条「灵犬」背后的文本分类模型经历了三次迭代,第一代灵犬的文本识别模型应用的是「词向量」和「CNN(卷积神经网络)」技术,训练数据集包含 350 万数据样本,对随机样本的预测准确率达到 79%。第二代灵犬,应用的是「LSTM(长短期记忆)」和「注意力机制」,训练数据集包含 840 万数据样本,准确率提升至 85%。每个新版本相对于旧版本,在技术和数据集层面都有了明显的跃升。第三代灵犬已经用上了 BERT。「BERT」是当前最先进的自然语言处理技术,NLP 领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上曾经一次刷新了 11 项业内最佳记录,但也因为高达 3 亿的参数量让大多数开发者望而却步。「BERT」提出了一种深层模型结构,使用「遮挡」方式同时利用上下文提高准确性,并通过无监督学习对天然超大规模语料建模。由于自然语言具有天生的连贯性,经过大规模训练的语言模型的预测能力,达到了前所未有的水平。新版「灵犬」同时应用了「BERT」模型和半监督学习,并在此基础上使用了专门的中文语料,在不牺牲效果的情况调整了模型结构,使得计算效率达到了实用水平。今日头条表示,相比之前的 LSTM+Attention 方案,BERT 方案下的内容识别模型机器延迟为 125ms,算力需求增加了 33 倍,准确率的提升则为 7.04%。图像识别:总有奇怪的事情发生与文字不同,机器进行图像识别的过程就像在盲文上进行阅读,像素是一个个信息点,最终要通过所有信息点内容的集合做出一个最为合理的判断。这种方法让机器在特定的图像视觉处理上已经可以超过人类。比如说在动植物物种的识别上,计算机就比我们更为「专业」。但在更多的情况下,内容检测还是一个具有挑战性的任务。目前常见的图像分类的基本思路是基于 ImageNet 预训练分类模型 (e.g. ResNet、 Xception、 SENet 等),在进行结构和参数的调整;然后基于微调后的模型提取图像 feature,作为特定任务分类模型的输入进行图像分类。这些基于卷积神经网络的方法有着被「欺骗」的风险。上图中的动物形象,自 1892 年首次出现在一本德国杂志上之后就一直让人感到迷惑:有些人只能看到一只兔子,有些人只能看到一只鸭子。有人把这张图片输入进谷歌机器图像识别工具中,结果机器认为 78% 的概率是一只鸟,68% 的概率是一只鸭子。供职于 BuzzFeed 的数据科学家 Max Woolf 随后设计了一个更复杂的实验:他干脆让这张图旋转起来,想要看看机器会做何判断。结果,谷歌 AI 最初认为这是一只鸭子,鸭子嘴指向 9 点方向。随着鸭子嘴向上转到 10 点方向,很快谷歌 AI 就认为画里面是兔子了,直到鸭子嘴转到 2 点方向之后。此后一段时间,谷歌 AI 认为既不是鸭子也不是兔子。一直到 7 点方向,谷歌 AI 再次肯定是一只鸭子。有人认为,这或许是因为人类在判断物体时对于空间的认识具有先验性——用这样的标注数据训练出的模型,在不知不觉中也将空间和方向等因素考虑在内了。而且,不仅旋转图片会让机器迷惑,有时候就连不同的图片尺寸也会让机器给出不同的判断。优化深度学习模型对于图片内容审核来说,难点包含三方面:数据不均衡、类内方差大和不可穷举。低俗图片样本占数据集内容的比例较低,经常导致深度学习模型训练效果不佳。此外,低俗图片的种类丰富、繁杂,构成低俗图片的特征千差万别。对此,「灵犬」运用的解决方案是优化深度学习。「我们分别在数据、模型、计算力等方面做了很多优化,」王长虎介绍道。「在数据层面上,灵犬已累积了上千万级别的训练集。而在模型层面上,灵犬针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题。在计算力层面上,灵犬利用分布式训练算法以及 GPU 训练集群,加速模型的训练和调试。」为应对用户上传不同比例的图片,今日头条在图像识别算法中设计了「多桶模型」,使得各种比例的图片都能有很好的识别效果。在模型进行预测时,算法会根据传入的图片比例寻找比例最接近的「桶」,进而给出相应的预测结果。由于不同比例的桶对应的模型的参数是共享的,所以预测时间和单模型基本接近。而由于经过了对应模型的处理,算法也可以进一步提升准确率。在以人为主的场景中,为解决人在图片中的面积占比变化较大的问题,工程师引入了特征金字塔结构,对不同尺度的物体,它能提高模型提取一致性特征的能力。常规的网络结构会对图片进行多次卷积,得到图片的特征图,再对接全连接层进而得到图片的分类结果——但这种方法有一个缺点,如果测试集中人在图片中的占比和训练集差距较大,就会导致效果下降。在网络中引入特征金字塔结构,将底层特征和上层特征融合,并在每层给出预测结果,可以同时利用底层特征的高分辨率和高层特征的高语义信息。为应对在图片中出现小范围问题区域的挑战,今日头条还设计了分割辅助分类网络。该网络结合了特征金字塔结构,训练分为两部分,分割部分每层的预测结果都会与标注区域计算损失,分类部分将预测出的区域与特征图进行叠加,再进入分类器和分类标签计算损失;预测时,特征金字塔结构会输出预测区域,将该区域与特征图叠加,再送入分类器即可得到分类结果。虽然使用了优化过的算法,但一些技术难以搞定的问题,现阶段还有赖于人工判断:世界名画中常常出现裸女形象,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,或许类似于裙底偷拍。王长虎认为,针对低俗判断问题的复杂性和不同判断方式的局限性,一方面需要不断进化技术模型,另一方面需要有效结合技术和人工判断两种方式。「我们的模型还在不断进化,除了灵犬反低俗系统,还有色情、低俗、标题党、虚假信息、低质等几百种模型,」王长虎表示。「自 2012 年建立以来,今日头条已建立起近万人的专业审核团队来保证内容的安全。」人工智能可以帮助我们大幅提升审核效率和准确率,但在现阶段甚至很长一段时间内,它仍无法完全代替人类进行所有判断。因为机器还很难理解内容背后的深意,也不会在不同文化场景中做自由切换,或及时学会不断变化的标准尺度。目前看来,在内容审核上机器+人工的方法是最合理通行的做法。
文章
机器学习/深度学习  ·  人工智能  ·  自然语言处理  ·  算法  ·  安全  ·  自动驾驶  ·  信息无障碍  ·  计算机视觉  ·  开发者  ·  异构计算
2021-12-01
1 2 3 4 5 6 7 8 9
...
20
跳转至:
机器之心
0 人关注 | 0 讨论 | 1040 内容
+ 订阅
查看更多 >
智能相对论
0 人关注 | 0 讨论 | 133 内容
+ 订阅
查看更多 >
AI有道
0 人关注 | 0 讨论 | 214 内容
+ 订阅
查看更多 >
汪子熙
9 人关注 | 0 讨论 | 9731 内容
+ 订阅
  • 一个前端开发工程师的天猫精灵自定义技能开发评测报告
  • 我与无影的初体验:使用无影云桌面进行一个开源 Angular 项目的端到端测试
  • 关于 SAP Spartacus OAuth 2.0 Resource Owner Password Flow 实现的一些讨论
查看更多 >
开发与运维
5179 人关注 | 125223 讨论 | 180519 内容
+ 订阅
  • 从docker到istio之四 - istio分流应用
  • Vue报错 Module build failed: Error: Plugin/Preset files are not allowed babel-preset-stage-2 解决办法
  • ​GitHub 推出新特性:展示单个文件所有者
查看更多 >