• 关于

    预测计算可以做什么

    的搜索结果

回答

当您在Apache Spark中使用数值计算时,您必须记住两件事: FP算术不是关联的。 scala> (0.1 + 0.2) + 0.3 == 0.1 + (0.2 + 0.3)res0: Boolean = falseSpark中的每次交换都是非决定论的潜在来源。为了实现最佳性能,Spark可以按任意顺序合并上游任务的部分结果。 这可以通过一些防御性编程来解决,但运行时开销通常很高,在实践中很有用。 因此,即使程序不依赖于随机数生成器(如computeSVD),或者如果设置了生成器种子,最终结果也会波动。 在实践中,除了重写内部之外,你真的没什么可做的。如果您怀疑问题在某种程度上是病态的,您可以尝试使用一些随机噪声构建多个模型,以查看最终预测的敏感程度,并在生成预测时将此考虑在内。
社区小助手 2019-12-02 01:46:29 0 浏览量 回答数 0

问题

《三体》里的超级计算机,我们今天能造出来吗?

                  在科幻巨作《三体》里,刘慈欣有这么一段描述:                        每秒500万亿次浮点运算的计算机,出现在“面壁计划”里。这是...
宝惜 2019-12-01 21:17:16 6348 浏览量 回答数 6

回答

我们常常用深度学习这个术语来指训练神经网络的过程。有时它指的是特别大规模的神经网络训练。那么神经网络究竟是什么呢?在这个视频中,我会讲解一些直观的基础知识。 让我们从一个房价预测的例子开始讲起。 假设你有一个数据集,它包含了六栋房子的信息。所以,你知道房屋的面积是多少平方英尺或者平方米,并且知道房屋价格。这时,你想要拟合一个根据房屋面积预测房价的函数。 如果你对线性回归很熟悉,你可能会说:“好吧,让我们用这些数据拟合一条直线。”于是你可能会得到这样一条直线 但有点奇怪的是,你可能也发现了,我们知道价格永远不会是负数的。因此,为了替代一条可能会让价格为负的直线,我们把直线弯曲一点,让它最终在零结束。这条粗的蓝线最终就是你的函数,用于根据房屋面积预测价格。有部分是零,而直线的部分拟合的很好。你也许认为这个函数只拟合房屋价格。 作为一个神经网络,这几乎可能是最简单的神经网络。我们把房屋的面积作为神经网络的输入(我们称之为),通过一个节点(一个小圆圈),最终输出了价格(我们用表示)。其实这个小圆圈就是一个单独的神经元。接着你的网络实现了左边这个函数的功能。 在有关神经网络的文献中,你经常看得到这个函数。从趋近于零开始,然后变成一条直线。这个函数被称作ReLU激活函数,它的全称是Rectified Linear Unit。rectify(修正)可以理解成,这也是你得到一个这种形状的函数的原因。 你现在不用担心不理解ReLU函数,你将会在这门课的后面再次看到它。 如果这是一个单神经元网络,不管规模大小,它正是通过把这些单个神经元叠加在一起来形成。如果你把这些神经元想象成单独的乐高积木,你就通过搭积木来完成一个更大的神经网络。 让我们来看一个例子,我们不仅仅用房屋的面积来预测它的价格,现在你有了一些有关房屋的其它特征,比如卧室的数量,或许有一个很重要的因素,一家人的数量也会影响房屋价格,这个房屋能住下一家人或者是四五个人的家庭吗?而这确实是基于房屋大小,以及真正决定一栋房子是否能适合你们家庭人数的卧室数。 换个话题,你可能知道邮政编码或许能作为一个特征,告诉你步行化程度。比如这附近是不是高度步行化,你是否能步行去杂货店或者是学校,以及你是否需要驾驶汽车。有些人喜欢居住在以步行为主的区域,另外根据邮政编码还和富裕程度相关(在美国是这样的)。但在其它国家也可能体现出附近学校的水平有多好。 在图上每一个画的小圆圈都可以是ReLU的一部分,也就是指修正线性单元,或者其它稍微非线性的函数。基于房屋面积和卧室数量,可以估算家庭人口,基于邮编,可以估测步行化程度或者学校的质量。最后你可能会这样想,这些决定人们乐意花费多少钱。 对于一个房子来说,这些都是与它息息相关的事情。在这个情景里,家庭人口、步行化程度以及学校的质量都能帮助你预测房屋的价格。以此为例, 是所有的这四个输入, 是你尝试预测的价格,把这些单个的神经元叠加在一起,我们就有了一个稍微大一点的神经网络。这显示了神经网络的神奇之处,虽然我已经描述了一个神经网络,它可以需要你得到房屋面积、步行化程度和学校的质量,或者其它影响价格的因素。 在于,当你实现它之后,你要做的只是输入,就能得到输出。因为它可以自己计算你训练集中样本的数目以及所有的中间过程。所以,你实际上要做的就是:这里有四个输入的神经网络,这输入的特征可能是房屋的大小、卧室的数量、邮政编码和区域的富裕程度。给出这些输入的特征之后,神经网络的工作就是预测对应的价格。同时也注意到这些被叫做隐藏单元圆圈,在一个神经网络中,它们每个都从输入的四个特征获得自身输入,比如说,第一个结点代表家庭人口,而家庭人口仅仅取决于和特征,换句话说,在神经网络中,你决定在这个结点中想要得到什么,然后用所有的四个输入来计算想要得到的。因此,我们说输入层和中间层被紧密的连接起来了。 值得注意的是神经网络给予了足够多的关于和的数据,给予了足够的训练样本有关和。神经网络非常擅长计算从到的精准映射函数。 这就是一个基础的神经网络。你可能发现你自己的神经网络在监督学习的环境下是如此的有效和强大,也就是说你只要尝试输入一个,即可把它映射成,就好像我们在刚才房价预测的例子中看到的效果。 在下一个视频中,让我们复习一下更多监督学习的例子,有些例子会让你觉得你的网络会十分有用,并且你实际应用起来也是如此。
因为相信,所以看见。 2020-05-19 20:30:52 0 浏览量 回答数 0

问题

比赛_快速入门_4_19_update_仅供参考,思维不要受局限

【这里只讲快速入门——即破题,正负样本不平衡、特征数量等问题就自己多看论文或者其他资料吧~~如果还有数据挖掘相关基础知识不了解的,建议看看《数据挖掘导论》】 【以下是理解错误案例】:错误的根本...
小斯never 2019-12-01 21:43:08 30563 浏览量 回答数 24

问题

根据传入的模型计算mse

我正在尝试绘制数据的均方误差图,但是我很难弄清楚该怎么做。我知道您既需要“ true”值又需要“ predicted”值才能获得mse,但是我的项目布局方式非常令人困惑。 我有一种生成模型的方法,...
is大龙 2020-03-24 19:09:14 1 浏览量 回答数 1

回答

EDA的目的是去挖掘数据的一些重要信息。一般情况下会从粗到细的方式进行EDA探索。一开始我们可以去探索一些全局性的信息。观察一些不平衡的数据,计算一下各个类的方差和均值。看一下前几行数据的信息,包含什么特征等信息。使用Pandas中的df.info()去了解哪些特征是连续的,离散的,它们的类型(int、float、string)。接下来,删除一些不需要的列,这些列就是那些在分析和预测的过程中没有什么用的。 比如:某些列的值很多都是相同的,或者这些列有很多缺失值。当然你也可以去用一些中位数等去填充这些缺失值。然后我们可以去做一些可视化。对于一些类别特征或者值比较少的可以使用条形图。类标和样本数的条形图。找到一些最一般的特征。对一些特征和类别的关系进行可视化去获得一些基本的信息。然后还可以可视化两个特征或三个特征之间的关系,探索特征之间的联系。 你也可以使用PCA去了解哪些特征更加重要。组合特征去探索他们的关系,比如当A=0,B=0的类别是什么,A=1,B=0呢?比较特征的不同值,比如性别特征有男女两个取值,我们可以看下男和女两种取值的样本类标会不会不一样。 另外,除了条形图、散点图等基本的画图方式外,也可以使用PDF\CDF或者覆盖图等。观察一些统计数据比如数据分布、p值等。这些分析后,最后就可以开始建模了。 一开始可以使用一些比较简单的模型比如贝叶斯模型和逻辑斯谛回归模型。如果你发现你的数据是高度非线性的,你可以使用多项式回归、决策树或者SVM等。特征选择则可以基于这些特征在EDA过程中分析的重要性。如果你的数据量很大的话也可以使用神经网络。然后观察ROC曲线、查全率和查准率。
珍宝珠 2019-12-02 03:14:11 0 浏览量 回答数 0

问题

计算OLS预测的研究残差和outlier_test()

我正在用statmodel OLS做迭代的离群值消除。我已经安装模型使用。 ols_result = sm.OLS(y,X).fit() 然后我可以得到研究的删除剩余外部和bonferroni与 ols_result.out...
kun坤 2019-12-25 09:45:30 0 浏览量 回答数 0

问题

计算OLS预测的研究残差和outlier_test()

我正在用statmodel OLS做迭代的离群值消除。我已经安装模型使用。 ols_result = sm.OLS(y,X).fit() 然后我可以得到研究的删除剩余外部和bonferroni与 ols_result.out...
kun坤 2019-12-25 09:59:19 0 浏览量 回答数 0

问题

竞赛中的点滴成长

  时隔一个月再去回顾这个比赛,其实更多的是一种反思与过程的分享吧。来自南昌航空大学材料学院的一名大三本科生,参加这个比赛纯粹是因为喜欢,或者说,是抱着一种不怕死不怕被虐不怕丢脸的心态...
仰慕学姐 2019-12-01 21:54:56 9215 浏览量 回答数 5

问题

让云计算真正省钱,解决云存储架构九个问题让云计算真正省钱

如何从存储架构层面,使企业的数据中心更适合云计算的环境?要解决这一问题,先要弄清楚什么是云计算,以及“云”对企业的存储有哪些需求。  据分析机构预测,到2012年...
hamtyb 2019-12-01 20:27:33 11001 浏览量 回答数 4

问题

《公交线路客流预测》攻略-附平台mr示例代码

有幸参加了天池客流预测的内部赛,内部赛比赛时间比较短,也没有很做复杂的工作,下面简单说一下比赛一些经验。 赛题理解:        赛题是“公交线路客流预测”,根...
楠兮 2019-12-01 21:31:10 16683 浏览量 回答数 5

问题

祛魅之旅

       我已经不记得第一次听到“大数据”这个时尚名词是什么时候了。伴随着“大数据”出现的又总是牛逼闪闪的公司和学者,实在是遥不可及。读过 维克托·迈尔舍恩伯格的《大数据时代》,讲了很多伟大的数据案列...
adamus_7 2019-12-01 21:55:14 7040 浏览量 回答数 3

回答

什么是Kubernetes? Kubernetes是一种轻便的可伸展的开源平台,用来管理容器化的工作或者服务,拥有声明化配置和自动化等优点。它现在拥有一个快速扩大与成长的生态系统,其服务,工具和技术支持可被广泛用于各个方面。 为什么我需要Kubernetes,它用来做些什么? Kubernetes拥有大量的特性,比如: 容器平台 微服务平台 轻量化云服务平台 等等 Kubernetes提供了一个以容器为中心的管理环境,它根据用户的工作负载来协调计算,网络和储存基础架构。它既有PaaS的简化性,又具有IaaS的灵活性,并支持跨基础架构的可移植性 为什么Kubernetes是一个平台? 尽管Kubernetes提供了大量的功能性,总会有新的场景需要新的功能。一些特性的应用程序工作流程可以被简化来加快开发速度。最初的部署通常需要大规模的应用自动化。这就是为什么Kubernetes被设计成一个平台服务,用来创建一个包含工具和其他组成部分的系统环境,来使部署,测量和管理应用更加容易。 Label可以授权用户按照他们的想法来组织他们的资源。Annotation允许用户布置含有自定义信息的资源,来使工作流更加顺畅,并为管理工具提供到checkpoint状态的一种更简单的方式。 此外,Kubernetes控制平面基于开发人员和用户可用的相同API构建。用户可以编写他们自己的 controller,比如schedulers,这些API可以通过通用命令行工具进行定位。 这种设计使得许多其他系统能够在Kubernetes上面构建 Kubernetes不是什么 Kubernetes不是一个传统的,包罗万象的PaaS(平台即服务)系统。由于Kubernetes在容器级而不是在硬件级运行,因此它能提供一些PaaS产品常用的通用功能,比如部署,扩展,负载均衡,日志记录和监控。但是,Kubernetes并不是一个整体,这些默认解决方案都是可选和可插拔的。Kubernetes提供了构建人员平台的构建模块,但是在一些重要的地方保留了用户选择和灵活性。 Kubernetes: 不限制支持的应用程序类型。Kubernetes旨在支持各种各样的工作负载,包括无状态,有状态和数据处理工作负载。 如果一个应用程序可以在一个容器中运行,它应该在Kubernetes上运行得很好。 不部署源代码并且不构建您的应用程序。持续集成,交付和部署(CI / CD)工作流程由组织和偏好以及技术要求决定。 不提供应用程序级服务,例如中间件(例如,消息总线),数据处理框架(例如,Spark),数据库(例如,mysql),高速缓存,也不提供集群存储系统(例如,Ceph)。 在服务中。 这些组件可以在Kubernetes上运行,和/或可以通过便携式机制(例如Open Service Broker)在Kubernetes上运行的应用程序访问。 不指示日志,监视或警报解决方案。 它提供了一些集成作为概念证明,以及收集和导出指标的机制。 不提供或授权配置语言/系统(例如,jsonnet)。 它提供了一个声明性API,可以通过任意形式的声明性规范来实现。 不提供或采用任何全面的机器配置,维护,管理或自我修复系统。 此外,Kubernetes不仅仅是一个编排系统。 实际上,它消除了编排的需要。 业务流程的技术定义是执行定义的工作流程:首先执行A,然后运行B,然后运行C.相反,Kubernetes由一组独立的,可组合的控制流程组成,这些流程将当前状态持续推向所提供的所需状态。 如何从A到C无关紧要。也不需要集中控制。 这使得系统更易于使用且功能更强大,更具弹性且可扩展 为什么使用容器 过去部署应用的方式,是将应用安装在一个使用操作系统软件包管理器的主机上。这样做的缺点是应用程序的可执行文件、配置、库和生命周期互相影响,也会和操作系统纠缠不清。你也可以构建一个不可被修改的虚拟机镜像来实现可预测的部署和回滚,但是这样显然不够轻量化而且不可被移植 新的方式是在虚拟化的操作系统层来部署容器,而不是在虚拟化的硬件层。这些容器之间彼此独立,相对主机也保持独立。它们有自己单独的文件系统,也不能看到其他容器的进程,而且它们对于计算资源的使用量可以被限制。它们比虚拟机更容易被构建,因为它们从底层基础架构和主机文件系统中解耦出来,也可以跨单机与云之间移植。 因为容器小巧且轻快,一个应用程序可以被打包放到每个容器镜像中。这种一对一的应用对镜像的关系可以使容器发挥出最大功效。有了容器,不可变的容器镜像可以在构建时被创建,而不是在部署时,因为每个应用都不需要依赖于程序的其它应用部分,也不依赖于基础生产环境。同样,容器比VM更加透明,这有利于监控和管理。当容器的生命周期由基础架构管理而不是隐藏在流程管理器之后时,尤其如此。最后,当一个应用被部署在每个容器时,管理容器就变得和管理程序部署一样了。 阿里云导入自建K8S集群 更多阿里云帮助文档 https://help.aliyun.com 希望对您有帮助!
阿里朵 2019-12-02 02:19:54 0 浏览量 回答数 0

问题

MaxCompute产品简介:通告

2017年10月11日—预付费支持自动续费 2017年10月11日,MaxCompute的预付费实例开始支持自动续费,可在 阿里云控制台的续费管理中心操作。 MaxCompute续费操作介绍可以参考 续费管...
行者武松 2019-12-01 22:01:10 1613 浏览量 回答数 0

回答

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。   大数据有四个基本特征:一、数据体量巨大(Vomule),二、数据类型多样(Variety),三、处理速度快(Velocity),四、价值密度低(Value)。   在大数据的领域现在已经出现了非常多的新技术,这些新技术将会是大数据收集、存储、处理和呈现最强有力的工具。大数据处理一般有以下几种关键性技术:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。   大数据处理之一:采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。   在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。   大数据处理之二:导入和预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。   导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。   大数据处理之三:统计和分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。   统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。   大数据处理之四:挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。   整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。   大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。数据流处理的方式适合用于对实时性要求比较高的场合中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务,分别单独进行处理,并且形成小任务的过程中不是进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并简化)作用到这些数据块最终得到结果。   当前,对大数据的处理分析正成为新一代信息技术融合应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据也是信息产业持续高速增长的新引擎。面对大数据市场的新技术、新产品、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测,跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。   目前大数据在医疗卫生领域有广为所知的应用,公共卫生部门可以通过覆盖全国的患者电子病历数据库进行全面疫情监测。5千万条美国人最频繁检索的词条被用来对冬季流感进行更及时准确的预测。学术界整合出2003年H5N1禽流感感染风险地图,研究发行此次H7N9人类病例区域。社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台,医生借此可获得院外临床效果统计数据。基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。   在医药研发方面,大数据的战略意义在于对各方面医疗卫生数据进行专业化处理,对患者甚至大众的行为和情绪的细节化测量成为可能,挖掘其症状特点、行为习惯和喜好等,找到更符合其特点或症状的药品和服务,并针对性的调整和优化。在医药研究开发部门或公司的新药研发阶段,能够通过大数据技术分析来自互联网上的公众疾病药品需求趋势,确定更为有效率的投入产品比,合理配置有限研发资源。除研发成本外,医药公司能够优化物流信息平台及管理,更快地获取回报,一般新药从研发到推向市场的时间大约为13年,使用数据分析预测则能帮助医药研发部门或企业提早将新药推向市场。   在疾病诊治方面,可通过健康云平台对每个居民进行智能采集健康数据,居民可以随时查阅,了解自身健康程度。同时,提供专业的在线专家咨询系统,由专家对居民健康程度做出诊断,提醒可能发生的健康问题,避免高危病人转为慢性病患者,避免慢性病患者病情恶化,减轻个人和医保负担,实现疾病科学管理。对于医疗卫生机构,通过对远程监控系统产生数据的分析,医院可以减少病人住院时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。武汉协和医院目前也已经与市区八家社区卫生服务中心建立远程遥控联系,并将在未来提供“从医院到家”的服务。在医疗卫生机构,通过实时处理管理系统产生的数据,连同历史数据,利用大数据技术分析就诊资源的使用情况,实现机构科学管理,提高医疗卫生服务水平和效率,引导医疗卫生资源科学规划和配置。大数据还能提升医疗价值,形成个性化医疗,比如基于基因科学的医疗模式。   在公共卫生管理方面,大数据可以连续整合和分析公共卫生数据,提高疾病预报和预警能力,防止疫情爆发。公共卫生部门则可以通过覆盖区域的卫生综合管理信息平台和居民信息数据库,快速监测传染病,进行全面疫情监测,并通过集成疾病监测和响应程序,进行快速响应,这些都将减少医疗索赔支出、降低传染病感染率。通过提供准确和及时的公众健康咨询,将会大幅提高公众健康风险意识,同时也将降低传染病感染风险。   在居民健康管理方面,居民电子健康档案是大数据在居民健康管理方面的重要数据基础,大数据技术可以促进个体化健康事务管理服务,改变现代营养学和信息化管理技术的模式,更全面深入地从社会、心理、环境、营养、运动的角度来对每个人进行全面的健康保障服务,帮助、指导人们成功有效地维护自身健康。另外,大数据可以对患者健康信息集成整合,在线远程为诊断和治疗提供更好的数据证据,通过挖掘数据对居民健康进行智能化监测,通过移动设备定位数据对居民健康影响因素进行分析等等,进一步提升居民健康管理水平。   在健康危险因素分析方面,互联网、物联网、医疗卫生信息系统及相关信息系统等普遍使用,可以系统全面地收集健康危险因素数据,包括环境因素(利用GIS系统采集大气、土壤、水文等数据),生物因素(包括致病性微生物、细菌、病毒、真菌等的监测数据),经济社会因素(分析经济收入、营养条件、人口迁徙、城镇化、教育就业等因素数据),个人行为和心理因素,医疗卫生服务因素,以及人类生物遗传因素等,利用大数据技术对健康危险因素进行比对关联分析,针对不同区域、人群进行评估和遴选健康相关危险因素及制作健康监测评估图谱和知识库也成为可能,提出居民健康干预的有限领域和有针对性的干预计划,促进居民健康水平的提高。 答案来源于网络
养狐狸的猫 2019-12-02 02:15:59 0 浏览量 回答数 0

回答

逻辑回归 逻辑回归实际上是一种分类算法。我怀疑它这样命名是因为它与线性回归在学习方法上很相似,但是成本和梯度函数表述不同。特别是,逻辑回归使用了一个sigmoid或“logit”激活函数,而不是线性回归的连续输出。 首先导入和检查我们将要处理的数据集。 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import os path = os.getcwd() + '\data\ex2data1.txt' data = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted']) data.head() 在数据中有两个连续的自变量——“Exam 1”和“Exam 2”。我们的预测目标是“Admitted”的标签。值1表示学生被录取,0表示学生没有被录取。我们看有两科成绩的散点图,并使用颜色编码来表达例子是positive或者negative。 positive = data[data['Admitted'].isin([1])] negative = data[data['Admitted'].isin([0])] fig, ax = plt.subplots(figsize=(12,8)) ax.scatter(positive['Exam 1'], positive['Exam 2'], s=50, c='b', marker='o', label='Admitted') ax.scatter(negative['Exam 1'], negative['Exam 2'], s=50, c='r', marker='x', label='Not Admitted') ax.legend() ax.set_xlabel('Exam 1 Score') ax.set_ylabel('Exam 2 Score') 从这个图中我们可以看到,有一个近似线性的决策边界。它有一点弯曲,所以我们不能使用直线将所有的例子正确地分类,但我们能够很接近。现在我们需要实施逻辑回归,这样我们就可以训练一个模型来找到最优决策边界,并做出分类预测。首先需要实现sigmoid函数。 def sigmoid(z): return 1 / (1 + np.exp(-z)) 这个函数是逻辑回归输出的“激活”函数。它将连续输入转换为0到1之间的值。这个值可以被解释为分类概率,或者输入的例子应该被积极分类的可能性。利用带有界限值的概率,我们可以得到一个离散标签预测。它有助于可视化函数的输出,以了解它真正在做什么。 nums = np.arange(-10, 10, step=1) fig, ax = plt.subplots(figsize=(12,8)) ax.plot(nums, sigmoid(nums), 'r') 我们的下一步是写成本函数。成本函数在给定一组模型参数的训练数据上评估模型的性能。这是逻辑回归的成本函数。 def cost(theta, X, y): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) first = np.multiply(-y, np.log(sigmoid(X * theta.T))) second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T))) return np.sum(first - second) / (len(X)) 注意,我们将输出减少到单个标量值,该值是“误差”之和,是模型分配的类概率与示例的真实标签之间差别的量化函数。该实现完全是向量化的——它在语句(sigmoid(X * theta.T))中计算模型对整个数据集的预测。 测试成本函数以确保它在运行,首先需要做一些设置。 # add a ones column - this makes the matrix multiplication work out easier data.insert(0, 'Ones', 1) # set X (training data) and y (target variable) cols = data.shape[1] X = data.iloc[:,0:cols-1] y = data.iloc[:,cols-1:cols] # convert to numpy arrays and initalize the parameter array theta X = np.array(X.values) y = np.array(y.values) theta = np.zeros(3) 检查数据结构的形状,以确保它们的值是合理的。这种技术在实现矩阵乘法时非常有用 X.shape, theta.shape, y.shape ((100L, 3L), (3L,), (100L, 1L)) 现在计算初始解的成本,将模型参数“theta”设置为零。 cost(theta, X, y) 0.69314718055994529 我们已经有了工作成本函数,下一步是编写一个函数,用来计算模型参数的梯度,以找出改变参数来提高训练数据模型的方法。在梯度下降的情况下,我们不只是在参数值周围随机地jigger,看看什么效果最好。并且在每次迭代训练中,我们通过保证将其移动到减少训练误差(即“成本”)的方向来更新参数。我们可以这样做是因为成本函数是可微分的。这是函数。 def gradient(theta, X, y): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) parameters = int(theta.ravel().shape[1]) grad = np.zeros(parameters) error = sigmoid(X * theta.T) - y for i in range(parameters): term = np.multiply(error, X[:,i]) grad[i] = np.sum(term) / len(X) return grad 我们并没有在这个函数中执行梯度下降——我们只计算一个梯度步骤。在练习中,使用“fminunc”的Octave函数优化给定函数的参数,以计算成本和梯度。因为我们使用的是Python,所以我们可以使用SciPy的优化API来做同样的事情。 import scipy.optimize as opt result = opt.fmin_tnc(func=cost, x0=theta, fprime=gradient, args=(X, y)) cost(result[0], X, y) 0.20357134412164668 现在我们的数据集里有了最优模型参数,接下来我们要写一个函数,它使用我们训练过的参数theta来输出数据集X的预测,然后使用这个函数为我们分类器的训练精度打分。 def predict(theta, X): probability = sigmoid(X * theta.T) return [1 if x >= 0.5 else 0 for x in probability] theta_min = np.matrix(result[0]) predictions = predict(theta_min, X) correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y)] accuracy = (sum(map(int, correct)) % len(correct)) print 'accuracy = {0}%'.format(accuracy) accuracy = 89% 我们的逻辑回归分类器预测学生是否被录取的准确性可以达到89%,这是在训练集中的精度。我们没有保留一个hold-out set或使用交叉验证来获得准确的近似值,所以这个数字可能高于实际的值。 正则化逻辑回归 既然我们已经有了逻辑回归的工作实现,我们将通过添加正则化来改善算法。正则化是成本函数的一个条件,使算法倾向于更简单的模型(在这种情况下,模型会减小系数),原理就是帮助减少过度拟合和帮助模型提高通用化能力。我们使用逻辑回归的正则化版本去解决稍带挑战性的问题, 想象你是工厂的产品经理,你有一些芯片在两种不同测试上的测试结果。通过两种测试,你将会决定那种芯片被接受或者拒绝。为了帮助你做这个决定,你将会有以往芯片的测试结果数据集,并且通过它建立一个逻辑回归模型。 现在可视化数据。 path = os.getcwd() + '\data\ex2data2.txt' data2 = pd.read_csv(path, header=None, names=['Test 1', 'Test 2', 'Accepted']) positive = data2[data2['Accepted'].isin([1])] negative = data2[data2['Accepted'].isin([0])] fig, ax = plt.subplots(figsize=(12,8)) ax.scatter(positive['Test 1'], positive['Test 2'], s=50, c='b', marker='o', label='Accepted') ax.scatter(negative['Test 1'], negative['Test 2'], s=50, c='r', marker='x', label='Rejected') ax.legend() ax.set_xlabel('Test 1 Score') ax.set_ylabel('Test 2 Score') 这个数据看起来比以前的例子更复杂,你会注意到没有线性决策线,数据也执行的很好,处理这个问题的一种方法是使用像逻辑回归这样的线性技术,就是构造出由原始特征多项式派生出来的特征。我们可以尝试创建一堆多项式特性以提供给分类器。 degree = 5 x1 = data2['Test 1'] x2 = data2['Test 2'] data2.insert(3, 'Ones', 1) for i in range(1, degree): for j in range(0, i): data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j) data2.drop('Test 1', axis=1, inplace=True) data2.drop('Test 2', axis=1, inplace=True) data2.head() 现在我们需要去修改成本和梯度函数以包含正则项。在这种情况下,将正则化矩阵添加到之前的计算中。这是更新后的成本函数。 def costReg(theta, X, y, learningRate): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) first = np.multiply(-y, np.log(sigmoid(X * theta.T))) second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T))) reg = (learningRate / 2 * len(X)) * np.sum(np.power(theta[:,1:theta.shape[1]], 2)) return np.sum(first - second) / (len(X)) + reg 我们添加了一个名为“reg”的新变量,它是参数值的函数。随着参数越来越大,对成本函数的惩罚也越来越大。我们在函数中添加了一个新的“learning rate”参数。 这也是等式中正则项的一部分。 learning rate为我们提供了一个新的超参数,我们可以使用它来调整正则化在成本函数中的权重。 接下来,我们将在梯度函数中添加正则化。 def gradientReg(theta, X, y, learningRate): theta = np.matrix(theta) X = np.matrix(X) y = np.matrix(y) parameters = int(theta.ravel().shape[1]) grad = np.zeros(parameters) error = sigmoid(X * theta.T) - y for i in range(parameters): term = np.multiply(error, X[:,i]) if (i == 0): grad[i] = np.sum(term) / len(X) else: grad[i] = (np.sum(term) / len(X)) + ((learningRate / len(X)) * theta[:,i]) return grad 与成本函数一样,将正则项加到最初的计算中。与成本函数不同的是,我们包含了确保第一个参数不被正则化的逻辑。这个决定背后的直觉是,第一个参数被认为是模型的“bias”或“intercept”,不应该被惩罚。 我们像以前那样测试新函数 # set X and y (remember from above that we moved the label to column 0) cols = data2.shape[1] X2 = data2.iloc[:,1:cols] y2 = data2.iloc[:,0:1] # convert to numpy arrays and initalize the parameter array theta X2 = np.array(X2.values) y2 = np.array(y2.values) theta2 = np.zeros(11) learningRate = 1 costReg(theta2, X2, y2, learningRate) 0.6931471805599454 我们能使用先前的最优代码寻找最优模型参数。 result2 = opt.fmin_tnc(func=costReg, x0=theta2, fprime=gradientReg, args=(X2, y2, learningRate)) result2 (数组([ 0.35872309, -3.22200653, 18.97106363, -4.25297831, 18.23053189, 20.36386672, 8.94114455, -43.77439015, -17.93440473, -50.75071857, -2.84162964]), 110, 1) 最后,我们可以使用前面应用的相同方法,为训练数据创建标签预测,并评估模型的性能。 theta_min = np.matrix(result2[0]) predictions = predict(theta_min, X2) correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y2)] accuracy = (sum(map(int, correct)) % len(correct)) print 'accuracy = {0}%'.format(accuracy) 准确度 = 91%
珍宝珠 2019-12-02 03:22:33 0 浏览量 回答数 0

回答

什么是机器学习? 如果人类能够训练机器从过去的数据中学习呢?嗯,这被称为机器学习,但它不仅仅是学习,它还涉及理解和推理,所以今天我们将学习机器学习的基础知识。 插一段《Python3入门机器学习经典算法与应用》这门课程中的解释: 人类是怎么学习的?通过给大脑输入一定的资料,经过学习总结得到知识和经验,有当类似的任务时可以根据已有的经验做出决定或行动。 机器学习(Machine Learning)的过程与人类学习的过程是很相似的。机器学习算法本质上就是获得一个 f(x) 函数表示的模型,如果输入一个样本 x 给 f(x) 得到的结果是一个类别,解决的就是一个分类问题,如果得到的是一个具体的数值那么解决的就是回归问题。 机器学习与人类学习的整体机制是一致的,有一点区别是人类的大脑只需要非常少的一些资料就可以归纳总结出适用性非常强的知识或者经验,例如我们只要见过几只猫或几只狗就能正确的分辨出猫和狗,但对于机器来说我们需要大量的学习资料,但机器能做到的是智能化不需要人类参与。 简单的示例 保罗听新歌,他根据歌曲的节奏、强度和声音的性别来决定喜欢还是不喜欢。 为了简单起见,我们只使用速度和强度。所以在这里,速度是在 x 轴上,从缓慢到快速,而强度是在 y 轴上,从轻到重。我们看到保罗喜欢快节奏和高亢的歌曲,而他不喜欢慢节奏和轻柔的歌曲。 现在我们知道了保罗的选择,让我们看看保罗听一首新歌,让我们给它命名这首歌 A,歌曲 A 速度快,强度飙升,所以它就在这里的某个地方。看看数据,你能猜出球在哪里会喜欢这首歌? ![7.jpg](https://ucc.alicdn.com/pic/d eveloper-ecology/a61a1dd9937f4aa4bba873397609969b.jpg) 对,保罗喜欢这首歌。 通过回顾保罗过去的选择,我们能够很容易地对未知的歌曲进行分类。假设现在保罗听了一首新歌,让我们把它贴上 B 的标签,B 这首歌就在这里的某个地方,节奏中等,强度中等,既不放松也不快速, 既不轻缓也不飞扬。 现在你能猜出保罗喜欢还是不喜欢它吗?不能猜出保罗会喜欢或不喜欢它,其他选择还不清楚。没错,我们可以很容易地对歌曲 A 进行分类,但是当选择变得复杂时,就像歌曲B 一样。机器学习可以帮你解决这个问题。 让我们看看如何。在歌曲 B 的同一个例子中,如果我们在歌曲 B 周围画一个圆圈,我们会看到有四个绿色圆点表示喜欢,而一个红色圆点不喜欢。 如果我们选择占大多数比例的绿色圆点,我们可以说保罗肯定会喜欢这首歌,这就是一个基本的机器学习算法,它被称为 K 近邻算法, 这只是众多机器学习算法之一中的一个小例子。 但是当选择变得复杂时会发生什么?就像歌曲 B 的例子一样,当机器学习进入时,它会学习数据,建立预测模型,当新的数据点进来时,它可以很容易地预测它。数据越多,模型越好,精度越高。 机器学习的分类 机器学习的方式有很多,它可以是监督学习、无监督学习或强化学习。 监督学习 让我们首先快速了解监督学习。假设你的朋友给你 100 万个三种不同货币的硬币,比如说一个是 1 欧元,一个是 1 欧尔,每个硬币有不同的重量,例如,一枚 1 卢比的硬币重 3 克, 一欧元重 7 克,一欧尔重 4 克,你的模型将预测硬币的货币。在这里,体重成为硬币的特征,而货币成为标签,当你将这些数据输入机器学习模型时,它会学习哪个特征与哪个结果相关联。 例如,它将了解到,如果一枚硬币是三克,它将是一枚卢比硬币。根据新硬币的重量,你的模型将预测货币。因此,监督学习使用标签数据来训练模型。在这里,机器知道对象的特征以及与这些特征相关的标签。 无监督学习 在这一点上,让我们看看与无监督学习的区别。假设你有不同球员的板球数据集。当您将此数据集送给机器时,机器会识别玩家性能的模式,因此它会在 x 轴上使用各自的 Achatz 对这些数据进行处理,同时在 y 轴上运行 在查看数据时,你会清楚地看到有两个集群,一个集群是得分高,分较少的球员,而另一个集群是得分较少但得分较多的球员,所以在这里我们将这两个集群解释为击球手和投球手。 需要注意的重要一点是,这里没有击球手、投球手的标签,因此 使用无标签数据的学习是无监督学习。因此,我们了解了数据被标记的监督学习和数据未标记的无监督学习。 强化学习 然后是强化学习,这是一种基于奖励的学习,或者我们可以说它的工作原理是反馈。 在这里,假设你向系统提供了一只狗的图像,并要求它识别它。系统将它识别为一只猫,所以你给机器一个负面反馈,说它是狗的形象,机器会从反馈中学习。最后,如果它遇到任何其他狗的图像,它将能够正确分类,那就是强化学习。 让我们看一个流程图,输入给机器学习模型,然后根据应用的算法给出输出。如果是正确的,我们将输出作为最终结果,否则我们会向火车模型提供反馈,并要求它预测,直到它学 机器学习的应用 你有时不知道在当今时代,机器学习是如何成为可能的,那是因为今天我们有大量可用的数据,每个人都在线,要么进行交易,要么上网,每分钟都会产生大量数据,数据是分析的关键。 此外,计算机的内存处理能力也在很大程度上增加,这有助于他们毫不拖延地处理手头如此大量的数据。 是的,计算机现在拥有强大的计算能力,所以有很多机器学习的应用。 仅举几例,机器学习用于医疗保健,在医疗保健中,医生可以预测诊断,情绪分析。 科技巨头在社交媒体上所做的推荐是另一个有趣的应用。金融部门的机器学习欺诈检测,并预测电子商务部门的客户流失。 小测验 我希望你已经理解了监督和无监督学习,所以让我们做一个快速测验,确定给定的场景是使用监督还是非监督学习。 场景 1:  Facebook 从一张标签照片相册中识别出你的朋友场景 2: Netflix 根据某人过去的电影选择推荐新电影场景 3: 分析可疑交易的银行数据并标记欺诈交易 场景 1: Facebook 在一张标签照片相册中的照片中识别你的朋友解释: 这是监督学习。在这里,Facebook 正在使用标记的照片来识别这个人。因此,标记的照片成为图片的标签,我们知道当机器从标记的数据中学习时,它是监督学习。 场景 2: 根据某人过去的音乐选择推荐新歌解释: 这是监督学习。该模型是在预先存在的标签 (歌曲流派) 上训练分类器。这是 Netflix,Pandora 和 Spotify 一直在做的事情,他们收集您已经喜欢的歌曲/电影,根据您的喜好评估功能,然后根据类似功能推荐新电影/歌曲。 场景 3: 分析可疑交易的银行数据并标记欺诈交易解释: 这是无监督学习。在这种情况下,可疑交易没有定义,因此没有 “欺诈” 和 “非欺诈” 的标签。该模型试图通过查看异常交易来识别异常值,并将其标记为 “欺诈”。
剑曼红尘 2020-04-15 19:05:53 0 浏览量 回答数 0

问题

长飞公司信息化之路——阿里战略合作介绍

2018云栖大会武汉峰会新制造专场,由长飞公司资深专家唐权斌带来了以“长飞公司信息化之路——阿里战略合作介绍”为主题的演讲,对长飞公司的信息化历史以及和阿里合作的项目案例进行了详细的介绍。数十款阿里云产品限时折扣...
福利达人 2019-12-01 21:09:16 2275 浏览量 回答数 0

问题

阿里云的API经济:你可能错过了一个2.2万亿美元的市场

云时代,API成为服务交付、能力复制、数据输出的最佳载体,已成为云计算市场增长最快的领域。众多企业通过API的形式对外提供服务和数据,让物联网 IoT 、大数据、移动应用领域有了更大的可创造空间。 ...
仙游 2019-12-01 21:17:27 2673 浏览量 回答数 0

回答

这周我们将学习神经网络的基础知识,其中需要注意的是,当实现一个神经网络的时候,我们需要知道一些非常重要的技术和技巧。例如有一个包含个样本的训练集,你很可能习惯于用一个for循环来遍历训练集中的每个样本,但是当实现一个神经网络的时候,我们通常不直接使用for循环来遍历整个训练集,所以在这周的课程中你将学会如何处理训练集。 另外在神经网络的计算中,通常先有一个叫做前向暂停(forward pause)或叫做前向传播(foward propagation)的步骤,接着有一个叫做反向暂停(backward pause) 或叫做反向传播(backward propagation)的步骤。所以这周我也会向你介绍为什么神经网络的训练过程可以分为前向传播和反向传播两个独立的部分。 在课程中我将使用逻辑回归(logistic regression)来传达这些想法,以使大家能够更加容易地理解这些概念。即使你之前了解过逻辑回归,我认为这里还是有些新的、有趣的东西等着你去发现和了解,所以现在开始进入正题。 逻辑回归是一个用于二分类(binary classification)的算法。首先我们从一个问题开始说起,这里有一个二分类问题的例子,假如你有一张图片作为输入,比如这只猫,如果识别这张图片为猫,则输出标签1作为结果;如果识别出不是猫,那么输出标签0作为结果。现在我们可以用字母 来 表示输出的结果标签,如下图所示: 我们来看看一张图片在计算机中是如何表示的,为了保存一张图片,需要保存三个矩阵,它们分别对应图片中的红、绿、蓝三种颜色通道,如果你的图片大小为64x64像素,那么你就有三个规模为64x64的矩阵,分别对应图片中红、绿、蓝三种像素的强度值。为了便于表示,这里我画了三个很小的矩阵,注意它们的规模为5x4 而不是64x64,如下图所示: 为了把这些像素值放到一个特征向量中,我们需要把这些像素值提取出来,然后放入一个特征向量。为了把这些像素值转换为特征向量 ,我们需要像下面这样定义一个特征向量 来表示这张图片,我们把所有的像素都取出来,例如255、231等等,直到取完所有的红色像素,接着最后是255、134、…、255、134等等,直到得到一个特征向量,把图片中所有的红、绿、蓝像素值都列出来。如果图片的大小为64x64像素,那么向量 的总维度,将是64乘以64乘以3,这是三个像素矩阵中像素的总量。在这个例子中结果为12,288。现在我们用,来表示输入特征向量的维度,有时候为了简洁,我会直接用小写的来表示输入特征向量的维度。所以在二分类问题中,我们的目标就是习得一个分类器,它以图片的特征向量作为输入,然后预测输出结果为1还是0,也就是预测图片中是否有猫: 最后为了能把训练集表示得更紧凑一点,我们会定义一个矩阵用大写的表示,它由输入向量、等组成,如下图放在矩阵的列中,所以现在我们把作为第一列放在矩阵中,作为第二列,放到第列,然后我们就得到了训练集矩阵。所以这个矩阵有列,是训练集的样本数量,然后这个矩阵的高度记为,注意有时候可能因为其他某些原因,矩阵会由训练样本按照行堆叠起来而不是列,如下图所示:的转置直到的转置,但是在实现神经网络的时候,使用左边的这种形式,会让整个实现的过程变得更加简单: 现在来简单温习一下:是一个规模为乘以的矩阵,当你用Python实现的时候,你会看到X.shape,这是一条Python命令,用于显示矩阵的规模,即X.shape等于,是一个规模为乘以的矩阵。所以综上所述,这就是如何将训练样本(输入向量的集合)表示为一个矩阵。 那么输出标签呢?同样的道理,为了能更加容易地实现一个神经网络,将标签放在列中将会使得后续计算非常方便,所以我们定义大写的等于,所以在这里是一个规模为1乘以的矩阵,同样地使用Python将表示为Y.shape等于,表示这是一个规模为1乘以的矩阵。 当你在后面的课程中实现神经网络的时候,你会发现,一个好的符号约定能够将不同训练样本的数据很好地组织起来。而我所说的数据不仅包括 或者 还包括之后你会看到的其他的量。将不同的训练样本的数据提取出来,然后就像刚刚我们对 或者 所做的那样,将他们堆叠在矩阵的列中,形成我们之后会在逻辑回归和神经网络上要用到的符号表示。如果有时候你忘了这些符号的意思,比如什么是 ,或者什么是 ,或者忘了其他一些东西,我们也会在课程的网站上放上符号说明,然后你可以快速地查阅每个具体的符号代表什么意思,好了,我们接着到下一个视频,在下个视频中,我们将以逻辑回归作为开始。 备注:附录里也写了符号说明。
因为相信,所以看见。 2020-05-20 12:39:45 0 浏览量 回答数 0

问题

面试薪资翻倍?你只需搞懂这个思维方式!

1、两种思维方式 在求职面试中,经常会考察这种问题: 北京有多少量特斯拉汽车?  某胡同口的煎饼摊一年能卖出多少个煎饼?  深圳有多少个产品经理?  一辆公交车...
有只黑白猫 2020-01-14 15:11:16 531 浏览量 回答数 1

问题

HiTSDB高性能时间序列数据库产品解析

2018云栖大会武汉峰会IOT物联网专场,阿里巴巴数据库产品专家艾乐强带来题为HiTSDB高性能时间序列数据库产品解析的演讲。主要内容从四个方面进行解说,首先介绍了物联网数据特征和数据库困境,然后是...
福利达人 2019-12-01 21:09:24 4058 浏览量 回答数 0

问题

游戏云间之二-网络环境问题

如果说将 游戏运营所需要的计算、存储、网络、人力等等都看做资源的话,那网络绝对是游戏运营的核心资源 ,因为获得计算或者存储资源的成本低,方式也很多,但是网络资源, 特别是...
起航 2019-12-01 21:43:15 23656 浏览量 回答数 10

回答

转自:思否 本文作者:Michael van der Gulik 原文链接:《Why WebAssembly is a big deal》 译者:敖小剑 WebAssembly 是每个程序员都应该关注的技术。WebAssembly 会变得更流行。 WebAssembly 将取代 JavaScript。WebAssembly 将取代 HTML 和 CSS。 WebAssembly 将取代手机应用。WebAssembly 将取代桌面应用。在 10 年内,我保证每个程序员至少需要知道如何使用工具来操作 WebAssembly 并理解它是如何工作的。 你可能会说,“太离谱了!” 好吧,请继续阅读。 什么是 WebAssembly 当前形式的 WebAssembly 是 Web 浏览器的新扩展,可以运行预编译代码…快速地。在 C ++ 中编写了一些小代码,然后使用 Emscripten 编译器将该代码编译为 WebAssembly。通过一些 Javascript 粘合,就可以在 Web 浏览器中调用这一小段代码,例如,运行粒子模拟。 WebAssembly 文件,扩展名为.wasm,本身是包含可执行指令的二进制格式。要使用该文件,必须编写一个运行某些 Javascript 的 HTML 文件来获取、编译和执行 WebAssembly 文件。WebAssembly 文件在基于堆栈的虚拟机上执行,并使用共享内存与其 JavaScript 包装器进行通信。 到目前为止,这似乎并不有趣。它看起来只不过是 JavaScript 的加速器。但是,聪明的读者会对 WebAssembly 可能成为什么有所了解。 WebAssembly 将成为什么? 第一个重要发现是 WebAssembly 是一个安全的沙盒虚拟机。可以从 Internet 运行喜欢的 WebAssembly 代码,而确保它不会接管 PC 或服务器。四个主流 Web 浏览器对它的安全性非常有信心,它已经默认实现并启用了。它的真正安全性还有待观察,但安全性是 WebAssembly 的核心设计目标。 第二个重要发现是 WebAssembly 是一个通用的编译目标。它的原始编译器是一个 C 编译器,这个编译器很好地指示了 WebAssembly 虚拟机的低级和可重定向性。许多编程语言都使用 C 语言编写虚拟机,其他一些语言甚至使用 C 本身作为编译目标。 此时,有人整理了一个可以编译为 WebAssembly 的编程语言列表。这份名单将在未来很多年中继续增长。 WebAssembly 允许使用任何编程语言编写代码,然后让其他人在任何平台上安全地运行该代码,无需安装任何内容。朋友们,这是美好梦想的开始。 部署问题 我们来谈谈如何将软件提供给用户。 为新项目选择编程语言的一个重要因素是如何将项目部署到客户。您的程序员喜欢用 Haskell,Python,Visual Basic 或其他语言编写应用程序,具体取决于他们的喜好。要使用喜欢的语言,他们需要编译应用,制作一些可安装的软件包,并以某种方式将其安装在客户端的计算机上。有许多方法可以提供软件 - 包管理器,可执行安装程序或安装服务,如 Steam,Apple App Store,Google Play 或 Microsoft store。 每一个安装机制都意味着痛苦,从应用商店安装时的轻微疼痛,到管理员要求在他的 PC 上运行一些旧的 COBOL 代码时的集群头痛。 部署是一个问题。对于开发人员和系统管理员来说,部署一直是一个痛点。我们使用的编程语言与我们所针对的平台密切相关。如果大量用户在 PC 或移动设备上,我们使用 HTML 和 Javascript。如果用户是 Apple 移动设备用户,我们使用……呃…… Swift?(我实际上不知道)。如果用户在 Android 设备上,我们使用 Java 或 Kotlin。如果用户在真实计算机上并且愿意处理掉他们的部署问题,那么我们开发人员才能在我们使用的编程语言中有更多选择。 WebAssembly 有可能解决部署问题。 有了 WebAssembly,您可以使用任何编程语言编写应用,只要这些编程语言可以支持 WebAssembly,而应用可以在任何设备和任何具有现代 Web 浏览器的操作系统上运行。 硬件垄断 想购买台式机或笔记本电脑。有什么选择?好吧,有英特尔,有 AMD。多年来一直是双寡头垄断。保持这种双寡头垄断的一个原因是 x86 架构只在这两家公司之间交叉许可,而且通常预编译的代码需要 x86 或 x86-64(也就是 AMD-64)架构。还有其他因素,例如设计世界上最快的 CPU 是一件很艰难但也很昂贵的事情。 WebAssembly 是一种可让您在任何平台上运行代码的技术(之一)。如果它成为下一个风口,硬件市场将变得商品化。应用编译为 WebAssembly,就可以在任何东西上运行 - x86,ARM,RISC-V,SPARC。即便是操作系统市场也会商品化;您所需要的只是一个支持 WebAssembly 的浏览器,以便在硬件可以运行时运行最苛刻的应用程序。 编者注:Second State 研发的专为服务端优化的 WebAssembly 引擎 SSVM 已经可以运行在高通骁龙芯片上。Github 链接:https://github.com/second-sta... 云计算 但等等,还有更多。云计算成为IT经理办公室的流行词已有一段时间,WebAssembly 可以直接迎合它。 WebAssembly 在安全沙箱中执行。可以制作一个容器,它可以在服务器上接受和执行 WebAssembly 模块,而资源开销很小。对于提供的每个服务,无需在虚拟机上运行完整的操作系统。托管提供商只提供对可以上传代码的WebAssembly 容器的访问权限。它可以是一个原始容器,接收 socket 并解析自己的 HTTP 连接,也可以是一个完整的 Web 服务容器,其中 WebAssembly 模块只需要处理预解析的HTTP请求。 这还不存在。如果有人想变得富有,那么可以考虑这个想法。 编者注:目前已经有人正在实现这个想法,Byte Alliance 计划将WebAssembly 带到浏览器之外,Second State 已经发布了为服务端设计的WebAssembly 引擎开发者预览版。 不是云计算 WebAssembly 足以取代 PC 上本地安装的大多数应用程序。我们已经使用 WebGL(又名OpenGL ES 2.0)移植了游戏。我预测不久之后,受益于WebAssembly,像 LibreOffice 这样的大型应用可以直接从网站上获得,而无需安装。 在这种情况下,在本地安装应用没什么意义。本地安装的应用和 WebAssembly 应用之间几乎没有区别。WebAssembly 应用已经可以使用屏幕,键盘和鼠标进行交互。它可以在 2D 或 OpenGL 中进行图形处理,并使用硬件对视频流进行解码。可以播放和录制声音。可以访问网络摄像头。可以使用 WebSockets。可以使用 IndexedDB 存储大量数据在本地磁盘上。这些已经是 Web 浏览器中的标准功能,并且都可以使用 JavaScript 向 WebAssembly 暴露。 目前唯一困难的地方是 WebAssembly 无法访问本地文件系统。好吧,可以通过 HTML 使用文件上传对话,但这不算。最终,总会有人为此创建 API,并可能称之为 “WASI”。 “从互联网上运行应用程序!?胡说八道!“,你说。好吧,这是使用 Qt 和 WebAssembly 实现的文本编辑器 (以及更多)。 这是一个简单的例子。复杂的例子是在 WebBrowser 中运行的 Adobe Premier Pro 或 Blender。或者考虑像 Steam 游戏一样可以直接从网络上运行。这听起来像小说,但从技术上说这并非不能发生。 它会来的。 让我们裸奔! 目前,WebAssembly 在包含 HTML 和 Javascript 包装器的环境中执行。为什么不脱掉这些?有了 WebAssembly,为什么还要在浏览器中包含 HTML 渲染器和 JavaScript 引擎? 通过为所有服务提供标准化 API,这些服务通常是 Web 浏览器提供的,可以创建裸 WebAssembly。就是没有 HTML和 Javascript 包装来管理的 WebAssembly。访问的网页是 .wasm 文件,浏览器会抓取并运行该文件。浏览器为WebAssembly 模块提供画布,事件处理程序以及对浏览器提供的所有服务的访问。 这目前还不存在。如果现在使用 Web 浏览器直接访问 .wasm 文件,它会询问是否要下载它。我假设将设计所需的 API 并使其工作。 结果是 Web 可以发展。网站不再局限于 HTML,CSS 和 Javascript。可以创建全新的文档描述语言。可以发明全新的布局引擎。而且,对于像我这样的 polyglots 最相关,我们可以选择任何编程语言来实现在线服务。 可访问性 但我听到了强烈抗议!可访问性怎么样??搜索引擎怎么办? 好吧,我还没有一个好的答案。但我可以想象几种技术解决方案。 一个解决方案是我们保留内容和表现的分离。内容以标准化格式编写,例如 HTML。演示文稿由 WebAssembly 应用管理,该应用可以获取并显示内容。这允许网页设计师使用想要的任何技术进行任意演示 - 不需要 CSS,而搜索引擎和需要不同类型的可访问性的用户仍然可以访问内容。 请记住,许多 WebAssembly 应用并不是可以通过文本访问的,例如游戏和许多应用。盲人不会从图像编辑器中获得太多好处。 另一个解决方案是发明一个 API,它可以作为 WebAssembly 模块,来提供想在屏幕上呈现的 DOM,供屏幕阅读器或搜索引擎使用。基本上会有两种表示形式:一种是在图形画布上,另一种是产生结构化文本输出。 第三种解决方案是使用屏幕阅读器或搜索引擎可以使用的元数据来增强画布。执行 WebAssembly 并在画布上呈现内容,其中包含描述渲染内容的额外元数据。例如,该元数据将包括屏幕上的区域是否是菜单以及存在哪些选项,或者区域是否想要文本输入,以及屏幕上的区域的自然排序(也称为标签顺序)是什么。基本上,曾经在 HTML 中描述的内容现在被描述为具有元数据的画布区域。同样,这只是一个想法,它可能在实践中很糟糕。 可能是什么 1995年,Sun Microsystems 发布了 Java,带有 Java applets 和大量的宣传。有史以来第一次,网页可以做一些比 和 GIF 动画更有趣的事情。开发人员可以使应用完全在用户的 Web 浏览器中运行。它们没有集成到浏览器中,而是实现为繁重的插件,需要安装整个 JVM。1995年,这不是一个小的安装。applets 也需要一段时间来加载并使用大量内存。我们现在凭借大量内存,这不再是一个问题,但在 Java 生命的第一个十年里,它让体验变得令人厌烦。 applets 也不可靠。无法保证它们会运行,尤其是在用户使用 Microsoft 的实现时。他们也不安全,这是棺材里的最后一颗钉子。 以 JVM 为荣,其他语言最终演变为在 JVM 上运行。但现在,那艘船航行了。 FutureSplash / Macromedia / Adobe Flash 也是一个竞争者,但是是专有的,具有专有工具集和专有语言的专有格式。我读到他们确实在2009年开启了文件格式。最终从浏览器中删除了支持,因为它存在安全风险。 这里的结论是,如果希望您的技术存在于每个人的机器上,那么安全性就需要正视。我真诚地希望 WebAssembly 作为标准对安全问题做出很好的反应。 需要什么? WebAssembly 仍处于初期阶段。它目前能很好的运行代码,而规范版本是 1.0,二进制格式定型。目前正在开展SIMD 指令支持。通过 Web Workers 进行多线程处理也正在进行中。 工具可用,并将在未来几年不断改进。浏览器已经让你窥视 WebAssembly 文件。至少 Firefox 允许查看WebAssembly 字节码,设置断点并查看调用堆栈。我听说浏览器也有 profiling 支持。 语言支持包括一套不错的语言集合–C,C++和Rust是一流的公民。C#,Go和Lua显然有稳定的支持。Python,Scala,Ruby,Java和Typescript都有实验性支持。这可能是一个傲慢的陈述,但我真的相信任何想要在21世纪存在的语言都需要能够在 WebAssembly 上编译或运行。 在访问外部设备的 API 支持方面,我所知道的唯一可用于裸 WebAssembly 的 API 是 WASI,它允许文件和流访问等核心功能,允许 WebAssembly 在浏览器外运行。否则,任何访问外部世界的 API 都需要在浏览器中的 Javascript 中实现。除了本地机器上的文件访问,打印机访问和其他新颖的硬件访问(例如非标准蓝牙或USB设备)之外,应用所需的一切几乎都可以满足。“裸WebAssembly”并不是它成功的必要条件; 它只是一个小的优化,不需要浏览器包含对 HTML,CSS 或 Javascript 的支持。 我不确定在桌面环境中让 WebAssembly 成为一等公民需要什么。需要良好的复制和粘贴支持,拖放支持,本地化和国际化,窗口管理事件以及创建通知的功能。也许这些已经可以从网络浏览器中获得; 我经常惊讶与已经可能的事情。 引发爆炸的火花是创建允许现有应用移植的环境。如果创造了“用于 WebAssembly 的 Linux 子系统”,那么可以将大量现有的开源软件移植到 WebAssembly 上。它需要模拟一个文件系统 - 可以通过将文件系统的所有只读部分都缓存为 HTTP 请求来完成,并且所有可写部分都可以在内存中,远程存储或使用浏览器可以提供的任何文件访问。图形支持可以通过移植 X11 或 Wayland 的实现来使用 WebGL(我理解已经作为 AIGLX 存在?)。 一些 SDL 游戏已经被移植到 WebAssembly - 最着名的是官方演示。 一旦 JVM 在 WebAssembly 中运行,就可以在浏览器中运行大量的 Java 软件。同样适用于其他虚拟机和使用它们的语言。 与 Windows 软件的巨大世界一样,我没有答案。WINE 和 ReactOS 都需要底层的 x86 或 x86-64 机器,所以唯一的选择是获取源代码并移植它,或者使用 x86 模拟器。 尾声 WebAssembly 即将到来。 它来得很慢,但现在所有的部分都可以在你正在使用的浏览器上使用。现在我们等待构建用于从各种编程语言中定位 WebAssembly 的基础设施。一旦构建完成,我们将摆脱 HTML,CSS 和 Javascript 的束缚。 加入阿里云钉钉群享福利:每周技术直播,定期群内有奖活动、大咖问答 阿里云开发者社区
茶什i 2020-01-07 10:32:35 0 浏览量 回答数 0

问题

游戏客户快速扩展服务器的解决方案

游戏客户快速扩展服务器的解决方案 ECS产品快速扩展服务器的解决方案 一.引言 1、游戏行业浅谈       如今的网络游戏市场风生水起,呈现出一片蓬勃发展的势头。2013年中国手机游戏市场规模达...
nono20011908 2019-12-01 21:07:16 16190 浏览量 回答数 5

问题

CRM大数据你有效利用了吗?

<div id="sina_keyword_ad_area2" newfont_family"=""> 随着云计算技术、大数据的发展,人们生活和工作正慢慢地发...
赛思salesnow 2019-12-01 21:19:51 1510 浏览量 回答数 0

回答

支付宝的线上系统极其复杂,每一笔交易背后是数亿行代码、成百上千个系统, 经过无数的链路,再加上海量线上实时交易,谁也无法预测下一秒是否会出现什么样 的问题。如何消除人们的焦虑呢?这时就轮到技术风险团队登场了。 技术风险工作就是使用技术手段,把各种软件、硬件、人为引入的可能出现业务 受损的的风险降到最低。在支付宝,它服务于从基础设施到上层应用的所有系统,从 写第一行代码到最终上线的整个研发流程。 目前,技术风险工作主要由 SRE 来承接,日常的工作包括变更风险防御、快速 应急、红蓝攻防、资金安全等,同时像双 11 大促,春节红包等高并发高性能的场景 是技术风险工作的大考。 SRE 是 Site Risk Engineering 的缩写,主要工作是围绕线上风险问题,研发 技术架构和解决方案,去解决各种各样的风险问题。 变更指的是代码上线到实际生产环境的过程,我们需要围绕变更建立各种技术手 段,减少变更导致的故障,研发变更相应的平台。据统计,80% 的系统生产故障都 来自于代码变更,因此无论怎么重视也不为过。支付宝建立了一系列制度保证系统内 的任何变更都符合可监控、可灰度、可回滚的“三板斧”要求。 而一旦线上真的出现了问题,就涉及到应急机制了。支付宝有一套完善的线上应 急流程,包括怎么快速定位问题,以及一个数据智能化的监控系统,可以迅速从线上 海量业务中找出风险异常点。一旦发现任何问题就发出告警通知相应的同学,进行相 应的流程进行解决。 平时没有故障的时候做什么呢?就是开头提到的红蓝攻防了。蓝军从第三方角度 发掘各类脆弱点,并通过红蓝军技术攻防演练,不断验证防御系统的可靠性。每年的 大演练时刻,都会进行全公司的动员,两边排兵布阵,攻守异常激烈。 在“期末考试”中,每支红军在被攻击后,花费多长时间发现故障,又用了多 长时间恢复等都会被视作评定指标,而结果会根据“无损”攻防体系相匹配的度量平 台,对攻防结果进行排名。 去年“期末考试”冠军得主是红一支付宝军,支付宝资深技术专家兼军长李铮提 到,去年 12 月 21 日的红蓝大军颁奖仪式上,第一名获得了一副金算盘,以及关公 铜像一年所有权,而今年还给最后一名准备了特别“奖品”——一副烂算盘,“真的 是很烂的算盘,也就淘宝上才能买到。” 除此之外,资金安全是专门保护支付宝里的资金的系统,在海量线上资金处理 时,要保证一分钱资金都不出问题,需要的是海量数据计算和风险挖掘能力。
Lee_tianbai 2020-12-31 18:00:50 0 浏览量 回答数 0

问题

【精品问答】110+数据挖掘面试题集合

数据挖掘工程师面试宝典双手呈上,快来收藏吧! 1.异常值是指什么?请列举1种识别连续型变量异常值的方法? 2.什么是聚类分析? 3.聚类算法有哪几种?选择一种详细描述其计算原理和步骤。 4.根据要求写出SQL ...
珍宝珠 2019-12-01 21:56:45 2713 浏览量 回答数 3

问题

【教程免费下载】Ceph分布式存储实战

前言 随着信息化浪潮的到来,全球各行各业逐步借助信息技术深入发展。据悉,企业及互联网数据以每年50%的速率在增长。据权威调查机构Gartner预测,到2020年,全球数据量将达到35...
知与谁同 2019-12-01 22:07:42 2859 浏览量 回答数 0

问题

点晴模切ERP软件对模切行业管理的影响

近年来,随着市场化程度的深化与竞争的日趋激烈,适时导入企业资源管理系统(点晴模切ERP),全面整合销售、采购、生产、成本、库存、财务、人才等资源,实现最佳资源组合,取得最佳效益,已成为中小企业管理升级的焦点。那么模切ERP究竟对模切行业管理...
clicksun 2019-12-01 20:11:17 1792 浏览量 回答数 2
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板