• 关于

    隐藏对象识别可以做什么

    的搜索结果

回答

数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习和 数据挖掘》可以帮助大家理解。 数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响 最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学 提供数据分析技术。 由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的 很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能 再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖 掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。 从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器 学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造, 使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容, 即关联分析。 而模式识别和机器学习的关系是什么呢,传统的模式识别的方法一般分为两种: 统计方法和句法方法。句法分析一般是不可学习的,而统计分析则是发展了不少机 器学习的方法。也就是说,机器学习同样是给模式识别提供了数据分析技术。 至于,数据挖掘和模式识别,那么从其概念上来区分吧,数据挖掘重在发现知识, 模式识别重在认识事物。 机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。因此,机器 学习是方法,模式识别是目的。 总结一下吧。只要跟决策有关系的都能叫 AI(人工智能),所以说 PR(模式识别)、 DM(数据挖掘)、IR(信息检索) 属于 AI 的具 体应用应该没有问题。 研究的东西则 不太一样, ML(机器学习) 强调自我完善的过程。 Anyway,这些学科都是相通的。

珍宝珠 2019-12-02 03:22:18 0 浏览量 回答数 0

问题

Java技术1000问(3)【精品问答】

问问小秘 2020-06-02 14:27:10 11463 浏览量 回答数 3

问题

安卓与iOS百问,开发者系统指南

yq传送门 2019-12-01 20:14:48 27317 浏览量 回答数 26

阿里云试用中心,为您提供0门槛上云实践机会!

0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

问题

【精品问答】python技术1000问(2)

问问小秘 2019-12-01 22:03:02 3129 浏览量 回答数 1

问题

【精品问答】110+数据挖掘面试题集合

珍宝珠 2019-12-01 21:56:45 2713 浏览量 回答数 3

回答

在我们进行合理讨论之前,需要澄清和解决某些问题。 前提条件解决 标签 在需要精确度的行业中,重要的是我们使用精确的标签,以避免混淆,以便我们可以进行交流而不必使用冗长的描述和限定词。 。 什么你已经张贴FixedTables,是Unnormalised。足够公平,可以尝试使用“第三范式”形式,但是实际上它是一个平面文件,非规范化(不是“非规范化”)。确切地说,您发布为AbstractTables的是Entity-Attribute-Value,几乎,但不完全是第六范式,因此比3NF规范化得多,当然,假设正确完成。 未规范化的平面文件未“非规范化”。它充满了重复(没有做任何操作来删除重复的组和重复的列或解决依赖项)和Null,它在许多方面都是性能浪费,并防止了并发。 为了进行Denormlaise,必须先对其进行归一化,然后出于某些充分的理由而使归一化稍微后退。由于首先没有对其进行归一化,因此无法对其进行归一化。它只是未归一化。 不能说它是“为了性能”而被非规范化的,因为它是性能猪,它与性能完全相反。好吧,他们需要缺乏形式化设计的理由],“为了性能”就可以了。即使是最小的正式审查也暴露了错误的陈述(但是很少有人可以提供,因此它一直隐藏着,直到他们让局外人解决,您猜对了,这是巨大的性能问题)。 规范化结构的性能远优于未规范化结构。标准化程度较高的结构(EAV / 6NF)比标准化程度较低的结构(3NF / 5NF)更好。 我同意OMG小马的主旨,但不同意其标签和定义 而不是说“除非必须,否则不要“非正规化””,而是说“忠实地标准化,定期”和“如果存在性能问题,则表示您未正确标准化”。 。 Wiki 关于Normal Forms和Normalization的条目完全是个笑话。具体来说,这些定义是不正确的。他们混淆了普通表格;他们对规范化过程一无所知;它们对很久以前就被揭穿的荒谬或可疑NF给予同等的重视。结果是,Wiki增加了一个本已混乱且鲜为人知的主题。因此,不要浪费您的时间。 。 但是,为了取得进展,在没有该提法构成障碍的情况下,我要说这句话。 3NF的定义稳定,没有改变。 3NF和5NF之间存在很多NF混淆。事实是,这是过去15年中取得进展的领域。许多组织,学者和供应商都对其产品进行了限制,他们跳起来创建了一个新的“ Normal Form”来验证他们的产品。所有服务于商业利益和学术上不健全。3NF处于其原始未篡改状态,旨在并保证某些属性。 总的来说,今天的5NF就是15年前3NF的目标,您可以跳过商业玩笑和两者之间的大约十二种“特殊”(商业和伪学术)NF,其中一些是在Wiki中识别,甚至用混淆的术语表示。 。 由于您已经能够理解和实施帖子中的EAV,因此理解以下内容将没有问题。当然,真正的关系模型是先决条件,强键等。第五范式是,因为我们跳过了第四种: 第三范式 简单来说,每个表中的每个非键列与表的主键之间具有1 :: 1的关系, 并且没有其他非关键列 零数据重复(结果,如果勤奋地进行标准化,则不是单靠智力或经验,或者是通过努力将其作为目标而没有正式过程来实现) 无更新异常(当您在某处更新一列时,不必更新位于其他地方的同一列;该列存在于一个且仅一个位置)。 。 第六范式当然是第五范式,再加上: 消除丢失的数据(列)。这是Null问题(也称为处理缺失值)的一种真正解决方案,结果是没有Nulls的数据库。(这可以在5NF下使用标准和Null替代品完成,但这不是最佳选择。)如何解释和显示缺失值是另一回事。 。 EAV与第六范式 的比较我编写的所有数据库(除一个以外)都是纯5NF。我已经使用(管理,修复,增强)了几个EAV数据库,并且已经实现了一个真正的6NF数据库。EAV是6NF的宽松实现,通常由对标准化和NF不太了解但可以看到EAV的价值并需要EAV灵活性的人员完成。你是一个完美的例子。区别在于:因为它比较松散,并且因为实现者没有忠实的参考(6NF),所以他们仅实现所需的东西,并全部用代码编写;最终导致模型不一致。 。 鉴于纯6NF实现确实具有纯学术参考点,因此通常更加严格且一致。通常,这显示在两个可见元素中: 6NF有一个包含元数据的目录,并且所有内容都是在元数据中定义的,而不是代码。EAV没有一个,一切都在代码中(实现者跟踪对象和属性)。显然,目录使添加列,导航变得容易,并允许形成实用程序。 当理解6NF时,它可以真正解决Null问题。EAV实现者由于缺少6NF上下文,因此会不一致地处理代码中丢失的数据,或者更糟的是,允许数据库中的Null。6NF实现者禁止使用Null,并一致而优雅地处理丢失的数据,而无需代码构造(对于Null处理;当然,您仍然必须为丢失的数据编写代码)。 。 例如。对于具有目录的6NF数据库,我有一组proc将[重新生成]执行所有SELECT所需的SQL,并且我为所有用户提供5NF视图,因此他们不需要了解或理解底层6NF结构。 。他们被驱逐出目录。因此,更改是容易且自动化的。由于没有目录,EAV类型手动执行此操作。 现在,我们可以开始 讨论区 “如果预先定义了值,那么当然可以更加抽象(例如:专业可以拥有自己的列表)” 当然。但是不要太“抽象”。保持一致性,并以与其他列表相同的EAV(或6NF)方式实施此类列表。 “如果我采用抽象方法,它可能会非常灵活,但是带有许多联接的查询将变得更加复杂。但是,我不知道这是否会影响这些“更复杂”的查询的性能。” 关系数据库中的联接是行人。问题不在于数据库,问题在于处理联接时,SQL非常麻烦,尤其是复合键。 EAV和6NF数据库具有更多的Joins,它们与行人一样多。当然,如果您必须手动编写每个SELECT的代码,那么麻烦就变得很麻烦。 可以通过(a)在EAV上使用6NF以及(b)实施目录来消除整个问题,从中可以(c)生成所有基本SQL。也消除了整个错误类别。 一个普遍的神话是,加入某种方式会产生成本。完全错误。该联接是在编译时实现的,对于“成本” CP​​U周期没有实质性影响。问题是要联接的表的大小,而不是这些相同表之间的联接的成本。在正确的PK⇢FK关系上连接两个表,每个表具有数百万行,每个表具有适当的索引(在parent [FK]侧为唯一;在Child侧为唯一)。; 如果Child索引不是唯一的,但是至少前导列是有效的,则它慢一些;没有可用索引的地方,那当然很慢。它与加入成本无关。在返回许多行的地方,瓶颈将是网络和磁盘布局。不是加入处理。 因此,您可以随心所欲地获得“复杂”的东西,没有成本,SQL可以处理它。 我想知道这两种方法的优点和缺点。我可以自己想象,但是我没有经验来确认这一点。 就实施,易用性(开发人员和用户),维护而言,5NF(对于尚未取得进展的人而言,则为3NF)是最简单,最好的。缺点是,每次添加列时,都必须更改数据库结构(表DDL)。在某些情况下很好,但在大多数情况下不是这样,因为适当的变更控制非常繁重。其次,您必须更改现有代码(处理新列的代码不算在内,因为这势在必行):在实施好的标准的地方,这要最小化;如果没有它们,范围是不可预测的。 EAV(这是您发布的内容)允许添加列而无需DDL更改。这就是人们选择它的唯一原因。(处理新列的代码不计算在内,因为这是必须的)。如果实施得当,它将不会影响现有代码;如果没有,它将。但是您需要具有EAV功能的开发人员。当EAV实施不当时,这是可恶的,这比5NF实施得不好更糟,但不会比大多数数据库都存在的Unnormalized更糟(错误地表示为“性能非常规”)。当然,拥有强大的Transaction上下文(比5NF / 3NF更为重要),因为列的分布远不止这些。同样,必须保持声明式参照完整性:我所看到的混乱很大程度上归因于开发人员删除了DRI,因为它已成为“ 假设已经针对预期目的合理配置了服务器,则性能没有差异。(好吧,只有在6NF中才有可能实现特定的优化,而在其他NF中则无法实现,但是我认为这超出了本线程的范围。)同样,EAV做得不好会造成不必要的瓶颈,仅此而已。未规范化。 当然,如果您使用EAV,我建议您提供更多的手续;买完整的交换;配6NF;实施目录;产生SQL的实用程序;意见;始终处理丢失的数据;完全消除Null。这减少了您对开发人员质量的脆弱性;他们可以忘记EAV / 6NF深奥的问题,使用Views并专注于应用程序逻辑。 请原谅。来源:stack overflow

保持可爱mmm 2020-05-13 14:49:13 0 浏览量 回答数 0

回答

ConvertOfficeFormat 该接口实现 OFFICE 文档格式的转换,用于文档打印、预览等场景。 它采用 同步请求 方式执行,执行完毕返回转换成功的页数。注意,同步转换超时时间为 5秒,如果大于 5秒 的转换需要使用异步接口 CreateOfficeConversionTask 。 请求参数 名称 类型 是否必填 描述 Project String 是 项目名 Action String 是 ConvertOfficeFormat SrcUri String 是 源数据的存储位置, OSS 资源采用如下格式”oss://bucket1/object” SrcType String 否 源数据的后缀类型,当前文档转换根据 OSS 对象的后缀名来确定源数据类型,当 OSS 对象没有后缀名时,可以设置该值 TgtType String 是 转换输出目标文件类型: vector,转成向量文件,需要使用 js 引擎来进行渲染 png,转成 png 格式的图片文件 jpg,转成 jpg 格式的图片文件 pdf,转成 pdf 文件 text,转成只包含文本内容的文件,主要用来提取文件的文本内容,注意只支持演示和表格文件类型 TgtUri String 是 转换输出内容到目标位置,建议 TgtUri 和 SrcUri 在同一个桶,便于权限管理 例如 OSS 桶的指定前缀”oss://bucket1/converttasks/session123/“ Password String 否 Office 文档的打开密码,如果需要转换有密码的文档,请设置该字段 StartPage int 否 从第 x 页开始转换,默认为1 EndPage int 否 转换至第 x 页,默认为200,如果需要转换全部页,设置为-1 MaxSheetRow int 否 表格文件转换最大行数,默认为1000。如果需要转换所有行,设置为-1 MaxSheetCol int 否 表格文件转换最大列数,默认为100,如果需要转换所有行,设置为-1 MaxSheetCount int 否 表格文件转换最多 sheet 数,如果需要转换所有Sheet,设置为-1 FitToPagesTall bool 否 表格文件转 pdf 时,将行全部输出到一页,默认为 false,只有设置 TgtType 为 pdf 时才会生效 FitToPagesWide bool 否 表格文件转 pdf 时,将列全部输出在一页,默认为 false,只有设置 TgtType 为 pdf 时才会生效 TgtFilePrefix String 否 转换后的文件名称前缀,在目标类型为 jpg, png, pdf 时才生效,可以是英文,数字,横划线,下划线,长度不超过256个字符,参考自定义目标文件名称 TgtFileSuffix String 否 转换后的文件名称后缀,在目标类型为 jpg, png, pdf 时才生效,可以是英文,数字,横划线,下划线,点号,长度不超过256个字符,参考自定义目标文件名称 TgtFilePages String 否 转换后输出指定文件页数,在目标类型为 jpg, png, pdf时才生效,默认输出所有页。例如:[1, 2, 100],只会输出1,2,100页到 TgtUri,最多指定100个页数,如果超过100页,请分多次转换进行提交 PdfVector bool 否 pdf 转换成 vector 时,是否使用向量模式,默认为 false true:使用向量模式,预览效果比较清晰,转换耗时较长 false:使用图片模式,预览效果一般,转换耗时较短 Hidecomments bool 否 word, ppt 转换成 vector, jpg, png 时,是否隐藏批注和应用修订,默认为 false true:隐藏批注,应用修订 false:显示批注和修订 DisplayDpi int 否 转换 jpg,png 时,设置图片分辨率,取值范围[96, 2048] 目前支持的 输入文件类型 包含如下 48 种格式: 演示文件:pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm。 表格文件:xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm。 文字文件:doc、dot、wps、wpt、docx、dotx、docm、dotm。 其他格式文件: pdf、 lrc、 c、 cpp、 h、 asm、 s、 java、 asp、 bat、 bas、 prg、 cmd、 rtf、 txt、 log、 xml、 htm、 html。 目前支持的 输出文件类型 有如下 4 种: vector 向量模式,使用智能媒体管理产品提供的 前端渲染引擎,更好的支持翻页、缩放。 jpg 模式,按文件样式每页生成一张 jpg 图片。 png 模式,按文件样式每页生成一张 png 图片。 pdf 模式,每个文件生成一个 pdf 文件。 text 模式,按文件样式每页生成一个 text 文件 返回参数 名称 类型 描述 RequestId String 用户发送的每次接口调用请求,无论成功与否,系统都会返回一个唯一识别码 RequestId 给用户 PageCount Integer 转换成功的页数 基于TgtUri返回TgtLoc,在OSS对象存储中的命名规则 基于 TgtUri 参数指定的前缀,比如/bucket1/imm-format-convert-tgt/session123/,根据转换目标类型的不同,那么生成的目标文件也有所不同: 目标类型为 vector 时 如果源文件为非 excel 类型 /bucket1/imm-format-convert-tgt/session123/doc/meta.json /bucket1/imm-format-convert-tgt/session123/doc/fp1.json /bucket1/imm-format-convert-tgt/session123/doc/fp2.json /bucket1/imm-format-convert-tgt/session123/doc/fp[...].json /bucket1/imm-format-convert-tgt/session123/doc/I/1 /bucket1/imm-format-convert-tgt/session123/doc/I/2 /bucket1/imm-format-convert-tgt/session123/doc/I/[...] 如果源文件为 excel 类型 /bucket1/imm-format-convert-tgt/session123/doc/meta.json /bucket1/imm-format-convert-tgt/session123/doc/s1/meta.json /bucket1/imm-format-convert-tgt/session123/doc/s1/fp1.json /bucket1/imm-format-convert-tgt/session123/doc/s1/fp2.json /bucket1/imm-format-convert-tgt/session123/doc/s1/fp[...].json /bucket1/imm-format-convert-tgt/session123/doc/s2/meta.json /bucket1/imm-format-convert-tgt/session123/doc/s2/fp1.json /bucket1/imm-format-convert-tgt/session123/doc/s2/fp2.json /bucket1/imm-format-convert-tgt/session123/doc/s2/fp[...].json /bucket1/imm-format-convert-tgt/session123/doc/s[...] /meta.json /bucket1/imm-format-convert-tgt/session123/doc/s[...]/fp1.json /bucket1/imm-format-convert-tgt/session123/doc/s[...]/fp2.json /bucket1/imm-format-convert-tgt/session123/doc/s[...]/fp[...].json 注意:vector 模式需要使用特定的 js 引擎进行渲染。 目标类型为 jpg 时 如果源文件为非 excel 类型 /bucket1/imm-format-convert-tgt/session123/1.jpg /bucket1/imm-format-convert-tgt/session123/2.jpg /bucket1/imm-format-convert-tgt/session123/[...].jpg 如果源文件为 excel 类型 /bucket1/imm-format-convert-tgt/session123/s1/1.jpg /bucket1/imm-format-convert-tgt/session123/s1/2.jpg /bucket1/imm-format-convert-tgt/session123/s1/[...].jpg /bucket1/imm-format-convert-tgt/session123/s2/1.jpg /bucket1/imm-format-convert-tgt/session123/s2/2.jpg /bucket1/imm-format-convert-tgt/session123/s2/[...].jpg /bucket1/imm-format-convert-tgt/session123/s[...]/1.jpg /bucket1/imm-format-convert-tgt/session123/s[...]/2.jpg /bucket1/imm-format-convert-tgt/session123/s[...]/[...].jpg 注意:源文件为 excel 类型时,会先根据 excel 的表格数,生成对应数量的文件夹,再在对应的文件夹下,生成对应数量的 jpg 文件 目标类型为 png 时 如果源文件为非 excel 类型 /bucket1/imm-format-convert-tgt/session123/1.png /bucket1/imm-format-convert-tgt/session123/2.png /bucket1/imm-format-convert-tgt/session123/[...].png 如果源文件为 excel 类型 /bucket1/imm-format-convert-tgt/session123/s1/1.png /bucket1/imm-format-convert-tgt/session123/s1/2.png /bucket1/imm-format-convert-tgt/session123/s1/[...].png /bucket1/imm-format-convert-tgt/session123/s2/1.png /bucket1/imm-format-convert-tgt/session123/s2/2.png /bucket1/imm-format-convert-tgt/session123/s2/[...].png /bucket1/imm-format-convert-tgt/session123/s[...]/1.png /bucket1/imm-format-convert-tgt/session123/s[...]/2.png /bucket1/imm-format-convert-tgt/session123/s[...]/[...].png 注意:源文件为 excel 类型时,会先根据 excel 的表格数,生产对应数量的文件夹,再在对应的文件夹下,生成对应数量的 png 文件 目标类型为 pdf 时 /bucket1/imm-format-convert-tgt/session123/1.pdf 注意:转换 pdf 时,无论源文件是什么类型,都只会生成一个 pdf 文件 目标类型为 text 时 /bucket1/imm-format-convert-tgt/session123/1.text /bucket1/imm-format-convert-tgt/session123/2.text /bucket1/imm-format-convert-tgt/session123/[...].text 注意:只支持演示类型和文字类型的源文件 重复请求处理 基于幂等性的要求, 两次相同操作以最后执行的请求为准。 如果两次执行操作的内容相同或者重复请求(内容相同,SignatureNonce 也相同),并且系统已经存在该任务,则后续的请求直接返回成功,避免消耗计算资源做相同的任务。 转换生成目标文件 生成的目标文件会持久化保存,推荐为某个桶下的 /imm-format-convert-tgt/${name} 路径,从而便于维护管理。 您可以主动删除转换后的目标文件,如果不主动删除则会长期保留以备使用,但是会占用存储空间。如果希望自动的删除目标文件,您也可以在 /imm-format-convert-tgt 前缀下配置 OSS 的生命周期,这样目标文件在到期后,会根据策略被清除。 自定义目标文件名称 当前文档转换通过设置 TgtFilePrefix 和 TgtFileSuffix 来支持自定义文件名称 假设 TgtType 为 jpg,则目标文件名称规则如下: TgtFilePrefix 和 TgtFileSuffix 都为空的条件下,目标文件名称为:[x].jpg TgtFilePrefix 为空,TgtFileSuffix 为 aa,则目标文件名称为:[x]aa TgtFilePrefix 为 aa,TgtFileSuffix 为空,则目标文件名称为:aa[x] TgtFilePrefix 为 aa,TgtFileSuffix 为 bb,则目标文件名称为:aa[x]bb 备注:[x] 表示多个目标文件,从1开始,如果转换后的文件有8页,则所有的目标文件为: aa[1]bb, aa[2]bb, …, aa[8]bb 示例 请求示例 POST https://imm.cn-shanghai.aliyuncs.com ?Action=ConvertOfficeFormat &Project=test &SrcUri="oss://bucket1/test.pptx" &TgtType=vector &TgtUri="oss://bucket1/imm-format-convert-tgt/session123/" ... 此处的示例,目的是展示关键参数,还需要其他的公共参数才能正常调用,推荐使用 SDK 来发送 API。 成功返回示例 { "RequestId": "FF3B7D81-66AE-47E0-BF69-157DCF187514", "PageCount": 10 } 特殊错误码 如果转换出错,在返回的 JSON 中会包含如下字段 { "RequestId": "7DA1FCD1-004C-4EB4-B039-C6BBDCEB0701", "HostId": "imm.cn-shanghai.aliyuncs.com", "Code": "DocumentConvertFailed.NeedPassword", "Message": "The conversion has been failed, need password to open file." } 错误代码 说明 OSSAccessError OSS 访问失败,请检查 SrcUri,TgtUri 对应的 bucket,路径是否存在,所在 Region 是否和 IMM Region 一致 InvalidParameter.SrcType.NotSupported 不支持的文件类型,当前文档转换根据文件后缀名来判断文件类型,请检查文件后缀名,SrcType 参数 DocumentConvertFailed.ExceedFileSizeLimit 当前文档转换默认支持 40 MB 文件大小,超过该大小的文件转换时会抛出该错误 DocumentConvertFailed.OpenFileError 转换时,打开文件失败,请检查源文档后缀和内容是否匹配 DocumentConvertFailed.ExportFileError 转换时,处理文件内容失败,请检查源文档是否能够正常打开 DocumentConvertFailed.NeedPassword 该文档需要密码才能打开,请设置 Password 参数 ExecutionTimeout 执行超时,请检查文档大小,页数,如果确实需要转换,请使用异步接口 CreateOfficeConversionTask InternalError 内部错误,请开工单并提供 RequestId

1934890530796658 2020-03-31 12:46:55 0 浏览量 回答数 0

问题

【每日一教程6.13】阿里云实现web数据同步的四种方式

李逵 2019-12-01 22:01:00 21343 浏览量 回答数 10
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板