• 关于

    文档查询可以做什么

    的搜索结果

问题

OpenSearch的数据统计是什么样的?

轩墨 2019-12-01 20:56:09 1155 浏览量 回答数 0

回答

IK不是可以自定义扩展词典吗加一行不就得了IK?怎么实现?可以说说具体的吗? 或者是加什么?你看看IK的IKAnalyzer.cfg.xml文件,就是来做词典配置的,可以配置ext_dict和ext_stopwords比如我输入“-”简历索引之后,然后输入“-”做查询就查询不到的~还是有点不明白哦,我是直接用的analyzer=newIKAnalyzer();//做分词,没有xml文件,怎么拓展?难道是自定义分词吗?还是有点不明白哦,我是直接用的<spanstyle="font-family:微软雅黑,Verdana,sans-serif,宋体;font-size:14px;line-height:22px;background-color:#FFFFFF;">analyzer=newIKAnalyzer();//做分词,没有xml文件,怎么拓展?难道是自定义分词吗? 是的,就是自定义分词好像在API中也是可以扩展的,看你自己想怎么用了是不是lucene把特殊字符给处理掉了比如是隐藏了~去看官方文档回复<aclass='referer'target='_blank'>@杨密:IKAnalyzer的文档是中文的。呵呵官方文档老是英文的都要看一会~现在只能做成自定义分词了<spanstyle="font-family:Verdana,sans-serif,宋体;font-size:14.44444465637207px;line-height:normal;background-color:#FFFFFF;">在IKAnalyzer.cfg.xml新增了一个字典里面放﹌,结果没效果啊

爱吃鱼的程序员 2020-06-22 20:05:09 0 浏览量 回答数 0

问题

hibernateTemplate 用什么方法取出单独一个对象比较好

蛮大人123 2019-12-01 20:04:48 958 浏览量 回答数 1

阿里云爆款特惠专场,精选爆款产品低至0.95折!

爆款ECS云服务器8.1元/月起,云数据库低至1.5折,限时抢购!

问题

OpenSearch有什么特性?

轩墨 2019-12-01 20:55:21 981 浏览量 回答数 0

问题

OpenSearch的搜索处理是什么?

轩墨 2019-12-01 20:57:06 1661 浏览量 回答数 0

回答

MAS至少有API和直接写数据库两种方法的。貌似里面的MySQL是4.1以下,这个比较郁闷。 ######你看下我下面的回答######我刚进这个公司,也没人带我这个新人,MAS的相关开发API和文档我已经拿到了,然后呢公司里,有一个OA办公的系统,就是我们平时上班和办公用的,上面可以发送短信的,公司的内部人员之间,也可以跟外部的人发,不过用的是短信猫,现在业务量大了,短信猫承受不了,所以觉得用移动的MAS机,让我开发一个平台,因为公司的OA是可以任意嵌入一个新的功能什么的,我也不知道怎么做汗 序号模块名称项目描述1系统登录  用户登录验证用户登录验证(密码由管理员分配)   2用户管理  用户基本信息1、显示公司人员基本信息、进行部门分组、部门内部分组显示方式 权限配置1、管理员赋予OA通讯录人员发短信权限。  2、系统目前分管理员、可发短信人员、可查看统计分析报表三种用户权限。   3收发短信  收发短信1、支持可以指定OA通讯录的人员发送短信,包含群发。  2、支持可以手动输入外部联系人号码发送短信,支持群发。  3、支持接收短信功能。  4、支持设置短信定时发送功能,实现定时发送设置好的短信。  5、支持管理员配置通讯录分组,方便不同部门发送短信。  6、支持OA实现业务功能,通过此系统实现短信提醒。   4统计分析 短信查询可根据时间、发短信人员、收短信人员模糊查询相应的短信内容记录 短信统计可以统计某个时间段的短信数量、各部门、个人的发送短信量   5对外接口  对外接口提供标准的外部接口((DB接口、API接口、webservice接口))   6需求调研需求调研   7系统设计系统设计   8测试测试   9实施实施   合计   这是需求,貌似还是我整理的。。。。。无语了,求一点点思路。。。######求什么思路啊?MAS就是一个工具而已,你针对它API做开发,应该按照你们的需求去做吧? 使用MAS的顺序一般是这样的: 1、权限验证(对比MAS后台设置的用户密码及权限) 2、发送短信 或 接收短信 或 查看发送状态 然后,然后就没了。MAS只不过是你这个短信模块的一个外部小工具而已。######回复 @柳天俊 : 怎么写,看文档。我做的是直接写数据库的。######那JAVA发送短信是怎么回事,是我写意个类调用MAS的接口,还是调用什么方法的,这个具体又要怎么写啊######mas就是手机 api就是你的手指######不明白。。######别着急,有方法的,用户管理、统计分析那块应该是自己做,后面收发短信应该是调用API。对外接口这个,也就是使用WebService。######前面的就是给我一个公司的的员工通讯录的数据,我把它提取出来了,也实现了分组啊什么的,后面那个什么赋予权限的,我一点思路都没有,在后面的我问公司的现在MAS机还没下来,具体怎么做还不晓得,我以前从来没坐过什么的,刚毕业出来,那人就叫我说你搭个架子做吧。。。汗。。。我都不晓得做什么东西,。。。。######MAS机?华为的还是嘉讯的?中兴的?在机器的箱子里有个光盘,里面有API和Demo,把mas先配置好,使用mas里的软件看能不能发短信,然后调用API发短信。。。######是上海一个什么若雅的 现在MAS机还没拿到手 公司 就给了份文档######权限管理别人做好的模板,你照着用就行了,不知道就Google吧######还真没做好的模板,我百度看看吧,不知道能否搜到模板啊######帮你项一下 。 ######之前在国内一家OA厂商就职时,做过类似这种东西,短信猫,华为短信机,短信易都做过,原理都一样,看清楚API,初始化,连接,发送,断开,就这么个过程!没有什么深奥的!看文档,不行就看例程!######你换来换去换的还是卡发,你公司怎么没有想过换换网关的,MAS还需要自己的机器和程序员,成本很高,可以试试网关的

kun坤 2020-06-11 16:52:05 0 浏览量 回答数 0

问题

API是什么意思?

轩墨 2019-12-01 21:59:00 1116 浏览量 回答数 0

回答

我觉得有三个维度,第一是说人工智能AI的技术来智能化的管控平台。我们现在数据库实例非常多,系统处理也变得越来越复杂。像NoSQL、OLTP、OLAP,要处理结构化数据,同时也要处理非结构化数据等等。在阿里,管理云上超过了几十万的实例数,集团内也有几十万的实例数,如何去高效和管理这么多的数据库实例?异常发现、异常检测、Slow SQL、MySQL、内存管理等这些都是依赖人工智能技术的。比如说在阿里巴巴集团内部用机器学习和人工智能技术实时去采集所有实例运行的状态,把它的IO/CPO的使用率和它的Workload的特点,去在线建模做8份大小的调整,每一个数据库的实例它是4G、8G、16G。为什么要做这件事?因为随着它一天Workload的变化,它实际上不需要在一天内的任何时候都需要一个非常大的Buffer,可能高峰Buffer要扩,等到峰值过去后Buffer可以缩下来,这样的话就可以把内存资源做一个动态调度。 第二是在内核里面。比如说做内存管理和做查询优化,现在业界也在开始使用一些机器学习的方法。传统使用一些简单的统计方法来做一些内存管理、做查询优化、Buffer Management,比如说LRU 或者 MRU这种非常简单的方式。现在可以看到有一些人工智能和机器学习的方法来做更复杂但是更智能化的、高效的智能化管理,以及CBO这是查询优化里很重要的一块。 第三个维度是说在数据库的应用层,需要对非结构化的数据进行处理,除了结构化的数据。比如说在ADB里面就把非结构化数据先做一个转换,把它从非结构化数据转化到高纬的向量,比如说用 embeddng把这种文档或者是图像甚至像视频都可以把他们映射到一个高维的空间里面,这样的话做一个向量处理引擎,就能把这种非结构化数据变成高维向量,再通过这些高维向量处理引擎把这些非结构化数据和结构化数据在一个数据库引擎里进行联合的查询和分析。这就是用数据库系统来支持AI机器学习和数据处理和 Workload。 总结来讲有两个维度AI或DB,就是机器学习和人工智能技术使得数据库系统更高效、更可靠、更好用。另外一个是DB或AI,就是用数据库的系统来支持机器学习和人工智能的处理。

问问小秘 2020-05-22 11:52:43 0 浏览量 回答数 0

回答

1.使用key值前缀来作命名空间虽然说Redis支持多个数据库(默认32个,可以配置更多),但是除了默认的0号库以外,其它的都需要通过一个额外请求才能使用。所以用前缀作为命名空间可能会更明智一点。另外,在使用前缀作为命名空间区隔不同key的时候,最好在程序中使用全局配置来实现,直接在代码里写前缀的做法要严格避免,这样可维护性实在太差了。2.创建一个类似 ”registry” 的key用于标记key使用情况为了更好的管理你的key值的使用,比如哪一类key值是属于哪个业务的,你通常会在内部wiki或者什么地方创建一个文档,通过查询这个文档,我们能够知道Redis中的key都是什么作用。与之结合,一个推荐的做法是,在Redis里面保存一个registry值,这个值的名字可以类似于 key_registry 这样的,这个key对应的value就是你文档的位置,这样我们在使用Redis的时候,就能通过直接查询这个值获取到当前Redis的使用情况了。3.注意垃圾回收Redis是一个提供持久化功能的内存数据库,如果你不指定上面值的过期时间,并且也不进行定期的清理工作,那么你的Redis内存占用会越来越大,当有一天它超过了系统可用内存,那么swap上场,离性能陡降的时间就不远了。所以在Redis中保存数据时,一定要预先考虑好数据的生命周期,这有很多方法可以实现。比如你可以采用Redis自带的过期时间为你的数据设定过期时间。但是自动过期有一个问题,很有可能导致你还有大量内存可用时,就让key过期去释放内存,或者是内存已经不足了key还没有过期。如果你想更精准的控制你的数据过期,你可以用一个ZSET来维护你的数据更新程度,你可以用时间戳作为score值,每次更新操作时更新一下score,这样你就得到了一个按更新时间排序序列串,你可以轻松地找到最老的数据,并且从最老的数据开始进行删除,一直删除到你的空间足够为止。4.设计好你的Sharding机制Redis目前并不支持Sharding,但是当你的数据量超过单机内存时,你不得不考虑Sharding的事(注意:Slave不是用来做Sharding操作的,只是数据的一个备份和读写分离而已)。所以你可能需要考虑好数据量大了后的分片问题,比如你可以在只有一台机器的时候就在程序上设定一致性hash机制,虽然刚开始所有数据都hash到一台机器,但是当你机器越加越多的时候,你就只需要迁移少量的数据就能完成了。5.不要有个锤子看哪都是钉子当你使用Redis构建你的服务的时候,一定要记住,你只是找了一个合适的工具来实现你需要的功能。而不是说你在用Redis构建一个服务,这是很不同的,你把Redis当作你很多工具中的一个,只在合适使用的时候再使用它,在不合适的时候选择其它的方法。

落地花开啦 2019-12-02 01:48:56 0 浏览量 回答数 0

问题

MySQL DELETE FROM以子查询为条件?mysql

保持可爱mmm 2020-05-17 09:45:17 0 浏览量 回答数 1

问题

【阿里云产品公测】SLS 简单日志 会用很简单

啊里新人 2019-12-01 21:13:52 9210 浏览量 回答数 4

问题

OpenSearch的数据处理是什么?

轩墨 2019-12-01 20:57:00 992 浏览量 回答数 0

问题

mongodb存储四维数组的问题

落地花开啦 2019-12-01 19:57:54 1070 浏览量 回答数 1

问题

OpenSearch的下拉提示有什么功效?

轩墨 2019-12-01 20:56:08 965 浏览量 回答数 0

问题

【Java问答学堂】9期 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?

剑曼红尘 2020-04-27 14:35:38 0 浏览量 回答数 1

回答

MySQL客户端不允许您执行新的查询,在该查询中仍需要从正在进行的查询中获取行。有关常见错误,请参见MySQL文档中的命令不同步。 您可以用来mysqli_store_result()从外部查询中预提取所有行。这会将它们缓冲在MySQL客户端中,因此从服务器的角度来看,您的应用已获取了完整的结果集。然后,即使在从现在缓冲的外部结果集中提取行的循环中,您也可以执行更多查询。 或者,您mysqli_result::fetch_all()将完整的结果集作为PHP数组返回,然后可以在该数组上循环。 调用存储过程是一种特殊情况,因为存储过程有可能返回多个结果集,每个结果集可能都有自己的行集。这就是为什么@ a1ex07的答案提到使用mysqli_multi_query()和循环直到mysqli_next_result()没有更多结果集。即使您的存储过程只有一个结果集,这也必须满足MySQL协议。 PS:顺便说一句,我看到您正在执行嵌套查询,因为您有代表层次结构的数据。您可能要考虑以不同的方式存储数据,以便可以更轻松地查询它。我做了一个名为“ SQL和PHP的分层数据模型”的演讲。我还在《SQL反模式:避免数据库编程的陷阱》一章中介绍了该主题。 这是mysqli_next_result()在CodeIgnitor 3.0.3中实现的方法: 在system/database/drivers/mysqli/mysqli_driver.php变化的第262行 protected function _execute($sql) { return $this->conn_id->query($this->_prep_query($sql)); } 对此 protected function _execute($sql) { $results = $this->conn_id->query($this->_prep_query($sql)); @mysqli_next_result($this->conn_id); // Fix 'command out of sync' error return $results; } 从2.x开始,这一直是一个问题。我刚刚更新到3.x,并且不得不将此破解复制到新版本中。来源:stack overflow

保持可爱mmm 2020-05-11 12:00:22 0 浏览量 回答数 0

问题

MaxCompute百问集锦

yq传送门 2019-12-01 20:16:47 2404 浏览量 回答数 1

回答

简介 ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。 同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向扩展至数以百计的服务器存储以及处理PB级的数据。 可以在极短的时间内存储、搜索和分析大量的数据。通常作为具有复杂搜索场景情况下的核心发动机。 ES就是为高可用和可扩展而生的。一方面可以通过升级硬件来完成系统扩展,称为垂直或向上扩展(Vertical Scale/Scaling Up)。 另一方面,增加更多的服务器来完成系统扩展,称为水平扩展或者向外扩展(Horizontal Scale/Scaling Out)。尽管ES能够利用更强劲的硬件,但是垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展,通过向集群中添加更多的节点来分担负载,增加可靠性。ES天生就是分布式的,它知道如何管理多个节点来完成扩展和实现高可用性。意味应用不需要做任何的改动。 Gateway,代表ES索引的持久化存储方式。在Gateway中,ES默认先把索引存储在内存中,然后当内存满的时候,再持久化到Gateway里。当ES集群关闭或重启的时候,它就会从Gateway里去读取索引数据。比如LocalFileSystem和HDFS、AS3等。 DistributedLucene Directory,它是Lucene里的一些列索引文件组成的目录。它负责管理这些索引文件。包括数据的读取、写入,以及索引的添加和合并等。 River,代表是数据源。是以插件的形式存在于ES中。  Mapping,映射的意思,非常类似于静态语言中的数据类型。比如我们声明一个int类型的变量,那以后这个变量只能存储int类型的数据。比如我们声明一个double类型的mapping字段,则只能存储double类型的数据。 Mapping不仅是告诉ES,哪个字段是哪种类型。还能告诉ES如何来索引数据,以及数据是否被索引到等。 Search Moudle,搜索模块,支持搜索的一些常用操作 Index Moudle,索引模块,支持索引的一些常用操作 Disvcovery,主要是负责集群的master节点发现。比如某个节点突然离开或进来的情况,进行一个分片重新分片等。这里有个发现机制。 发现机制默认的实现方式是单播和多播的形式,即Zen,同时也支持点对点的实现。另外一种是以插件的形式,即EC2。 Scripting,即脚本语言。包括很多,这里不多赘述。如mvel、js、python等。    Transport,代表ES内部节点,代表跟集群的客户端交互。包括 Thrift、Memcached、Http等协议 RESTful Style API,通过RESTful方式来实现API编程。 3rd plugins,代表第三方插件。 Java(Netty),是开发框架。 JMX,是监控。 使用案例 1、将ES作为网站的主要后端系统 比如现在搭建一个博客系统,对于博客帖子的数据可以直接在ES上存储,并且使用ES来进行检索,统计。ES提供了持久化的存储、统计和很多其他数据存储的特性。 注意:但是像其他的NOSQL数据存储一样,ES是不支持事务的,如果要事务机制,还是考虑使用其他的数据库做真实库。 2、将ES添加到现有系统 有些时候不需要ES提供所有数据的存储功能,只是想在一个数据存储的基础之上使用ES。比如已经有一个复杂的系统在运行,但是现在想加一个搜索的功能,就可以使用该方案。 3、将ES作为现有解决方案的后端部分 因为ES是开源的系统,提供了直接的HTTP接口,并且现在有一个大型的生态系统在支持他。比如现在我们想部署大规模的日志框架、用于存储、搜索和分析海量的事件,考虑到现有的工具可以写入和读取ES,可以不需要进行任何开发,配置这些工具就可以去运作。 设计结构 1、逻辑设计 文档 文档是可以被索引的信息的基本单位,它包含几个重要的属性: 是自我包含的。一篇文档同时包含字段和他们的取值。 是层次型的。文档中还可以包含新的文档,一个字段的取值可以是简单的,例如location字段的取值可以是字符串,还可以包含其他字段和取值,比如可以同时包含城市和街道地址。 拥有灵活的结构。文档不依赖于预先定义的模式。也就是说并非所有的文档都需要拥有相同的字段,并不受限于同一个模式 {   "name":"meeting",   "location":"office",   "organizer":"yanping" } {   "name":"meeting",   "location":{     "name":"sheshouzuo",        "date":"2019-6-28"   },   "memebers":["leio","shiyi"] } 类型 类型是文档的逻辑容器,类似于表格是行的容器。在不同的类型中,最好放入不同的结构的文档。 字段 ES中,每个文档,其实是以json形式存储的。而一个文档可以被视为多个字段的集合。 映射 每个类型中字段的定义称为映射。例如,name字段映射为String。 索引 索引是映射类型的容器一个ES的索引非常像关系型世界中的数据库,是独立的大量文档集合。   关系型数据库与ES的结构上的对比 2、物理设计 节点 一个节点是一个ES的实例,在服务器上启动ES之后,就拥有了一个节点,如果在另一个服务器上启动ES,这就是另一个节点。甚至可以在一台服务器上启动多个ES进程,在一台服务器上拥有多个节点。多个节点可以加入同一个集群。 当ElasticSearch的节点启动后,它会利用多播(multicast)(或者单播,如果用户更改了配置)寻找集群中的其它节点,并与之建立连接。这个过程如下图所示: 节点主要有3种类型,第一种类型是client_node,主要是起到请求分发的作用,类似路由。第二种类型是master_node,是主的节点,所有的新增,删除,数据分片都是由主节点操作(elasticsearch底层是没有更新数据操作的,上层对外提供的更新实际上是删除了再新增),当然也能承担搜索操作。第三种类型是date_node,该类型的节点只能做搜索操作,具体会分配到哪个date_node,就是由client_node决定,而data_node的数据都是从master_node同步过来的 分片 一个索引可以存储超出单个结点硬件限制的大量数据。比如,一个具有10亿文档的索引占据1TB的磁盘空间,而任一节点都没有这样大的磁盘空间;或者单个节点处理搜索请求,响应太慢。   为了解决这个问题,ES提供了将索引划分成多份的能力,这些份就叫做分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置到集群中的任何节点上。 分片之所以重要,主要有两方面的原因:   1、允许你水平分割/扩展你的内容容量 允许你在分片(潜在地,位于多个节点上)之上进行分布式的、并行的操作,进而提高性能/吞吐量 至于一个分片怎样分布,它的文档怎样聚合回搜索请求,是完全由ES管理的,对于作为用户的你来说,这些都是透明的。   2、在一个网络/云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因消失了。这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,ES允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片,或者直接叫复制。 复制之所以重要,主要有两方面的原因: (1)在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要(original/primary)分片置于同一节点上是非常重要的。 (2)扩展你的搜索量/吞吐量,因为搜索可以在所有的复制上并行运行 总之,每个索引可以被分成多个分片。一个索引也可以被复制0次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制数量,但是不能改变分片的数量。   默认情况下,ES中的每个索引被分片5个主分片和1个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有5个主分片和另外5个复制分片(1个完全拷贝),这样的话每个索引总共就有10个分片。一个索引的多个分片可以存放在集群中的一台主机上,也可以存放在多台主机上,这取决于你的集群机器数量。主分片和复制分片的具体位置是由ES内在的策略所决定的。 3、插件HEAD elasticsearch-head是一个界面化的集群操作和管理工具 ● node:即一个 Elasticsearch 的运行实例,使用多播或单播方式发现 cluster 并加入。 ● cluster:包含一个或多个拥有相同集群名称的 node,其中包含一个master node。 ● index:类比关系型数据库里的DB,是一个逻辑命名空间。 ● alias:可以给 index 添加零个或多个alias,通过 alias 使用index 和根据index name 访问index一样,但是,alias给我们提供了一种切换index的能力,比如重建了index,取名● customer_online_v2,这时,有了alias,我要访问新 index,只需要把 alias 添加到新 index 即可,并把alias从旧的 index 删除。不用修改代码。 ● type:类比关系数据库里的Table。其中,一个index可以定义多个type,但一般使用习惯仅配一个type。 ● mapping:类比关系型数据库中的 schema 概念,mapping 定义了 index 中的 type。mapping 可以显示的定义,也可以在 document 被索引时自动生成,如果有新的 field,Elasticsearch 会自动推测出 field 的type并加到mapping中。 ● document:类比关系数据库里的一行记录(record),document 是 Elasticsearch 里的一个 JSON 对象,包括零个或多个field。 ● field:类比关系数据库里的field,每个field 都有自己的字段类型。 ● shard:是一个Lucene 实例。Elasticsearch 基于 Lucene,shard 是一个 Lucene 实例,被 Elasticsearch 自动管理。之前提到,index 是一个逻辑命名空间,shard 是具体的物理概念,建索引、查询等都是具体的shard在工作。shard 包括primary shard 和 replica shard,写数据时,先写到primary shard,然后,同步到replica shard,查询时,primary 和 replica 充当相同的作用。replica shard 可以有多份,也可以没有,replica shard的存在有两个作用,一是容灾,如果primary shard 挂了,数据也不会丢失,集群仍然能正常工作;二是提高性能,因为replica 和 primary shard 都能处理查询。另外,如上图右侧红框所示,shard数和replica数都可以设置,但是,shard 数只能在建立index 时设置,后期不能更改,但是,replica 数可以随时更改。但是,由于 Elasticsearch 很友好的封装了这部分,在使用Elasticsearch 的过程中,我们一般仅需要关注 index 即可,不需关注shard。   shard、node、cluster 在物理上构成了 Elasticsearch 集群,field、type、index 在逻辑上构成一个index的基本概念,在使用 Elasticsearch 过程中,我们一般关注到逻辑概念就好,就像我们在使用MySQL 时,我们一般就关注DB Name、Table和schema即可,而不会关注DBA维护了几个MySQL实例、master 和 slave 等怎么部署的一样。 ES中的索引原理 (1)传统的关系型数据库 二叉树查找效率是logN,同时插入新的节点不必移动全部节点,所以用树型结构存储索引,能同时兼顾插入和查询的性能。因此在这个基础上,再结合磁盘的读取特性(顺序读/随机读),传统关系型数据库采用了B-Tree/B+Tree这样的数据结构做索引 (2)ES 采用倒排索引 那么,倒排索引是个什么样子呢? 首先,来搞清楚几个概念,为此,举个例子: 假设有个user索引,它有四个字段:分别是name,gender,age,address。画出来的话,大概是下面这个样子,跟关系型数据库一样 Term(单词):一段文本经过分析器分析以后就会输出一串单词,这一个一个的就叫做Term Term Dictionary(单词字典):顾名思义,它里面维护的是Term,可以理解为Term的集合 Term Index(单词索引):为了更快的找到某个单词,我们为单词建立索引 Posting List(倒排列表):倒排列表记录了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。(PS:实际的倒排列表中并不只是存了文档ID这么简单,还有一些其它的信息,比如:词频(Term出现的次数)、偏移量(offset)等,可以想象成是Python中的元组,或者Java中的对象) (PS:如果类比现代汉语词典的话,那么Term就相当于词语,Term Dictionary相当于汉语词典本身,Term Index相当于词典的目录索引) 我们知道,每个文档都有一个ID,如果插入的时候没有指定的话,Elasticsearch会自动生成一个,因此ID字段就不多说了 上面的例子,Elasticsearch建立的索引大致如下: name字段: age字段: gender字段: address字段: Elasticsearch分别为每个字段都建立了一个倒排索引。比如,在上面“张三”、“北京市”、22 这些都是Term,而[1,3]就是Posting List。Posting list就是一个数组,存储了所有符合某个Term的文档ID。 只要知道文档ID,就能快速找到文档。可是,要怎样通过我们给定的关键词快速找到这个Term呢? 当然是建索引了,为Terms建立索引,最好的就是B-Tree索引(MySQL就是B树索引最好的例子)。 我们查找Term的过程跟在MyISAM中记录ID的过程大致是一样的 MyISAM中,索引和数据是分开,通过索引可以找到记录的地址,进而可以找到这条记录 在倒排索引中,通过Term索引可以找到Term在Term Dictionary中的位置,进而找到Posting List,有了倒排列表就可以根据ID找到文档了 (PS:可以这样理解,类比MyISAM的话,Term Index相当于索引文件,Term Dictionary相当于数据文件) (PS:其实,前面我们分了三步,我们可以把Term Index和Term Dictionary看成一步,就是找Term。因此,可以这样理解倒排索引:通过单词找到对应的倒排列表,根据倒排列表中的倒排项进而可以找到文档记录) 为了更进一步理解,用两张图来具现化这一过程: (至于里面涉及的更加高深的数据压缩技巧,以及多个field联合查询利用跳表的数据结构快速做运算来查询,这些大家有兴趣可以自己去了解)

问问小秘 2020-04-29 15:40:48 0 浏览量 回答数 0

回答

原生XML扩展 我更喜欢使用其中一个原生XML扩展,因为它们与PHP捆绑在一起,通常比所有第三方库更快,并且在标记上给我所需的所有控制权。 DOM DOM扩展允许您使用PHP 5通过DOM API操作XML文档。它是W3C的文档对象模型核心级别3的实现,这是一个平台和语言中立的接口,允许程序和脚本动态访问和更新文件的内容,结构和风格。 DOM能够解析和修改现实世界(破碎)的HTML,并且可以执行XPath查询。它基于libxml。 使用DOM需要一些时间才能提高效率,但这个时间非常值得IMO。由于DOM是一个与语言无关的接口,因此您可以找到多种语言的实现,因此如果您需要更改编程语言,那么您很可能已经知道如何使用该语言的DOM API。 一个基本的用法示例可以在抓取A元素的href属性中找到,一般的概念概述可以在php的DOMDocument中找到 StackOverflow上已经广泛介绍了如何使用DOM扩展,因此如果您选择使用它,您可以确定您遇到的大多数问题都可以通过搜索/浏览Stack Overflow来解决。 XMLReader的 XMLReader扩展是一个XML pull解析器。读取器在文档流上作为光标前进,并在途中停在每个节点上。 与DOM一样,XMLReader基于libxml。我不知道如何触发HTML解析器模块,因此使用XMLReader解析损坏的HTML的可能性可能不如使用DOM,因为您可以明确告诉它使用libxml的HTML解析器模块。 使用php从h1标签获取所有值时,可以找到一个基本用法示例 XML解析器 此扩展允许您创建XML解析器,然后为不同的XML事件定义处理程序。每个XML解析器还有一些您可以调整的参数。 XML Parser库也基于libxml,并实现了SAX样式的XML推送解析器。它可能是比DOM或SimpleXML更好的内存管理选择,但是比XMLReader实现的pull解析器更难以使用。 SimpleXML的 SimpleXML扩展提供了一个非常简单且易于使用的工具集,用于将XML转换为可以使用普通属性选择器和数组迭代器处理的对象。 当您知道HTML是有效的XHTML时,SimpleXML是一个选项。如果你需要解析破碎的HTML,甚至不要考虑SimpleXml,因为它会窒息。 一个基本的用法示例可以在一个简单的CRUD节点程序和xml文件的节点值中找到,PHP手册中还有很多其他的例子。 第三方库(基于libxml) 如果您更喜欢使用第三方库,我建议使用实际上使用DOM / libxml而不是字符串解析的库。 FluentDom - 回购 FluentDOM为PHP中的DOMDocument提供了类似jQuery的流畅XML接口。选择器是用XPath或CSS编写的(使用CSS到XPath转换器)。当前版本扩展了DOM实现标准接口并添加了DOM Living Standard的功能。FluentDOM可以加载JSON,CSV,JsonML,RabbitFish等格式。可以通过Composer安装。 HtmlPageDom Wa72 \ HtmlPageDom`是一个用于轻松操作HTML文档的PHP库。它需要来自Symfony2组件的DomCrawler来遍历DOM树,并通过添加操作HTML文档的DOM树的方法来扩展它。 phpQuery(多年未更新) phpQuery是一个服务器端,可链接,CSS3选择器驱动的文档对象模型(DOM)API,基于用PHP5编写的jQuery JavaScript库,并提供额外的命令行界面(CLI)。 另见:https://github.com/electrolinux/phpquery Zend_Dom Zend_Dom提供了处理DOM文档和结构的工具。目前,我们提供Zend_Dom_Query,它提供了一个统一的界面,可以使用XPath和CSS选择器查询DOM文档。 的QueryPath QueryPath是一个用于操作XML和HTML的PHP​​库。它不仅适用于本地文件,还适用于Web服务和数据库资源。它实现了许多jQuery接口(包括CSS样式的选择器),但它在服务器端使用时经过了大量调整。可以通过Composer安装。 fDOMDocument fDOMDocument扩展了标准DOM,以便在所有错误情况下使用异常,而不是PHP警告或通知。为方便起见,他们还添加了各种自定义方法和快捷方式,并简化了DOM的使用。 军刀/ XML saber / xml是一个包装和扩展XMLReader和XMLWriter类的库,用于创建一个简单的“xml到对象/数组”映射系统和设计模式。编写和读取XML是单遍的,因此可以快速并且需要大型xml文件的低内存。 FluidXML FluidXML是一个用于使用简洁流畅的API来操作XML的PHP​​库。它利用XPath和流畅的编程模式,既有趣又有效。 第三方(不是基于libxml的) 构建DOM / libxml的好处是,您可以获得良好的开箱即用性能,因为您基于本机扩展。但是,并非所有第三方库都沿着这条路线行进。其中一些列在下面 PHP简单的HTML DOM解析器 用PHP5 +编写的HTML DOM解析器允许您以非常简单的方式操作HTML! 需要PHP 5+。 支持无效的HTML。 使用选择器在HTML页面上查找标签,就像jQuery一样。 从一行中提取HTML中的内容。 我一般不推荐这个解析器。代码库很糟糕,解析器本身很慢而且内存很耗。并非所有jQuery选择器(例如子选择器)都是可能的。任何基于libxml的库都应该比这更容易。 PHP Html解析器 PHPHtmlParser是一个简单,灵活的html解析器,允许您使用任何css选择器(如jQuery)选择标签。目标是帮助开发需要快速,简单的方法来废弃html的工具,无论它是否有效!这个项目最初是由sunra / php-simple-html-dom-parser支持的,但支持似乎已经停止,所以这个项目是我对他以前工作的改编。 同样,我不推荐这个解析器。CPU使用率很高,速度相当慢。还没有清除已创建DOM对象的内存的功能。这些问题尤其适用于嵌套循环。文档本身不准确且拼写错误,自4月14日以来没有回复修复。 加农 通用标记器和HTML / XML / RSS DOM解析器 能够操纵元素及其属性 支持无效的HTML和UTF8 可以对元素执行类似CSS3的高级查询(比如jQuery - 支持的命名空间) HTML美化器(如HTML Tidy) 缩小CSS和Javascript 排序属性,更改字符大小写,更正缩进等。 扩展 使用基于当前字符/标记的回调解析文档 操作以较小的功能分隔,以便轻松覆盖 快速而简单 从未使用过它。不知道它是否有用。 HTML 5 您可以使用上面的方法来解析HTML5,但由于HTML5允许的标记,可能会有怪癖。因此,对于HTML5,您要考虑使用专用解析器,例如 html5lib 基于WHATWG HTML5规范的HTML解析器的Python和PHP实现,可与主要桌面Web浏览器实现最大兼容性。 HTML5最终确定后,我们可能会看到更多专用解析器。还有一个W3的博客文章,名为How-To for html 5 parsing,值得一试。 网页服务 如果您不想编写PHP,您也可以使用Web服务。一般来说,我发现这些实用程序很少,但那只是我和我的用例。 ScraperWiki。 ScraperWiki的外部界面允许您以您希望在Web或您自己的应用程序中使用的形式提取数据。您还可以提取有关任何刮刀状态的信息。 常用表达 最后也是最不推荐的,您可以使用正则表达式从HTML中提取数据。通常,不鼓励在HTML上使用正则表达式。 您可以在网上找到与标记相匹配的大多数片段都很脆弱。在大多数情况下,它们只适用于非常特殊的HTML。微小的标记更改,例如在某处添加空格,或添加或更改标记中的属性,可以使RegEx在未正确编写时失败。在HTML上使用RegEx之前,您应该知道自己在做什么。 HTML解析器已经知道HTML的语法规则。必须为您编写的每个新RegEx讲授正则表达式。RegEx在某些情况下很好,但它实际上取决于您的用例。 您可以编写更可靠的解析器,但是使用正则表达式编写完整可靠的自定义解析器是浪费时间,因为上述库已经存在并且在此方面做得更好。

游客gsy3rkgcdl27k 2019-12-02 02:09:37 0 浏览量 回答数 0

问题

码农必备套件

仙游 2019-12-01 22:09:42 2528 浏览量 回答数 0

问题

我们为什么需要HBase?

pandacats 2019-12-23 10:02:07 2 浏览量 回答数 1

问题

ECS实例管理FAQ

boxti 2019-12-01 21:48:18 1514 浏览量 回答数 0

回答

大多数DBAPI实现在获取行时都会完全缓冲行-因此通常,在SQLAlchemy ORM甚至没有保留一个结果之前,整个结果集就在内存中。 但是,有效的方法Query是在返回对象之前默认情况下完全加载给定的结果集。这里的基本原理涉及的查询不仅仅是简单的SELECT语句。例如,在连接到可能在一个结果集中多次返回相同对象标识的其他表中(与急切加载相同),完整的行集需要存储在内存中,以便可以返回正确的结果,否则返回集合。可能只是部分填充。 因此Query提供了通过更改此行为的选项yield_per()。此调用将导致Query批量生成行,并在其中指定批量大小。正如文档所述,这仅在您不进行任何急切加载集合的情况下才是合适的,因此基本上是您真的知道自己在做什么。同样,如果底层的DBAPI预缓冲行,则仍然会有内存开销,因此该方法的伸缩性仅比不使用它更好。 我很少用过yield_per(); 相反,我使用了您上面建议的使用窗口函数的LIMIT方法的更好版本。LIMIT和OFFSET存在一个巨大的问题,即非常大的OFFSET值会导致查询变得越来越慢,因为N的OFFSET会使查询分页N行-就像执行相同的查询而不是一次,每次查询50次行数越来越大。使用窗口函数方法,我预取了一组“窗口”值,这些值引用了我要选择的表的块。然后,我发出单独的SELECT语句,每个语句一次从这些窗口之一中提取。 窗口函数方法在Wiki上,我使用它非常成功。 另请注意:并非所有数据库都支持窗口功能。您需要Postgresql,Oracle或SQL Server。恕我直言,至少使用Postgresql绝对值得-如果您使用的是关系数据库,则最好使用最佳数据库。来源:stack overflow

保持可爱mmm 2020-05-17 13:08:53 0 浏览量 回答数 0

回答

换jackess试试:http://jackcess.sourceforge.net/非常感谢上楼的提示,现在我用jackcess修复了另外一个比较棘手的问题,就是java读取sqlserver数据插入access中,报内存溢出的问题,用了jackcess之后,问题就解决了。对应,谁有jackcess相关的文档啊!在网上找不到,而且国外的网站也打不开,最好有相应的例子,对表的增删改查等。我把那个网站抓下来了你看不能访问http://42.159.196.246:9999/http://42.159.196.246:9999/apidocs/可以访问,谢谢!谁有jackcess相关的API啊!<atarget='_blank'>@char1st高手,这个东西你研究过吗?比如,排序,查询,分页查询怎么做啊?我那个vps挂了换成这个地址http://42.159.228.247/apidocs/<divclass='ref'> 引用来自“微风无声”的评论谁有jackcess相关的API啊!ucanaccess是用hsqldb解析sql语句分解成独立的操作然后让jackess执行这些操作命令的,我用slick+ucanaccess好端端的没什么问题.能把你怎么解决这个问题的方法说下吗?我也碰到这个异常了

爱吃鱼的程序员 2020-06-20 16:40:49 0 浏览量 回答数 0

回答

错了,现在的源推荐使用:gem source -a https://gems.ruby-china.org 具体可以根据他们论坛的wiki配置,实在你搞不定,去发个帖子吧,Ruby社区还是很友好的 ######回复 @愤怒的小兔 : 是这样的,我第一张错误图给错了。最开始我是用railsinstaller-2.2.1安装的(最新版本因为网速慢下不了),然后rails new blog 就卡在run bundle install了,然后就报了错。见下图######回复 @daisytina : 什么出错提示?######回复 @愤怒的小兔 : 谢谢你的回复!更改了源之后bundle install仍然出错!######回复 @愤怒的小兔 : 给你个比较及时跟踪较新Rails版本的电子书籍链接:https://selfstore.io/products/189,英文好可以直接去看官方的文档######不要看那些老掉牙的过时的教程,看官方文档和Ruby社区的最新资料,因为一些改动会让你无法按照老套的步骤学习下去的。###### 这就是最原始的问题,麻烦看看什么问题? ###### 引用来自“daisytina”的评论 这就是最原始的问题,麻烦看看什么问题? 如果是这个问题的话呢,提示说的还是比较清楚的,就是先安装对应版本号的rake。国内被墙的话要么挂VPN,要么修改镜像源。后面你给的图,用的淘宝源。Taobao的Ruby镜像貌似因为维护人员不在淘宝所以已经无法维护了,现在修改源的话还是建议使用Ruby-China的源。学习Rails开发的话,如果不是很必要的话,建议使用Linux系统,因为某些gem在windows下会出问题(某些gem作者当时就没考虑windows)。实在不行,要么装虚拟机,要么使用Vagrant。ruby论坛里面有很多现成的windows下使用linux方式开发的解决方案,各种方案都有详细说明。建议你根据自己的需要搜索查询######谢谢你的建议!但是目前我要在win7下解决这个问题,听说最新版本的railsinstaller可以解决源的问题,网速原因官网下载不了,请问你有没有这个安装包?###### 首先,我是不赞成windows玩Rails甚至Ruby的,所以为了打消(坚定)你在Windows下玩Rails的念头,决定做一个辛苦的搬运工: 为什么一般都不推荐在 ?Windows 上玩 ruby? 新人千万不要在 Windows 上使用 Ruby on Rails 看完以上链接,你是否决定投入Linux/Mac OS的怀抱?没有的话继续Windows下怎么被Rails玩好的话题: Windows 下开发 rails 的一种姿势 Windows 使用 Vargrant 搭建 Ruby on Rails 开发环境 如果以上解决方案你感觉麻烦搞不定的话,可以试试这种(貌似你要的): Rails 在 Windows 下的完整开发环境压缩包 (Ruby 2.1.7 和 2.2.4) 以上所有解决方案均来自ruby社区的分享搜索,功劳也是属于辛勤的原作者。 ######我也是在windows下做开发的,已经学些了两个多月了。。如果你感兴趣的话,可以下来交流交流

kun坤 2020-05-29 20:59:48 0 浏览量 回答数 0

问题

为什么云服务器 ECS Linux SSH 启用 UseDNS 导致连接速度变慢

boxti 2019-12-01 21:59:51 1035 浏览量 回答数 0

回答

换jackess试试:http://jackcess.sourceforge.net/######非常感谢上楼的提示,现在我用jackcess修复了另外一个比较棘手的问题,就是java读取sqlserver数据插入access中,报内存溢出的问题,用了jackcess之后,问题就解决了。######对应,谁有jackcess相关的文档啊!在网上找不到,而且国外的网站也打不开,最好有相应的例子,对表的增删改查等。######我把那个网站抓下来了 你看不能访问 http://42.159.196.246:9999/ http://42.159.196.246:9999/apidocs/######可以访问,谢谢!######谁有jackcess相关的API啊!######@char1st 高手,这个东西你研究过吗?比如,排序,查询,分页查询怎么做啊?######我那个vps挂了 换成这个地址http://42.159.228.247/apidocs/###### 引用来自“微风无声”的评论谁有jackcess相关的API啊! 谢谢######ucanaccess是用hsqldb解析sql语句分解成独立的操作然后让jackess执行这些操作命令的,我用slick+ucanaccess好端端的没什么问题.######能把你怎么解决这个问题的方法说下吗?我也碰到这个异常了

kun坤 2020-06-07 23:03:12 0 浏览量 回答数 0

回答

换jackess试试:http://jackcess.sourceforge.net/######非常感谢上楼的提示,现在我用jackcess修复了另外一个比较棘手的问题,就是java读取sqlserver数据插入access中,报内存溢出的问题,用了jackcess之后,问题就解决了。######对应,谁有jackcess相关的文档啊!在网上找不到,而且国外的网站也打不开,最好有相应的例子,对表的增删改查等。######我把那个网站抓下来了 你看不能访问 http://42.159.196.246:9999/ http://42.159.196.246:9999/apidocs/######可以访问,谢谢!######谁有jackcess相关的API啊!######@char1st 高手,这个东西你研究过吗?比如,排序,查询,分页查询怎么做啊?######我那个vps挂了 换成这个地址http://42.159.228.247/apidocs/###### 引用来自“微风无声”的评论谁有jackcess相关的API啊! 谢谢######ucanaccess是用hsqldb解析sql语句分解成独立的操作然后让jackess执行这些操作命令的,我用slick+ucanaccess好端端的没什么问题.######能把你怎么解决这个问题的方法说下吗?我也碰到这个异常了

kun坤 2020-05-28 16:10:33 0 浏览量 回答数 0

回答

换jackess试试:http://jackcess.sourceforge.net/######非常感谢上楼的提示,现在我用jackcess修复了另外一个比较棘手的问题,就是java读取sqlserver数据插入access中,报内存溢出的问题,用了jackcess之后,问题就解决了。######对应,谁有jackcess相关的文档啊!在网上找不到,而且国外的网站也打不开,最好有相应的例子,对表的增删改查等。######我把那个网站抓下来了 你看不能访问 http://42.159.196.246:9999/ http://42.159.196.246:9999/apidocs/######可以访问,谢谢!######谁有jackcess相关的API啊!######@char1st 高手,这个东西你研究过吗?比如,排序,查询,分页查询怎么做啊?######我那个vps挂了 换成这个地址http://42.159.228.247/apidocs/###### 引用来自“微风无声”的评论谁有jackcess相关的API啊! 谢谢######ucanaccess是用hsqldb解析sql语句分解成独立的操作然后让jackess执行这些操作命令的,我用slick+ucanaccess好端端的没什么问题.######能把你怎么解决这个问题的方法说下吗?我也碰到这个异常了

montos 2020-05-31 21:45:12 0 浏览量 回答数 0

回答

MongoDB ACID事务支持 这里要有一定的关系型数据库的事务的概念,不然不一定能理解的了这里说的事务概念。 下面说一说MongoDB的事务支持,这里可能会有疑惑,前面我们在介绍MongoDB时,说MongoDB是一个NoSQL数据库,不支持事务。这里又介绍MongoDB的事务。这里要说明一下MongoDB的事务支持跟关系型数据库的事务支持是两码事,如果你已经非常了解关系型数据库的事务,通过下面一副图对比MongoDB事务跟MySQL事务的不同之处。 MongoDB是如何实现事务的ACID? 1)MongoDB对原子性(Atomicity)的支持 原子性在Mongodb中到底是一个什么概念呢?为什么说支持但又说Mongodb的原子性是单行/文档级原子性,这里提供了一个MongoDB更新语句样例,如下图: MongoDB是如何实现事务的ACID? 更新“username”等于“tj.tang”的文档,更新salary、jobs、hours字段。这里对于这三个字段Mongodb在执行时要么都更新要么都不更新,这个概念在MySQL中可能你没有考虑过,但在MongoDB中由于文档可以嵌套子文档可以很复杂,所以Mongodb的原子性叫单行/文档级原子性。 对于关系型数据库的多行、多文档、多语句原子性目前Mongodb是不支持的,如下情况: MongoDB是如何实现事务的ACID? MongoDB更新条件为工资小于50万的人都把工资调整为50万,这就会牵扯到多文档更新原子性。如果当更新到Frank这个文档时,出现宕机,服务器重启之后是无法像关系型数据库那样做到数据回滚的,也就是说处理这种多文档关系型数据库事务的支持,但MongoDB不支持。那么怎么解决Mongodb这个问题呢?可以通过建模,MongoDB不是范式而是反范式的设计,通过大表和小表可以把相关的数据放到同一个文档中去。然后通过一条语句来执行操作。 2)MongoDB对一致性(consistency)的支持 对于数据一致性来说,传统数据库(单机)跟分布式数据库(MongoDB)对于数据一致性是不太一样的,怎么理解呢?如下图: MongoDB是如何实现事务的ACID? 对于传统型数据库来说,数据一致性主要是在单机上,单机的问题主要是数据进来时的规则检验,数据不能被破坏掉。而在分布式数据库上,因为他们都是多节点分布式的,我们讲的一致性往往就是讲的各个节点之间的数据是否一致。而MongoDB在这点上做的还是不错的,MongoDB支持强一致性或最终一致性(弱一致性),MongoDB的数据一致性也叫可调一致性,什么意思呢?如下图: MongoDB是如何实现事务的ACID? MongoDB的可调一致性,也就是可以自由选择强一致性或最终一致性,如果你的应用场景是前台的方式可以选择强一致性,如果你的应用场景是后台的方式(如报表)可以选择弱一致性。 一致性 上面我们讲到了通过将数据冗余存储到不同的节点来保证数据安全和减轻负载,下面我们来看看这样做引发的一个问题:保证数据在多个节点间的一致性是非常困难的。在实际应用中我们会遇到很多困难,同步节点可能会故障,甚至会无法恢复,网络可能会有延迟或者丢包,网络原因导致集群中的机器被分隔成两个不能互通的子域等等。在NoSQL中,通常有两个层次的一致性:第一种是强一致性,既集群中的所有机器状态同步保持一致。第二种是最终一致性,既可以允许短暂的数据不一致,但数据最终会保持一致。我们先来讲一下,在分布式集群中,为什么最终一致性通常是更合理的选择,然后再来讨论两种一致性的具体实现结节。 关于CAP理论 为什么我们会考虑削弱数据的一致性呢?其实这背后有一个关于分布式系统的理论依据。这个理论最早被Eric Brewer提出,称为CAP理论,尔后Gilbert和Lynch对CAP进行了理论证明。这一理论首先把分布式系统中的三个特性进行了如下归纳: 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。 可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。 分区容忍性(P):集群中的某些节点在无法联系后,集群整体是否还能继续进行服务。 而CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。 要保证数据强一致性,最简单的方法是令写操作在所有数据节点上都执行成功才能返回成功,也就是同步概念。而这时如果某个结点出现故障,那么写操作就成功不了了,需要一直等到这个节点恢复。也就是说,如果要保证强一致性,那么就无法提供7×24的高可用性。 而要保证可用性的话,就意味着节点在响应请求时,不用完全考虑整个集群中的数据是否一致。只需要以自己当前的状态进行请求响应。由于并不保证写操作在所有节点都写成功,这可能会导致各个节点的数据状态不一致。 CAP理论导致了最终一致性和强一致性两种选择。当然,事实上还有其它的选择,比如在Yahoo的PNUTS中,采用的就是松散的一致性和弱可用性结合的方法。但是我们讨论的NoSQL系统没有类似的实现,所以我们在后续不会对其进行讨论。 强一致性 强一致性的保证,要求所有数据节点对同一个key值在同一时刻有同样的value值。虽然实际上可能某些节点存储的值是不一样的,但是作为一个整体,当客户端发起对某个key的数据请求时,整个集群对这个key对应的数据会达成一致。下面就举例说明这种一致性是如何实现的。 假设在我们的集群中,一个数据会被备份到N个结点。这N个节点中的某一个可能会扮演协调器的作用。它会保证每一个数据写操作会在成功同步到W个节点后才向客户端返回成功。而当客户端读取数据时,需要至少R个节点返回同样的数据才能返回读操作成功。而NWR之间必须要满足下面关系:R+W>N 下面举个实在的例子。比如我们设定N=3(数据会备份到A、B、C三个结点)。比如值 employee30:salary 当前的值是20000,我们想将其修改为30000。我们设定W=2,下面我们会对A、B、C三个节点发起写操作(employee30:salary, 30000),当A、B两个节点返回写成功后,协调器就会返回给客户端说写成功了。至于节点C,我们可以假设它从来没有收到这个写请求,他保存的依然是20000那个值。之后,当一个协调器执行一个对employee30:salary的读操作时,他还是会发三个请求给A、B、C三个节点: 如果设定R=1,那么当C节点先返回了20000这个值时,那我们客户端实际得到了一个错误的值。 如果设定R=2,则当协调器收到20000和30000两个值时,它会发现数据不太正确,并且会在收到第三个节点的30000的值后判断20000这个值是错误的。 所以如果要保证强一致性,在上面的应用场景中,我们需要设定R=2,W=2 如果写操作不能收到W个节点的成功返回,或者写操作不能得到R个一致的结果。那么协调器可能会在某个设定的过期时间之后向客户端返回操作失败,或者是等到系统慢慢调整到一致。这可能就导致系统暂时处于不可用状态。 对于R和W的不同设定,会导致系统在进行不同操作时需要不同数量的机器节点可用。比如你设定在所有备份节点上都写入才算写成功,既W=N,那么只要有一个备份节点故障,写操作就失败了。一般设定是R+W = N+1,这是保证强一致性的最小设定了。一些强一致性的系统设定W=N,R=1,这样就根本不用考虑各个节点数据可能不一致的情况了。 HBase是借助其底层的HDFS来实现其数据冗余备份的。HDFS采用的就是强一致性保证。在数据没有完全同步到N个节点前,写操作是不会返回成功的。也就是说它的W=N,而读操作只需要读到一个值即可,也就是说它R=1。为了不至于让写操作太慢,对多个节点的写操作是并发异步进行的。在直到所有的节点都收到了新的数据后,会自动执行一个swap操作将新数据写入。这个操作是原子性和一致性的。保证了数据在所有节点有一致的值。 最终一致性 像Voldemort,Cassandra和Riak这些类Dynamo的系统,通常都允许用户按需要设置N,R,W三个值,即使是设置成W+R<= N也是可以的。也就是说他允许用户在强一致性和最终一致性之间自由选择。而在用户选择了最终一致性,或者是W 3)MongoDB对隔离性(isolation)的支持 在关系型数据库中,SQL2定义了四种隔离级别,分别是READ UNCOMMITTED、READ COMMITTED、REPEATABLE READ和SERIALIZABLE。但是很少有数据库厂商遵循这些标准,比如Oracle数据库就不支持READ UNCOMMITTED和REPEATABLE READ隔离级别。而MySQL支持这全部4种隔离级别。每一种级别都规定了一个事务中所做的修改,哪些在事务内核事务外是可见的,哪些是不可见的。为了尽可能减少事务间的影响,事务隔离级别越高安全性越好但是并发就越差;事务隔离级别越低,事务请求的锁越少,或者保持锁的时间就越短,这也就是为什么绝大多数数据库系统默认的事务隔离级别是RC。 下图展示了几家不同的数据库厂商的不同事物隔离级别。 MongoDB是如何实现事务的ACID? MongoDB在3.2之前使用的是“读未提交”,这种情况下会出现“脏读”。但在MongoDB 3.2开始已经调整为“读已提交”。 下面说说每种隔离级别带来的问题: READ-UNCOMMITTED(读尚未提交的数据) 在这个级别,一个事务的修改,即使没有提交,对其他事务也都是可见的。事务可以读取未提交的数据,这也被称为“脏读(dirty read)”。这个级别会导致很多问题,从性能上来说,READ UNCOMMITTED不会比其他的级别好太多,但却缺乏其他级别的很多好处,除非真的有非常必要的理由,在实际应用中一般很少使用。 READ-COMMITTED(读已提交的数据) 在这个级别,能满足前面提到的隔离性的简单定义:一个事务开始时,只能“看见”已经提交的事务所做的修改。换句话说,一个事务从开始直到提交之前,所做的任何修改对其他事务都是不可见的。这个级别有时候也叫“不可重复读(non-repeatable read)”,因为两次执行同样的查询,可能会得到不一样的结果。 REPEATABLE-READ(可重复读) 在这个级别,保证了在同一个事务中多次读取统一记录的结果是一致的。MySQL默认使用这个级别。InnoDB和XtraDB存储引擎通过多版本并发控制MVCC(multiversion concurrency control)解决了“幻读”和“不可重复读”的问题。通过前面的学习我们知道RR级别总是读取事务开始那一刻的快照信息,也就是说这些数据数据库当前状态,这在一些对于数据的时效特别敏感的业务中,就很可能会出问题。 SERIALIZABLE(串行化) 在这个级别,它通过强制事务串行执行,避免了前面说的一系列问题。简单来说,SERIALIZABLE会在读取的每一行数据上都加锁,所以可能导致大量的超时和锁争用的问题。实际应用中也很少在本地事务中使用SERIALIABLE隔离级别,主要应用在InnoDB存储引擎的分布式事务中。 4)MongoDB对持久性(durability)的支持 对于数据持久性来说,在传统数据库中(单机)的表现为服务器任何时候发生宕机都不需要担心数据丢失的问题,因为有方式可以把数据永久保存起来了。一般都是通过日志来保证数据的持久性。通过下图来看一下传统数据库跟MongoDB对于数据持久性各自所使用的方式。 MongoDB是如何实现事务的ACID? 从上图可以看出,MongoDB同样是使用数据进来先写日志(日志刷盘的速度是非常快)然后在写入到数据库中的这种方式来保证数据的持久性,如果出现服务器宕机,当启动服务器时会从日志中读取数据。不同的是传统数据库这种方式叫做“WAL” Write-Ahead Logging(预写日志系统),而MongoDB叫做“journal”。此外MongoDB在数据持久性上这点可能做的更好,MongoDB的复制默认节点就是三节点以上的复制集群,当数据到达主节点之后会马上同步到从节点上去。

景凌凯 2019-12-02 02:05:12 0 浏览量 回答数 0
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 企业建站模板