【一文看懂】Havenask创建表

简介: 本次分享内容为Havenask的创建表,共3个部分组成(直写表与全量表、 创建直写表、创建全量表),希望可以帮助大家更好了解和使用Havenask。

一、直写表与全量表

1、直写表

•数据直接在searcher上处理并构建成索引,不支持全量数据源,数据必须通过api推送生效

•表创建简单

•时效性高

•不支持全量,不支持修改表结构


2、全量表

•独立的索引构建流程,支持全量数据源,实时数据推送到swift

•表创建流程较长,必须经过全量索引构建

•时效性较直写表低,但也可以在1秒内生效

•支持全量,海量数据可以快速导入

•支持修改表结构

•索引构建不影响在线,更加稳定

•离线资源独立控制,可以支持更高的数据更新


3、直写表和全量表主要的区别

  • 直写表不是一个包含独立的索引构建的流程,其数据直接在searcher处理并构建成索引,不支持全量数据源,必须通过API推送来生效。它的表创建较为简单,由于数据都在searcher节点上处理,因此其时效性更。但由于其不支持全量数据,无法修改索引表的结构以及索引的分片。


  • 全量表有独立的索引构建流程,支持配置全量的数据源,其实时数据需要推送到swift上生效。它的表创建的流程较复杂,相较于直写表通过全量索引构建,其时效性较直写表较低,但也足以保证在秒以内成效。


  • 全量表支持全量数据导入,其数据可以快速导入到系统中。通过全量的方式,它可以修改表的结构以及表的分片数。由于其有独立的索引构建流程,因此其表的构建不影响在线的数据。因此,全量表可以使在线系统更加稳定,同时离线资源可以独立控制,通过扩缩资源可以支持更高的数据更新。

 

二、创建直写表

所有命令都在容器内部执行,因此,首先需要创建可以执行命令的Hape的容器。在容器创建成功后,通过SSH命令进入容器。在创建表前,要先启动havenask系统,启动成功后,即可通过create table命令直接创建表。


create table命令中,需要指定表的名称、表的分片数以及表需要的schema。大家可以通过示例的schema直接创建一张测试表。在执行完成后,可以通过gs命令查看表的状态,当表处于ready状态后,即可直接在表内写入数据。写入完成后,可以通过查询语句直接查询该段数据。


  • 启动havenask:

/ha3_install/hapestarthavenask


  • 创建直写表:

/ha3_install/hape create -t in0 -p 1 -s /ha3_install/example/cases/normal/in0_schema.json


  • 获取集群状态:

/ha3_install/hape gs havenask


  • 操作数据

/ha3_install/sql_query.py --query "insert into in0

(createtime,hits, id,title,subject)values(1,2,4,'测试,‘测试’)

/ha3_install/sql_query.py --query " select * from in0"


三、创建全量表

  • 启动havenask:

/ha3_install/hape start havenask


  • 创建直写表:

/ha3_install/hape create -t in1 -p 1 -s/ha3_install/example/cases/normal/in0_schema.json -f

/ha3_install/example/cases/normal/test.data


  • 获取集群状态:

/ha3_install/hape gs bs

/ha3_install/hape gs havenask


  • 操作数据:

/ha3_install/sql_query.py --query " select* from in1"


四、结尾

具体Havenask创建表的演示视频可以通过链接查看,欢迎各位开发者使用。

视频链接:https://developer.aliyun.com/live/253657?spm=a2c6h.14164896.0.0.786b47c54kOhxO&scm=20140722.S_community@@%E8%A7%86%E9%A2%91@@253657._.ID_253657-RL_Havenask%E5%88%9B%E5%BB%BA%E8%A1%A8-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_0


关注我们:

Havenask 开源官网:https://havenask.net/

Havenask-Github 开源项目地址:https://github.com/alibaba/havenask

阿里云 OpenSearch 官网:https://www.aliyun.com/product/opensearch

钉钉扫码加入 Havenask 开源官方技术交流群:

1715594790746.png

目录
相关文章
|
SQL 运维 搜索推荐
《揭秘,阿里开源自研搜索引擎Havenask的在线检索服务》
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务,它具备高可用、高时效、低成本的优势,帮助企业和开发者量身定做适合业务发展的智能搜索服务。
84893 138
|
SQL 搜索推荐 测试技术
【Havenask实践篇】完整的性能测试
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。性能测试的目的在于评估搜索引擎在各种负载和条件下的响应速度、稳定性。通过模拟不同的用户行为和查询模式,我们可以揭示潜在的瓶颈、优化索引策略、调整系统配置,并确保Havenask在用户数量激增或数据量剧增时仍能保持稳定运行。本文举例对Havenask进行召回性能测试的一个简单场景,在搭建好Havenask服务并写入数据后,使用wrk对Havenask进行压测,查看QPS和查询耗时等性能指标。
66299 6
|
存储 消息中间件 搜索推荐
【前沿技术】 阿里开源搜索引擎Havenask的消息系统
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的消息系统--Swift,它是一个设计用于处理大规模的数据流和实时消息传递的高性能、可靠的消息系统。
61165 3
|
存储 消息中间件 安全
计算与存储分离实践—swift消息系统
swift是搜索事业部自主研发分布式消息系统,它的主要存储基于分布式文件系统,资源需求基于分布式调度系统。swift能支持每秒数亿的消息传递,支持PB级消息的存储。
6769 0
|
消息中间件 Docker 索引
【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史
本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。
73109 0
【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史
|
搜索推荐 大数据 数据库
【Havenask实践篇】搭建文本检索服务
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文举例数据库检索加速的一个简单场景,使用Havenask对数据库的文本字段建立倒排索引,通过倒排检索列提高检索性能,缩短检索耗时。
114613 51
【Havenask实践篇】搭建文本检索服务
|
自然语言处理 数据处理 调度
《Havenask分布式索引构建服务--Build Service》
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service,主打稳定、快速、易管理,是在线系统提升竞争力的一大利器。
102454 3
《Havenask分布式索引构建服务--Build Service》
|
SQL 消息中间件 Swift
【一文看懂】Havenask单机模式创建
本次分享内容为Havenask单机模式,由下面3个部分组成(Hape工具介绍、创建单机版Havenask、Hape问题排查),希望可以帮助大家更好了解和使用Havenask。
129068 1
|
自然语言处理 搜索推荐 算法
【一文读懂】基于Havenask向量检索+大模型,构建可靠的智能问答服务
Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内的几乎整个阿里的搜索业务。本文针对性介绍了Havenask作为一款高性能的召回搜索引擎,应用在向量检索和LLM智能问答场景的解决方案和核心优势。通过Havenask向量检索+大模型可以构建可靠的垂直领域的智能问答方案,同时快速在业务场景中进行实践及应用。
111845 64
|
SQL 开发者 索引
【深入浅出】阿里自研开源搜索引擎Havenask变更表结构
本文介绍了Havenask的表结构变更,包括表结构简介、全量构建流程和变更表结构三个部分。表结构由schema配置,字段类型包括INT、FLOAT、STRING等,索引有倒排、正排和摘要索引。全量表变更会触发全量构建,完成后自动切换,但直写表不支持直接变更。变更过程涉及使用hape命令更新schema并触发全量build。最后还有全量构建的流程图和具体操作步骤。
62233 2