【一文看懂】Havenask创建表

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 本次分享内容为Havenask的创建表,共3个部分组成(直写表与全量表、 创建直写表、创建全量表),希望可以帮助大家更好了解和使用Havenask。

一、直写表与全量表

1、直写表

•数据直接在searcher上处理并构建成索引,不支持全量数据源,数据必须通过api推送生效

•表创建简单

•时效性高

•不支持全量,不支持修改表结构


2、全量表

•独立的索引构建流程,支持全量数据源,实时数据推送到swift

•表创建流程较长,必须经过全量索引构建

•时效性较直写表低,但也可以在1秒内生效

•支持全量,海量数据可以快速导入

•支持修改表结构

•索引构建不影响在线,更加稳定

•离线资源独立控制,可以支持更高的数据更新


3、直写表和全量表主要的区别

  • 直写表不是一个包含独立的索引构建的流程,其数据直接在searcher处理并构建成索引,不支持全量数据源,必须通过API推送来生效。它的表创建较为简单,由于数据都在searcher节点上处理,因此其时效性更。但由于其不支持全量数据,无法修改索引表的结构以及索引的分片。


  • 全量表有独立的索引构建流程,支持配置全量的数据源,其实时数据需要推送到swift上生效。它的表创建的流程较复杂,相较于直写表通过全量索引构建,其时效性较直写表较低,但也足以保证在秒以内成效。


  • 全量表支持全量数据导入,其数据可以快速导入到系统中。通过全量的方式,它可以修改表的结构以及表的分片数。由于其有独立的索引构建流程,因此其表的构建不影响在线的数据。因此,全量表可以使在线系统更加稳定,同时离线资源可以独立控制,通过扩缩资源可以支持更高的数据更新。

 

二、创建直写表

所有命令都在容器内部执行,因此,首先需要创建可以执行命令的Hape的容器。在容器创建成功后,通过SSH命令进入容器。在创建表前,要先启动havenask系统,启动成功后,即可通过create table命令直接创建表。


create table命令中,需要指定表的名称、表的分片数以及表需要的schema。大家可以通过示例的schema直接创建一张测试表。在执行完成后,可以通过gs命令查看表的状态,当表处于ready状态后,即可直接在表内写入数据。写入完成后,可以通过查询语句直接查询该段数据。


  • 启动havenask:

/ha3_install/hapestarthavenask


  • 创建直写表:

/ha3_install/hape create -t in0 -p 1 -s /ha3_install/example/cases/normal/in0_schema.json


  • 获取集群状态:

/ha3_install/hape gs havenask


  • 操作数据

/ha3_install/sql_query.py --query "insert into in0

(createtime,hits, id,title,subject)values(1,2,4,'测试,‘测试’)

/ha3_install/sql_query.py --query " select * from in0"


三、创建全量表

  • 启动havenask:

/ha3_install/hape start havenask


  • 创建直写表:

/ha3_install/hape create -t in1 -p 1 -s/ha3_install/example/cases/normal/in0_schema.json -f

/ha3_install/example/cases/normal/test.data


  • 获取集群状态:

/ha3_install/hape gs bs

/ha3_install/hape gs havenask


  • 操作数据:

/ha3_install/sql_query.py --query " select* from in1"


四、结尾

具体Havenask创建表的演示视频可以通过链接查看,欢迎各位开发者使用。

视频链接:https://developer.aliyun.com/live/253657?spm=a2c6h.14164896.0.0.786b47c54kOhxO&scm=20140722.S_community@@%E8%A7%86%E9%A2%91@@253657._.ID_253657-RL_Havenask%E5%88%9B%E5%BB%BA%E8%A1%A8-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_0


关注我们:

Havenask 开源官网:https://havenask.net/

Havenask-Github 开源项目地址:https://github.com/alibaba/havenask

阿里云 OpenSearch 官网:https://www.aliyun.com/product/opensearch

钉钉扫码加入 Havenask 开源官方技术交流群:

1715594790746.png

目录
相关文章
|
7月前
|
存储 SQL 数据库
在TiDB中创建表
【2月更文挑战第29天】在TiDB中创建表涉及定义字段名、数据类型和约束 。注意规划表结构、选择合适的数据类型和约束,以及谨慎使用索引,以平衡查询速度和写入性能。在实际操作前确保备份数据。
|
5月前
|
运维 关系型数据库 分布式数据库
PolarDB产品使用问题之分区表如何实现全文索引
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
5月前
|
分布式计算 DataWorks Oracle
MaxCompute产品使用合集之如何创建表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
110 7
|
5月前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之怎么使用SQL查询来获取ODPS中所有的表及字段信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
135 7
|
4月前
|
SQL 分布式计算 数据安全/隐私保护
实时数仓 Hologres产品使用合集之重建表的索引后,如何将数据导入新表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
5月前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之如何创建Transactional Table 1.0表并设置主键
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之如何批量导出表的DDL语句
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
存储 关系型数据库 分布式数据库
PolarDB产品使用问题之如何用InnoDB引擎创建Federated表
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
58 1
|
7月前
|
消息中间件 存储 监控
|
7月前
|
存储 SQL 关系型数据库
ClickHouse(08)ClickHouse表引擎概况
ClickHouse支持四种主要表引擎系列:MergeTree家族,适用于大数据插入并按主键排序;日志引擎系列,适合小数据量写入,如StripeLog、Log和TinyLog;集成表引擎,如ODBC、JDBC,用于与外部系统集成;特殊引擎,包括分布式、内存、随机数生成等,满足特定需求。MergeTree系列提供数据副本和分区,日志系列不支持索引和突变操作。详细解析见相关文章链接。
99 0