带你读《Elastic Stack 实战手册》之65:——3.5.19.1.Elasticsearch语言开发(Python)(上)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 带你读《Elastic Stack 实战手册》之65:——3.5.19.1.Elasticsearch语言开发(Python)(上)

3.5.19.Elasticsearch语言开发(Python/Nodejs/Java)

3.5.19.1.Elasticsearch语言开发(Python)

创作人:张刘毅

审稿人:周海清

 

简介

 

本节介绍如何使用 Python 操作 Elasticsearch(简称 ES ),将从以下几个方面进行阐述:

 

l 客户端选择

l 配置及初始化

l 常见 API 使用

l 优化建议

 

、客户端选择

 

Elasticsearch 官方提供了 low-level Python 客户端 elasticsearch-py,目的是为了给用

Python 代码操作 ES 提供统一、可扩展的编程接口。low-level Python 客户端的功能包括:

 

l 将 Python 的基本数据类型转换为 JSON

l 集群节点自动发现

l 负载平衡及线程安全

l 使用 helpers 的 bulk API 进行批量导入和 reindex 的功能

同时,官方也提供了建立在 elasticsearch-py 之上的高级库 elasticsearch-dsl,使用它可以更方便进行 DSL 查询。另外它还提供了一种类似 ORM 的方式将文档作为 Python 对象处理。

 

、 配置和初始化

 

1. 环境准备

 

Python 的客户端可以通过 pip 进行安装,我们选择国内的清华源加快下载速度:

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple elasticsearch

如果有异步编程需求的可以下载

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple elasticsearch[async]

2. 命令行测试

 

Python 由于其丰富的库函数和解释型语言特性使它成为多数平台上脚本测试的利器,我们在编写 Python 项目工程前可以在命令行里测试下和 ES 的交互是否正常。

>>> from datetime import datetime
>>> from elasticsearch import Elasticsearch
>>> es = Elasticsearch("localhost:9200")
>>> es.index(index="my-index-000001", doc_type="test-type", id=42, body={"any": "data", "timestamp": datetime.now()})
{'_index': 'my-index-000001', '_type': 'test-type', '_id': '42', '_version': 1, 'result': 'created', '_shards': {'total': 2, 'successful': 1, 'failed': 0}, '_seq_no': 0, '_primary_term': 1}

3. 初始化

客户端一般在全局作用域初始化,这样不仅提高性能也方便启用后台嗅探节点等功能。模版如下:

#导入es的python客户端
from elasticsearch import Elasticsearch
# 设置集群地址
client = Elasticsearch(
    ... # 客户端的配置信息
)
def main(request):
    ... # 使用客户端

l 指定连接

client = Elasticsearch(
    ['esnode1:port', 'esnode2:port'] 
    # 认证信息
    # http_auth=('elastic', 'changeme')
)

l 使用嗅探功能进行动态连接


client = Elasticsearch(
    ['esnode1:port', 'esnode2:port'],
    # 在做任何操作之前,先进行嗅探
    sniff_on_start=True,
    # 节点没有响应时,进行刷新,重新连接
    sniff_on_connection_fail=True,
    # 每 60 秒刷新一次
    sniffer_timeout=60
)
# 可以获取当前连接的节点来测试
 client.cluster.client.info()

4. 使用连接池

 

数据库是一项宝贵的资源,使用连接池技术可以减少连接开销从而提高程序性能。连接池是保存数据库连接实例的容器,ES 通过 ConnectionSelector 管理连接选择和无效连接。每次请求通过 get_connection 方法获取连接。如果连接失败将其标记 mark_dead 并设置超时,超时结束后将连接重新放回到连接池。

 

下面的代码示例中,使用 ES 类简单封装了 Elasticsearch 连接池的并发连接并示范了一个简单查询:查询含有 "FANCD2" 的 gene symbol。


# -*- coding=utf8 -*- 
import os
import json
from datetime import datetime
from elasticsearch import Elasticsearch, RequestsHttpConnection
from elasticsearch import Transport
from elasticsearch.exceptions import NotFoundError
class ES(object):
    # 索引的相关设置
    _index = "hgvs4variation"
    _type = "_doc"
    # ES类初始化设置,使用基于 requests 实例化 ES 连接池
    def __init__(self, hosts):
        self.conn_pool = Transport(hosts=hosts, connection_class=RequestsHttpConnection).connection_pool
    # 获取ES连接
    def get_conn(self):
        """
        从连接池获取一个连接
        """
        conn = self.conn_pool.get_connection()
        return conn
    #  向es集群发送一个请求
    def request(self, method, url, headers=None, params=None, body=None):
        conn = self.get_conn()
        try:
            status, headers, body = conn.perform_request(method, url, headers=headers, params=params, body=body)
        except NotFoundError as e:
            return None
              if method == "HEAD":
            return status
        return json.loads(body)
    def post(self, url, body=None, method="POST"):
        """使用post请求访问服务器"""
        data = self.request(method, url, body=body)
        return data
if __name__ == '__main__':
    ELASTICSEARCH = [{'host':'192.168.2.2','port':27000}]
    es=ES(ELASTICSEARCH)
    #获得连接
    res_conn = es.get_conn()
    print(res)
    #查询示例
    res_query = es.request(method='POST',body='{"query": { "match": { "#Symbol": "FANCD2"}}}',url='/_search')
    print(res_query)


 《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.19.Elasticsearch语言开发(Python/Nodejs/Java)—— 3.5.19.1.Elasticsearch语言开发(Python)(下) https://developer.aliyun.com/article/1226662

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
18天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
【10月更文挑战第12天】本文探讨了Python开发中性能优化和代码审查的重要性,介绍了选择合适数据结构、使用生成器、避免全局变量等性能优化技巧,以及遵守编码规范、使用静态代码分析工具、编写单元测试等代码审查方法,旨在帮助开发者提升开发效率和代码质量。
31 5
|
24天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
【10月更文挑战第6天】本文探讨了性能优化和代码审查在Python开发中的重要性,提供了选择合适数据结构、使用生成器、避免全局变量等性能优化技巧,以及遵守编码规范、使用静态代码分析工具、编写单元测试等代码审查方法,旨在帮助开发者提升开发效率和代码质量。
50 5
|
3天前
|
设计模式 前端开发 数据库
Python Web开发:Django框架下的全栈开发实战
【10月更文挑战第27天】本文介绍了Django框架在Python Web开发中的应用,涵盖了Django与Flask等框架的比较、项目结构、模型、视图、模板和URL配置等内容,并展示了实际代码示例,帮助读者快速掌握Django全栈开发的核心技术。
72 44
|
4天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
30 7
|
6天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
探讨了Python开发中性能优化和代码审查的重要性,介绍了选择合适数据结构、使用生成器、避免全局变量等性能优化技巧,以及遵守编码规范、使用静态代码分析工具、编写单元测试等代码审查方法,旨在帮助开发者提升开发效率和代码质量。
25 8
|
2天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
性能优化与代码审查:提升Python开发效率
8 1
|
4天前
|
安全 数据库 开发者
Python Web开发:Django框架下的全栈开发实战
【10月更文挑战第26天】本文详细介绍了如何在Django框架下进行全栈开发,包括环境安装与配置、创建项目和应用、定义模型类、运行数据库迁移、创建视图和URL映射、编写模板以及启动开发服务器等步骤,并通过示例代码展示了具体实现过程。
21 2
|
5天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
10 3
|
7天前
|
算法 测试技术 开发者
性能优化与代码审查:提升Python开发效率
性能优化与代码审查:提升Python开发效率
13 1
|
15天前
|
人工智能 IDE 测试技术
使用通义灵码提升Python开发效率:从熟悉代码到实现需求的全流程体验
作为一名Python开发者,我最近开始使用通义灵码作为开发辅助工具。它显著提高了我的工作效率,特别是在理解和修改复杂代码逻辑方面。通过AI编码助手,我能够在短时间内快速上手新项目,实现新需求,并进行代码优化,整体效率提升了60%以上。通义灵码不仅加快了代码生成速度,还增强了代码的健壮性和稳定性。

相关产品

  • 检索分析服务 Elasticsearch版