121.【ElasticSearch伪京东搜索】(二)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 121.【ElasticSearch伪京东搜索】
(3).工具类编写 - 解决京东防护

package com.jsxs.utils;
import com.jsxs.pojo.Content;
import org.elasticsearch.common.recycler.Recycler;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.stereotype.Component;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
/**
 * @Author Jsxs
 * @Date 2023/6/30 12:40
 * @PackageName:com.jsxs.utils
 * @ClassName: HtmlParseUtil
 * @Description: TODO
 * @Version 1.0
 */
@Component
public class HtmlParseUtil {
    public List<Content> parseJD(String keywords) throws Exception {
        // 1.获得请求
        String url = "https://search.jd.com/Search?keyword="+keywords;
        System.out.println(url);
        // 设置cookie
        Map<String, String> cookies = new HashMap<String, String>();
        cookies.put("thor", "35C0A430DD191386DC5C6605461B820975545DB4E7B5F6CD3717B58D8F3B4CF548ED5F724A0CFF52528BCC4C1382E38FDD39F7714D356D73C80DBC98E351588E74A77B0CB8B5348847042F8AB08B9D4BC87539F45579E34614217BFD76FCEEBEC829173EEA7B4D51FAA162DD62B98376375C46B24B2FAAC96C7C733BC0F3B6165DB89F97C62170FD0838A7F72212B95CD38FC61DEF2B38C36A1F8C252C2809C8");
        //  2.解析网页 返回的document对象就是浏览器的Document对象
        Document document = Jsoup.connect(url).cookies(cookies).get();
        // 3.利用js的Document对象进行操作  ->获取商品整个html页面
        Element element = document.getElementById("J_goodsList");
        System.out.println("***************"+element);
        // 4.获取所有的li元素 是一个集合。
        Elements elements = element.getElementsByTag("li");
        // 创建一个链表,用于存放我们爬取到的信息
        ArrayList<Content> contents = new ArrayList<>();
        // 5.获取元素中的各个内容
        for (Element li : elements) {
            // 获取图片  这里面加上attr目的是懒加载。
            String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img"); // 爬取懒加载的图片
            // 获取价格
            String price = li.getElementsByClass("p-price").eq(0).text();
            // 获取上坪的价格
            String title = li.getElementsByClass("p-name").eq(0).text();
            // 存放我们爬取到的信息
            contents.add(new Content(title,img,price));
        }
        return contents;
    }
    public static void main(String[] args) throws Exception {
        for (Content java : new HtmlParseUtil().parseJD("java")) {
            System.out.println(java);
        }
    }
}

4.导入配置类

package com.jsxs.config;
import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
/**
 * @Author Jsxs
 * @Date 2023/6/30 14:13
 * @PackageName:com.jsxs.config
 * @ClassName: ElasticSearchClientConfig
 * @Description: TODO
 * @Version 1.0
 */
@Configuration
public class ElasticSearchClientConfig {
    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("localhost", 9200, "http")));
        return client;
    }
}

(三)、将爬取到的数据存放到ES

1.创建Service层

ContentService.java

package com.jsxs.service;
import com.alibaba.fastjson2.JSON;
import com.jsxs.pojo.Content;
import com.jsxs.utils.HtmlParseUtil;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.client.indices.CreateIndexRequest;
import org.elasticsearch.common.xcontent.XContentType;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
import java.util.List;
/**
 * @Author Jsxs
 * @Date 2023/6/30 14:08
 * @PackageName:com.jsxs.service
 * @ClassName: ContentService
 * @Description: TODO
 * @Version 1.0
 */
@Service
public class ContentService {
    @Resource
    RestHighLevelClient client;
    public static void main(String[] args) throws Exception {
        System.out.println(new ContentService().parseContent("java"));
    }
    // 1.解析数据放入我们的es索引中
    public Boolean parseContent(String keywords) throws Exception {
        List<Content> list = new HtmlParseUtil().parseJD(keywords);
        // 2. 把查询到的数据批量放入es中去
        BulkRequest bulkRequest = new BulkRequest();
        // 3.设置超时的时间
        bulkRequest.timeout("2s");
        // 4.创建一个新的索引名字叫做 jd_goods ⭐⭐运行第二次的时候,要把创建库的语句给删除掉
        CreateIndexRequest request = new CreateIndexRequest("jd_goods");
        client.indices().create(request, RequestOptions.DEFAULT);
        // 5.批量插入到数据中 并设置id。
        for (int i = 0; i < list.size(); i++) {
            bulkRequest.add(new IndexRequest("jd_goods")
                            .id(""+i+1)
                            .source(JSON.toJSONString(list.get(i)), XContentType.JSON)
            );
        }
        BulkResponse bulk = client.bulk(bulkRequest, RequestOptions.DEFAULT);
        // 如果没有失败就返回成功
        return !bulk.hasFailures();
    }
}

2.进行测试 (ES是否存放成功)

package com.jsxs;
import com.jsxs.service.ContentService;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import javax.annotation.Resource;
@SpringBootTest
class JsxsEsJdApplicationTests {
    @Resource
    ContentService contentService;
    @Test
    void contextLoads() throws Exception {
        System.out.println(contentService.parseContent("java"));
    }
}

(四)、从ES中分页读取数据 (关键字不能为中文)

切记我们只能读取到我们ES中存放的数据,假如进行查询没有存放在ES的数据,我们就会得到空的数据。

1.从ES中读取数据

(1).ContentService 层
package com.jsxs.service;
import com.alibaba.fastjson2.JSON;
import com.jsxs.pojo.Content;
import com.jsxs.utils.HtmlParseUtil;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.client.indices.CreateIndexRequest;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.index.query.TermQueryBuilder;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.SearchHits;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.concurrent.TimeUnit;
/**
 * @Author Jsxs
 * @Date 2023/6/30 14:08
 * @PackageName:com.jsxs.service
 * @ClassName: ContentService
 * @Description: TODO
 * @Version 1.0
 */
@Service
public class ContentService {
    @Resource
    RestHighLevelClient client;
    // 1.解析数据放入我们的es索引中
    public Boolean parseContent(String keywords) throws Exception {
        List<Content> list = new HtmlParseUtil().parseJD(keywords);
        // 2. 把查询到的数据批量放入es中去
        BulkRequest bulkRequest = new BulkRequest();
        // 3.设置超时的时间
        bulkRequest.timeout("2s");
        // 4.创建一个新的索引名字叫做 jd_goods
//        CreateIndexRequest request = new CreateIndexRequest("jd_goods");
//        client.indices().create(request, RequestOptions.DEFAULT);
        // 5.批量插入到数据中 并设置id。
        for (int i = 0; i < list.size(); i++) {
            bulkRequest.add(new IndexRequest("jd_goods")
                            .id(i+1+"")
                            .source(JSON.toJSONString(list.get(i)), XContentType.JSON)
            );
        }
        BulkResponse bulk = client.bulk(bulkRequest, RequestOptions.DEFAULT);
        // 如果没有失败就返回成功
        return !bulk.hasFailures();
    }
    // 2. 从ES中进行搜索内容
    public  List<Map<String,Object>> searchesPage(String keywords,int pageNo,int pageSize) throws IOException {
        if (pageNo<=1){
            pageNo=1;
        }
        // 1.条件搜索  ⭐
        SearchRequest request = new SearchRequest("jd_goods");
         // 2.构建搜索条件  ⭐⭐
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        // 3.分页  ⭐⭐⭐
        searchSourceBuilder.from(pageNo);
        searchSourceBuilder.size(pageSize);
        // 4. 精确匹配: 第一个参数是参数列名,第二个参数是 搜索的内容 ⭐⭐⭐⭐
        TermQueryBuilder query = QueryBuilders.termQuery("title", keywords);
        searchSourceBuilder.query(query);
        searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));
        // 5.执行搜索 ⭐⭐⭐⭐⭐
        request.source(searchSourceBuilder);
        SearchResponse searchResponse = client.search(request, RequestOptions.DEFAULT); //这里会得到一个结果
        // 6.解析结果  ⭐⭐⭐⭐⭐⭐
        SearchHits hits = searchResponse.getHits(); // 这里会获取到一个对象,对象里面包含着一个hits数组
        ArrayList<Map<String,Object>> list = new ArrayList<>();
        for (SearchHit hit : searchResponse.getHits().getHits()) {
            list.add(hit.getSourceAsMap());
        }
        System.out.println(list);
        return list;
    }
}
(2).ContentController 控制层
package com.jsxs.controller;
import com.jsxs.service.ContentService;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RestController;
import javax.annotation.Resource;
import java.io.IOException;
import java.util.List;
import java.util.Map;
/**
 * @Author Jsxs
 * @Date 2023/6/30 14:08
 * @PackageName:com.jsxs.controller
 * @ClassName: ContentController
 * @Description: TODO
 * @Version 1.0
 */
@RestController
public class ContentController {
    @Resource
    private ContentService contentService;
    // 普通查询数据
    @GetMapping("/parse/{keywords}")
    public Boolean parse(@PathVariable("keywords") String keywords) throws Exception {
        return contentService.parseContent(keywords);
    }
    // 分页查询数据加高亮
    @GetMapping("/search/{keyword}/{pageNo}/{pageSize}")
    public List<Map<String,Object>> search(@PathVariable("keyword") String keyword,@PathVariable("pageNo") int pageNo,@PathVariable("pageSize") int pageSize) throws IOException {
        return contentService.searchesPage(keyword,pageNo,pageSize);
    }
    //
}

2.错误演示 (读取es中没有的数据)

1. 我们在ES中存放的关键字是 java 而我们读取的关键字是 夏装

2. 读取不到夏装的数据


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
24天前
|
存储 自然语言处理 BI
|
15天前
|
人工智能
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
云端问道12期-构建基于Elasticsearch的企业级AI搜索应用陪跑班获奖名单公布啦!
162 2
|
19天前
|
Web App开发 JavaScript Java
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
这篇文章是关于如何使用Spring Boot整合Elasticsearch,并通过REST客户端操作Elasticsearch,实现一个简单的搜索前后端,以及如何爬取京东数据到Elasticsearch的案例教程。
131 0
elasticsearch学习五:springboot整合 rest 操作elasticsearch的 实际案例操作,编写搜索的前后端,爬取京东数据到elasticsearch中。
|
3月前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
19086 21
|
2月前
|
存储 缓存 自然语言处理
深度解析ElasticSearch:构建高效搜索与分析的基石
【9月更文挑战第8天】在数据爆炸的时代,如何快速、准确地从海量数据中检索出有价值的信息成为了企业面临的重要挑战。ElasticSearch,作为一款基于Lucene的开源分布式搜索和分析引擎,凭借其强大的实时搜索、分析和扩展能力,成为了众多企业的首选。本文将深入解析ElasticSearch的核心原理、架构设计及优化实践,帮助读者全面理解这一强大的工具。
147 7
|
2月前
|
JSON 监控 Java
Elasticsearch 入门:搭建高性能搜索集群
【9月更文第2天】Elasticsearch 是一个分布式的、RESTful 风格的搜索和分析引擎,基于 Apache Lucene 构建。它能够处理大量的数据,提供快速的搜索响应。本教程将指导你如何从零开始搭建一个基本的 Elasticsearch 集群,并演示如何进行简单的索引和查询操作。
157 3
|
3月前
|
存储 人工智能 安全
保障隐私的Elasticsearch AI搜索解决方案
【8月更文第28天】随着大数据和人工智能技术的发展,搜索引擎在日常生活中扮演着越来越重要的角色。然而,用户隐私保护成为了一个不容忽视的问题。本文将探讨如何在确保用户数据隐私的同时,利用Elasticsearch实现智能搜索功能。我们将介绍一种综合方案,该方案结合了加密技术、差分隐私、匿名化处理以及安全多方计算等方法,以保障用户数据的安全性
129 0
|
19天前
|
存储 JSON Java
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
这篇文章是关于Elasticsearch的学习指南,包括了解Elasticsearch、版本对应、安装运行Elasticsearch和Kibana、安装head插件和elasticsearch-ik分词器的步骤。
76 0
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
|
2月前
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
|
3月前
|
数据可视化 Docker 容器
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】
这篇文章提供了通过Docker安装Elasticsearch和Kibana的详细过程和图解,包括下载镜像、创建和启动容器、处理可能遇到的启动失败情况(如权限不足和配置文件错误)、测试Elasticsearch和Kibana的连接,以及解决空间不足的问题。文章还特别指出了配置文件中空格的重要性以及环境变量中字母大小写的问题。
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】

热门文章

最新文章