(ElasticsSearch学习)歌词检索Demo的实现:一. 爬取歌词信息,写入ES

简介: 一个ElasticSearchDemo,讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch,并搭建Web框架实现歌词的全文检索。

1.说明

2. 歌词网站分析

此处采用了比较笨的一种方式,即逐个分析每个请求的url,这样可以方便代码编写,就不用模拟器了(如需使用模拟器可参考使用cdp4j模拟点击事件等,但简单试了下不是很好用,且效率低)

a) 歌手获取分析

http://www.kuwo.cn/artist/index 查看分页按钮的click事件,从js中找到分页请求的url
image
从click事件的artist.js中找到相关url如下图所示
image
其中pn参数即为页码参数

var b = host + "/artist/indexAjax?category=" + index + "&prefix=" + $("#artistContent").attr("data-letter") + "&pn=" + pn;

http://www.kuwo.cn/artist/indexAjax?category=0&prefix=&pn=5

返回结果如下图所示,即可获取各个歌手的链接,取得每个歌手名字的链接url即为歌手详情页。
image
接下来代码中只要循环遍历即可。

b)歌词分页获取分析

歌手详情页如:http://www.kuwo.cn/artist/content?name=%E5%88%98%E7%8F%82%E7%9F%A3
image

同样查看分页按钮click事件的js相关代码,可以找到如下url,以获取分页歌词信息。
image

如:http://www.kuwo.cn//artist/contentMusicsAjax?artistId=2&pn=1&rn=100
其中artistId为歌手id,pn为分页参数
接下来循环遍历即可

c)歌词获取分析

每首歌歌词的详情页,从上面已经可以循环遍历到,详情页如下,
跟进html元素获取到相应歌词信息即可
image
注意:此处有时因为无版权,无法显示歌词,需要增加异常处理

3. 项目配置

maven配置如下:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>org.lewis</groupId>
    <artifactId>crawlerToES</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-api</artifactId>
            <version>2.10.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.10.0</version>
        </dependency>
        <dependency>
            <groupId>io.webfolder</groupId>
            <artifactId>cdp4j</artifactId>
            <version>2.2.2</version>
        </dependency>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.9.2</version>
        </dependency>
        <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>x-pack-transport</artifactId>
            <version>5.3.3</version>
        </dependency>

        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch</artifactId>
            <optional>true</optional>
            <version>5.3.3</version>
        </dependency>
        <dependency>
            <groupId>commons-lang</groupId>
            <artifactId>commons-lang</artifactId>
            <version>2.6</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
            </plugin>
            <plugin>
                <artifactId>maven-jar-plugin</artifactId>
                <configuration>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-dependency-plugin</artifactId>
                <executions>
                    <execution>
                        <id>copy-dependencies</id>
                        <phase>package</phase>
                        <goals>
                            <goal>copy-dependencies</goal>
                        </goals>
                        <configuration>
                            <outputDirectory>${project.build.directory}/lib</outputDirectory>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

4. 爬虫解析代码

a)获取歌手

public static List<String> getSingers() {
        String url = host + "/artist/indexAjax?category=0&prefix=&pn=%d";
        List<String> singer_urls = new ArrayList<String>();
        int i = 0;
        int max_len = 10000;
        String last = null;
        while (true) {
            String cur_url = String.format(url, i);
            try {
                if(i>=max_len){
                    break;
                }
                Document doc = Jsoup.connect(cur_url).get();
                String cur = doc.text();
                if (cur.equals(last)) {
                    break;
                }
                Elements a_name = doc.getElementsByClass("a_name");

                for (int i1 = 0; i1 < a_name.size(); i1++) {
                    Element a = a_name.get(i1);
                    String singer_url = a.attr("href");
                    System.out.println(singer_url);
                    singer_urls.add(singer_url);
                }
                last = cur;
                i++;

            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return singer_urls;
    }

b)获取某歌手的所有歌曲

    public static List<String> getSongs(String singer_url) {
        Document doc = null;
        List<String> song_urls = new ArrayList<String>();
        try {
            doc = Jsoup.connect(host + singer_url).get();
            String artistid = doc.getElementsByClass("artistTop").get(0).attr("data-artistid");
            String url = "/artist/contentMusicsAjax?artistId=%s&pn=%d&rn=100";
            int i = 0;
            String last = null;
            while (true) {
                String cur_url = String.format(url, artistid, i);
                doc = Jsoup.connect(host + cur_url).get();
                String cur = doc.text();
                if (cur.equals(last)) {
                    break;
                }
                Elements songs = doc.getElementsByClass("listMusic").get(0).children();
                for (int j = 0; j < songs.size(); j++) {
                    Element song = songs.get(j);
                    String name = song.getElementsByClass("name").get(0).text();
                    String href = song.getElementsByClass("name").get(0).getElementsByTag("a").get(0).attr("href");
//                    System.out.println(name+":"+href);
                    song_urls.add(href);
                }
                i++;
                last = cur;
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            return song_urls;
        }
    }

c)获取某歌曲的歌词

public static SongBean getSong(String song_url) {
        try {
            Document doc = Jsoup.connect(host+song_url).get();
            Element div_song = doc.getElementById("musiclrc");
//            System.out.println(host+song_url);
            if(div_song==null){
                logger.info(song_url + "无法获取歌曲内容,可能是无版权!");
                return null;
            }
            String song_name = div_song.getElementById("lrcName").text();
            String singer = div_song.getElementsByClass("artist").get(0).getElementsByTag("span").get(0).getElementsByTag("a").get(0).text();
            String album = div_song.getElementsByClass("album").get(0).getElementsByTag("span").get(0).getElementsByTag("a").get(0).text();
            StringBuffer lyric = new StringBuffer();
            if(div_song.getElementById("llrcId")!=null) {
                Elements lyric_ps = div_song.getElementById("llrcId").children();
                for (int i = 0; i < lyric_ps.size(); i++) {
                    lyric.append(lyric_ps.get(i).text() + "\n");
                }
            }else{
                lyric.append("暂无歌词");
            }
            SongBean song = new SongBean(song_name,host+song_url,lyric.toString(),singer,album);
//            System.out.println(String.format("%s:%s",song.getName(),song.getSinger()));
            return song;

        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

5. 写入es

a)创建ElasticSearch Client

public static TransportClient openClient(String host, String clusterName, String securityUser){
        Settings settings = null;
        if (StringUtils.isNotBlank(securityUser)) {
            settings = Settings.builder()
                    .put("cluster.name", clusterName)
                    .put("xpack.security.user",securityUser)
                    .build();
        } else {
            settings = Settings.builder()
                    .put("cluster.name", clusterName).build();
        }

        TransportClient transportClient = new PreBuiltXPackTransportClient(settings);
        String ip = host.split(":")[0].trim();
        int port = Integer.parseInt(host.split(":")[1].trim());
        InetAddress add = null;
        try {
            add = InetAddress.getByName(ip);
        } catch (UnknownHostException e) {
            e.printStackTrace();
        }
        transportClient.addTransportAddress(new InetSocketTransportAddress(add, port));
        return transportClient;
    }

b)批量写入elasticsearch

public static void writeToES(List<SongBean> list) throws Exception {
        BulkRequestBuilder blukBuilder = client.prepareBulk();
        for (SongBean song : list) {
            IndexRequestBuilder indexBuilder =  client.prepareIndex(es_indexName,es_indexType);
            HashMap<String,String> map  = new HashMap<>();
            map.put("name",song.getName());
            map.put("singer",song.getSinger());
            map.put("album",song.getAlbum());
            map.put("href",song.getHref());
            map.put("lyric",song.getLyric());
            indexBuilder.setSource(map);
            indexBuilder.setTimeout("5d");
            blukBuilder.add(indexBuilder);
        }
        BulkResponse bulkResponse = blukBuilder.execute().actionGet();
        logger.info(String.format("write to elasticsearch songs count = %d",list.size()));
        if (bulkResponse.hasFailures()) {
            throw new Exception(bulkResponse.buildFailureMessage());
        }
    }

6. 结果验证

爬取完歌曲数据后,登录阿里云ElasticSearch控制台,在Kibana控制台中,使用Dev Tools查询爬取到的歌曲数据,如下:

POST songs/sample/_search
{
  "query": {
    "match_all": {}
  }
}

image

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。 &nbsp;
目录
相关文章
|
11月前
|
SQL 人工智能 数据可视化
16.1k star! 只需要DDL就能一键生成数据库关系图!开源神器ChartDB让你的数据结构"看得见"
ChartDB是一款开源的数据库可视化神器,通过一句智能查询就能自动生成专业的数据库关系图。无需安装客户端、不用暴露数据库密码,打开网页就能完成从数据建模到迁移的全流程操作,堪称开发者的"数据库透视镜"。
2367 67
|
3月前
|
人工智能 自然语言处理 搜索推荐
当下数字人定制平台哪家好?实测后我推荐它
2025年数字人已成商业基础设施,市场规模突破480亿。本文亲测来灵数字人、腾讯智影、百度曦灵、小冰、Synthesia五大平台,从客服、直播、内容生产三大场景出发,揭示选型关键:不看功能多全,而看是否适配业务。真正赢家,是选对场景、匹配流程、坚持12个月以上投入的企业。
|
开发框架 前端开发 Swift
【Swift开发专栏】Swift与跨平台应用开发
【4月更文挑战第30天】Swift 在跨平台开发中优缺点并存,其代码复用性、高性能和易于集成是亮点,但生态系统限制和高学习成本是挑战。开发者可借助 SwiftUI、Combine 等工具,配合React Native、Flutter、Xamarin等框架实现跨平台。Swift 不是独立的跨平台框架,但能与其他框架结合使用,适用于不同项目需求。
635 0
|
Windows
电脑网络图标消失了怎么办?3步教你找回,简单快捷!
当电脑网络图标消失,宽带和WiFi图标变成一个球时,可通过以下步骤解决:1. 使用快捷键`Win+R`输入`services.msc`进入服务管理器;2. 找到并启动Wired AutoConfig、WLAN AutoConfig和WLAN Direct服务,设置启动类型为自动;3. 重启电脑验证问题是否解决。此方法可恢复网络功能。
1834 0
|
存储 Kubernetes 算法框架/工具
Kubevirt
Kubevirt
893 12
|
机器学习/深度学习 传感器 监控
深度学习在智能交通系统中的应用与展望
传统的交通管理系统因为无法满足日益增长的交通需求,而逐渐暴露出种种问题。本文将探讨深度学习在智能交通系统中的应用,介绍其原理和优势,并展望未来深度学习技术在交通领域的发展前景。
613 25
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
906 0
|
机器学习/深度学习 人工智能 自然语言处理
python量化学习路线
python量化学习路线
1098 10
|
SQL 前端开发 Java
DAO层和Service层的究极理解--这波我在大气层
DAO层和Service层的究极理解--这波我在大气层
639 0
AVI格式视频文件编码格式缺少编码解释器且该项目的编码格式不受支持(0xc00d5212错误)
AVI格式视频文件编码格式缺少编码解释器且该项目的编码格式不受支持(0xc00d5212错误)
4810 0
AVI格式视频文件编码格式缺少编码解释器且该项目的编码格式不受支持(0xc00d5212错误)

热门文章

最新文章