Java爬虫——B站弹幕爬取

简介: 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得      就可以找到该视频的av号aid=8678034  还有弹幕序号,cid=14295428  弹幕存放位置为  http://comment.bilibili.com/14295428.xml  获得该链接内容即可。

如何通过B站视频AV号找到弹幕对应的xml文件号

首先爬取视频网页,将对应视频网页源码获得

 

 

 就可以找到该视频的av号aid=8678034

 还有弹幕序号,cid=14295428

 弹幕存放位置为  http://comment.bilibili.com/14295428.xml

 获得该链接内容即可。

 1 package BiliBili弹幕爬取;
 2 
 3 import org.apache.http.HttpEntity; 
 4 import org.apache.http.client.methods.CloseableHttpResponse;
 5 import org.apache.http.client.methods.HttpGet;
 6 import org.apache.http.impl.client.CloseableHttpClient;
 7 import org.apache.http.impl.client.HttpClients;
 8 import org.apache.http.util.EntityUtils;
 9 
10 import java.util.regex.Matcher;
11 import java.util.regex.Pattern;
12 
13 public class getBiliBiliBofqi {
14     public static void getBofqi(String aid) throws Exception{
15         CloseableHttpClient closeableHttpClient = HttpClients.createDefault() ;
16         HttpGet httpGet = new HttpGet("https://www.bilibili.com/video/av"+aid+"/") ;
17         CloseableHttpResponse httpResponse = closeableHttpClient.execute(httpGet) ;
18         HttpEntity httpEntity = httpResponse.getEntity() ;
19         String en= EntityUtils.toString(httpEntity) ;
20 //"cid=16496518&aid=9979006&pre_ad="
21         String con = "cid=(.*)?&aid=" ;
22         Pattern ah = Pattern.compile(con);
23         Matcher mr = ah.matcher(en);
24         while(mr.find()) {
25             String id = mr.group() ;
26             String newUrl = id.replace("cid=","") ;
27             String x = newUrl.replace("&aid=","") ;
28             HttpGet httpGet1 = new HttpGet("http://comment.bilibili.com/"+x+".xml");
29             CloseableHttpResponse httpResponse1 = closeableHttpClient.execute(httpGet1) ;
30             HttpEntity httpEntity1 = httpResponse1.getEntity() ;
31             String en1 = EntityUtils.toString(httpEntity1) ;
32             String c = "\">(.*?)<" ;
33             Pattern a = Pattern.compile(c);
34             Matcher m = a.matcher(en1);
35             while(m.find()){
36                 String speak = m.group().replace("\">","") ;
37                 speak = speak.replace("<","") ;
38                 System.out.println(speak);
39             }
40         }
41     }
42     public static void main(String[] args) throws Exception{
43         getBofqi("8678034");
44     }
45 }

 运行结果:

 

 

目录
相关文章
|
8月前
|
数据采集 JSON Java
Java爬虫获取1688店铺所有商品接口数据实战指南
本文介绍如何使用Java爬虫技术高效获取1688店铺商品信息,涵盖环境搭建、API调用、签名生成及数据抓取全流程,并附完整代码示例,助力市场分析与选品决策。
|
8月前
|
数据采集 存储 前端开发
Java爬虫性能优化:多线程抓取JSP动态数据实践
Java爬虫性能优化:多线程抓取JSP动态数据实践
|
7月前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
数据采集 JSON Java
Java爬虫获取微店快递费用item_fee API接口数据实现
本文介绍如何使用Java开发爬虫程序,通过微店API接口获取商品快递费用(item_fee)数据。主要内容包括:微店API接口的使用方法、Java爬虫技术背景、需求分析和技术选型。具体实现步骤为:发送HTTP请求获取数据、解析JSON格式的响应并提取快递费用信息,最后将结果存储到本地文件中。文中还提供了完整的代码示例,并提醒开发者注意授权令牌、接口频率限制及数据合法性等问题。
|
数据采集 存储 Java
Java爬虫获取微店店铺所有商品API接口设计与实现
本文介绍如何使用Java设计并实现一个爬虫程序,以获取微店店铺的所有商品信息。通过HttpClient发送HTTP请求,Jsoup解析HTML页面,提取商品名称、价格、图片链接等数据,并将其存储到本地文件或数据库中。文中详细描述了爬虫的设计思路、代码实现及注意事项,包括反爬虫机制、数据合法性和性能优化。此方法可帮助商家了解竞争对手,为消费者提供更全面的商品比较。
|
数据采集 算法 Java
如何在Java爬虫中设置动态延迟以避免API限制
如何在Java爬虫中设置动态延迟以避免API限制
|
数据采集 存储 网络协议
Java HttpClient 多线程爬虫优化方案
Java HttpClient 多线程爬虫优化方案
|
数据采集 存储 Web App开发
Java爬虫:深入解析商品详情的利器
在数字化时代,信息处理能力成为企业竞争的关键。本文探讨如何利用Java编写高效、准确的商品详情爬虫,涵盖爬虫技术概述、Java爬虫优势、开发步骤、法律法规遵守及数据处理分析等内容,助力电商领域市场趋势把握与决策支持。
|
数据采集 存储 监控
Java爬虫:数据采集的强大工具
在数据驱动的时代,Java爬虫技术凭借其强大的功能和灵活性,成为企业获取市场信息、用户行为及竞争情报的关键工具。本文详细介绍了Java爬虫的工作原理、应用场景、构建方法及其重要性,强调了在合法合规的前提下,如何有效利用Java爬虫技术为企业决策提供支持。