通过jsoup解析页面html获取优酷页面视频列表

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

 

通过jsoup解析页面html获取优酷页面视频列表

作者: javaboy2012
Email:yanek@163.com
qq:    1046011462

 

 

代码如下:

 

package com.yanek;

import java.io.IOException;
import java.util.HashMap;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Tool {

	/**
	 * @param args
	 */
	public static void main(String[] args) {

		
		String url="http://www.youku.com";
		//url="http://movie.youku.com";
		
		HashMap list=new HashMap();
		
		Document doc;
		try {
			doc = Jsoup.connect(url).get();
			
			Elements links = doc.select("a[href]");
			
			int s=0;
			
			for (Element link : links) {

				String v_url=link.attr("abs:href");
				
				if 	(link.ownText().length()==0)
				{
					continue;
				}

				if (list.containsKey(v_url))
				{
					continue;
				}
				
				if (v_url.startsWith("http://v.youku.com/v_show"))
				{
					System.out.println(link.attr("abs:href")+"-"+link.ownText());
					list.put(v_url, v_url);
					s++;
				}

			}
			System.out.println("total:"+ s);
			
			
		} catch (IOException e) {
			e.printStackTrace();
		}

		
		

	}

}


 

目录
相关文章
|
4天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
19天前
HTML 速查列表4
本示例包含两个部分:表格和框架。表格部分展示了带有两个列标题和一行数据的简单表格;框架部分通过 `<iframe>` 标签嵌入了一个外部页面 `demo_iframe.htm`。
|
19天前
|
数据安全/隐私保护
HTML 速查列表5
表单示例包括文本输入、密码框、复选框、单选按钮、提交和重置按钮、隐藏输入、下拉菜单及多行文本区。实体表示特殊字符,如 < (<)、> (>) 和 © (©)。
|
29天前
HTML 列表3
HTML 自定义列表 (<dl>) 用于描述术语或名称的定义。每个术语由 <dt> 标签表示,其定义或描述由 <dd> 标签表示。
|
20天前
HTML 速查列表3
文档排版元素简介:包括图片、替换文本、样式/区块、块级和内联元素、无序列表、有序列表及定义列表等,帮助清晰组织和展示内容。
|
20天前
HTML 速查列表3
本示例展示了HTML中常用的元素:图片、样式与区块、块级与内联元素、以及三种列表(无序、有序和定义列表)的使用方法。通过这些基本标签,可以构建网页的基本结构。
|
20天前
HTML 速查列表2
文本格式化包括多种标签
|
20天前
HTML 速查列表1
HTML速查列表包含基本文档结构、标题、文本、换行和水平线等常用标签,方便日常打印使用。例如:`<html>`, `<head>`, `<title>`, `<body>`, `<h1>`至`<h6>`,`<p>`,`<br>`和`<hr>`。
|
29天前
HTML 列表4
HTML 列表标签用于创建不同类型的列表。`<ol>` 和 `<ul>` 分别定义有序和无序列表,`<li>` 定义列表项。`<dl>` 用于定义描述列表,其中 `<dt>` 定义术语,`<dd>` 定义术语的描述。
|
29天前
HTML 列表2
HTML 有序列表使用数字标记列表项,以 `<ol>` 开始,每个项目用 `<li>` 标签表示。

推荐镜像

更多