DC学院数据分析学习笔记(二):爬虫需要的HTML

简介: 简单记一下爬虫需要的HTML

关于html,之前也稍微了解过一些,又碰到了,那么就系统的学习一下

HTML

超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。

什么是 HTML?

HTML 是用来描述网页的一种语言。

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)
  • HTML 使用标记标签来描述网页
  • HTML 文档包含了HTML 标签及文本内容
  • HTML文档也叫做 web 页面

HTML代码的一般形式

一个基本的网页代码框架:

<!DOCTYPE html>
<html>

<head>
<title>文档标题</title>
</head>

<body>
文档内容......
</body>

</html>

标签基本格式:<标签名 属性名1=“属性值” 属性名2=“属性值” ……>文件内容标签名>

<! DOCTYPE html>:用于代码开头指定html版本等信息

<html></html>:告知浏览器这是一个 HTML 文档,是 HTML 文档中最外层的元素

<head></head>:所有头部元素的容器,必须包含文档的标题(title),可以包含脚本、样式、meta 信息以及其他

<title></title>:定义文档的标题,定义浏览器工具栏中的标题,显示在搜索引擎结果中的页面标题

<body></body>:定义文档的主体,包含文档的所有内容(比如文本、超链接、图像、表格和列表等)

<h1></h1>:定义 HTML 标题,从<h1>到<h6>标题的重要程度逐渐降低

<p></p>:定义段落,浏览器会自动在其前后创建一些空白

<br>:一个简单的换行符,是一个空标签,意味着它没有结束标签。

<div></div>:定义 HTML 文档中的一个分隔区块或者一个区域部分。经常与 CSS 一起使用,用来布局网页。

用菜鸟教程的HTML网页结构举个例子:

image

HTML链接语法

<a href="url">Link text</a>:href 属性规定链接的目标。
<a href="form.html">Fill Our Form</a>:指向同一服务器同一目录下的form.html
<a href="../parent.html">Parent</a>:指向同一服务器父目录下的parent.html
<a href="stuff/cat.html">Catalog</a> :指向同一服务器子目录stuff下的cat.html
<a href="https://baidu.com" target="_blank">baidu</a>:指向外部网站 。其中,使用了 Target 属性,可以定义被链接的文档在何处显示,这里的会在新窗口打开网页

特别的,在HTML链接中有个id属性

id属性可用于创建在一个HTML文档书签标记

提示: 书签是不以任何特殊的方式显示,在HTML文档中是不显示的,所以对于读者来说是隐藏的

引用菜鸟教程中的例子:

HTML图像

<img src="url" alt="some_text">:src 指 "source",即图像的 URL 地址。alt属性是在图片无法显示时,替换上去的文本。
和超链接结合起来,可以为插入的图片添加超链接:

<a href="test.html"><img src="test.jpg" /></a>

还可以设置图像的高度于宽度:

<img src="pulpit.jpg" alt="Pulpit rock" width="304" height="228">:最好设置一下,因为没有指定图片的大小,加载页面时有可能破坏HTML的整体布局

列表

无序列表(unordered list,ul)

例如:

<ul>
<li>Coffee</li>
<li>Milk</li>
</ul>

显示:

  • Coffee
  • Milk

有序列表(ordered list,ol)

例如:

<ol>
<li>Coffee</li>
<li>Milk</li>
</ol>

显示:

  1. Coffee
  2. Milk

表格

<table></table> :表格的开始和结束
<tr></tr> :创建表格的一行
<td></td> :创建表格中普通单元格
<th></th>:创建表格中标题栏单元格

表单

表单元素是允许用户在表单中输入内容,比如:文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等等。

引用一个DC学院课堂中的例子:

image

OK !HTML内容还是很多的,说是系统学习一下,其实只学了一下爬虫会可能用到的。

目录
相关文章
|
6月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。
|
6月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
185 4
|
3月前
|
数据采集 存储 JSON
基于网络爬虫的天气数据分析
本文介绍了一个基于Python网络爬虫的天气数据分析项目,详细阐述了爬虫的设计原理、程序架构、整体执行流程及相关技术,包括数据爬取、解析、存储以及反爬虫策略,并展示了爬虫程序框架和流程图。
基于网络爬虫的天气数据分析
|
3月前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。
138 2
|
3月前
|
数据采集 算法 数据可视化
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
本文设计并实现了一个基于Python网络爬虫和机器学习模型的今日头条新闻数据分析与热度预测系统,通过数据采集、特征工程、模型构建和可视化展示,挖掘用户行为信息和内容特征,预测新闻热度,为内容推荐和舆情监控提供决策支持。
135 0
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
|
6月前
|
数据采集 XML 数据挖掘
使用Python打造爬虫程序之HTML解析大揭秘:轻松提取网页数据
【4月更文挑战第19天】本文介绍了HTML解析在爬虫技术中的重要性,并通过Python的BeautifulSoup库展示了如何解析和提取数据。文章涵盖了HTML文档结构、使用BeautifulSoup的基本方法,如`find_all()`、选择器(标签、类、ID选择器)以及提取文本、属性和链接。此外,还讨论了遍历和处理嵌套元素的技巧。
|
6月前
|
数据采集 存储 JavaScript
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
本文旨在介绍如何利用PHP中的simple_html_dom库结合爬虫代理IP技术来高效采集和分析汽车之家网站的电动车参数。通过实际示例和详细说明,读者将了解如何实现数据分析和爬虫技术的结合应用,从而更好地理解和应用相关技术。
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
|
6月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
在上面的代码中,我们使用pandas库创建DataFrame存储商品数据,并计算平均价格和平均销量。最后,我们将计算结果打印出来。此外,我们还可以使用pandas库提供的其他函数和方法来进行更复杂的数据分析和处理。 需要注意的是,爬取拼多多商品数据需要遵守拼多多的使用协议和规定,避免过度请求和滥用数据。
|
数据采集 JSON JavaScript
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析
网络爬虫是一种程序或脚本,用于自动从网页中提取数据。网络爬虫的应用场景非常广泛,例如搜索引擎、数据挖掘、舆情分析等。本文将介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。
274 0
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析

热门文章

最新文章

下一篇
无影云桌面