DC学院数据分析学习笔记(二):爬虫需要的HTML

简介: 简单记一下爬虫需要的HTML

关于html,之前也稍微了解过一些,又碰到了,那么就系统的学习一下

HTML

超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。

什么是 HTML?

HTML 是用来描述网页的一种语言。

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)
  • HTML 使用标记标签来描述网页
  • HTML 文档包含了HTML 标签及文本内容
  • HTML文档也叫做 web 页面

HTML代码的一般形式

一个基本的网页代码框架:

<!DOCTYPE html>
<html>

<head>
<title>文档标题</title>
</head>

<body>
文档内容......
</body>

</html>

标签基本格式:<标签名 属性名1=“属性值” 属性名2=“属性值” ……>文件内容标签名>

<! DOCTYPE html>:用于代码开头指定html版本等信息

<html></html>:告知浏览器这是一个 HTML 文档,是 HTML 文档中最外层的元素

<head></head>:所有头部元素的容器,必须包含文档的标题(title),可以包含脚本、样式、meta 信息以及其他

<title></title>:定义文档的标题,定义浏览器工具栏中的标题,显示在搜索引擎结果中的页面标题

<body></body>:定义文档的主体,包含文档的所有内容(比如文本、超链接、图像、表格和列表等)

<h1></h1>:定义 HTML 标题,从<h1>到<h6>标题的重要程度逐渐降低

<p></p>:定义段落,浏览器会自动在其前后创建一些空白

<br>:一个简单的换行符,是一个空标签,意味着它没有结束标签。

<div></div>:定义 HTML 文档中的一个分隔区块或者一个区域部分。经常与 CSS 一起使用,用来布局网页。

用菜鸟教程的HTML网页结构举个例子:

image

HTML链接语法

<a href="url">Link text</a>:href 属性规定链接的目标。
<a href="form.html">Fill Our Form</a>:指向同一服务器同一目录下的form.html
<a href="../parent.html">Parent</a>:指向同一服务器父目录下的parent.html
<a href="stuff/cat.html">Catalog</a> :指向同一服务器子目录stuff下的cat.html
<a href="https://baidu.com" target="_blank">baidu</a>:指向外部网站 。其中,使用了 Target 属性,可以定义被链接的文档在何处显示,这里的会在新窗口打开网页

特别的,在HTML链接中有个id属性

id属性可用于创建在一个HTML文档书签标记

提示: 书签是不以任何特殊的方式显示,在HTML文档中是不显示的,所以对于读者来说是隐藏的

引用菜鸟教程中的例子:

HTML图像

<img src="url" alt="some_text">:src 指 "source",即图像的 URL 地址。alt属性是在图片无法显示时,替换上去的文本。
和超链接结合起来,可以为插入的图片添加超链接:

<a href="test.html"><img src="test.jpg" /></a>

还可以设置图像的高度于宽度:

<img src="pulpit.jpg" alt="Pulpit rock" width="304" height="228">:最好设置一下,因为没有指定图片的大小,加载页面时有可能破坏HTML的整体布局

列表

无序列表(unordered list,ul)

例如:

<ul>
<li>Coffee</li>
<li>Milk</li>
</ul>

显示:

  • Coffee
  • Milk

有序列表(ordered list,ol)

例如:

<ol>
<li>Coffee</li>
<li>Milk</li>
</ol>

显示:

  1. Coffee
  2. Milk

表格

<table></table> :表格的开始和结束
<tr></tr> :创建表格的一行
<td></td> :创建表格中普通单元格
<th></th>:创建表格中标题栏单元格

表单

表单元素是允许用户在表单中输入内容,比如:文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)等等。

引用一个DC学院课堂中的例子:

image

OK !HTML内容还是很多的,说是系统学习一下,其实只学了一下爬虫会可能用到的。

目录
相关文章
|
1月前
|
Web App开发 前端开发 JavaScript
HTML/CSS/JS学习笔记 Day3(HTML--网页标签 下)
HTML/CSS/JS学习笔记 Day3(HTML--网页标签 下)
|
5月前
|
移动开发 JavaScript 前端开发
webgl学习笔记3_javascript的HTML DOM
webgl学习笔记3_javascript的HTML DOM
58 0
webgl学习笔记3_javascript的HTML DOM
|
5月前
|
数据采集 XML 数据挖掘
使用Python打造爬虫程序之HTML解析大揭秘:轻松提取网页数据
【4月更文挑战第19天】本文介绍了HTML解析在爬虫技术中的重要性,并通过Python的BeautifulSoup库展示了如何解析和提取数据。文章涵盖了HTML文档结构、使用BeautifulSoup的基本方法,如`find_all()`、选择器(标签、类、ID选择器)以及提取文本、属性和链接。此外,还讨论了遍历和处理嵌套元素的技巧。
|
5月前
|
数据采集 存储 JavaScript
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
本文旨在介绍如何利用PHP中的simple_html_dom库结合爬虫代理IP技术来高效采集和分析汽车之家网站的电动车参数。通过实际示例和详细说明,读者将了解如何实现数据分析和爬虫技术的结合应用,从而更好地理解和应用相关技术。
PHP爬虫技术:利用simple_html_dom库分析汽车之家电动车参数
|
5月前
|
Web App开发
某教程学习笔记(一):04、HTML基础
某教程学习笔记(一):04、HTML基础
31 0
|
前端开发 JavaScript 算法
网络结构与HTML学习笔记
网络结构与HTML学习笔记
178 0
网络结构与HTML学习笔记
|
数据采集 自然语言处理 Java
爬虫系统的核心:如何创建高质量的HTML文件?
在网页抓取或爬虫系统中,HTML文件的创建是一项重要的任务。HTML文件是网页的基础,包含了网页的所有内容和结构。在爬虫系统中,我们需要生成一个HTML文件,以便于保存和处理网页的内容。
HTML学习笔记(二)
HTML学习笔记(二)
45 0
|
2月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
59 2
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
150 4