《智慧的网络爬虫》— HTML概述

简介: 网页是构成网站的基本元素,它是一个包含HTML标签的纯文本文件,通常是由图片;链接;视频;声音;文字等元素组成。通常我们所看到的网页,常以 .htm 或 .html 后缀结尾的文件,因此将其俗称为HTML文件。HTML;CSS;JS是学习爬虫的基础,是必须要了解的,此篇文章我讲述了HTML5对于爬虫所要必备的基础知识

什么是网页和网站?

​ 在文章开始之前,我们先了解一下什么是网页和网站

​ 网页是构成网站的基本元素,它是一个包含HTML标签的纯文本文件,通常是由图片;链接;视频;声音;文字等元素组成。通常我们所看到的网页,常以 .htm.html 后缀结尾的文件,因此将其俗称为HTML文件

​ 网站可以认为是放在服务器上的一个文件夹,它包含了很多的网页文件以及很多子文件夹,用户访问网站其实就是读取文件的内容

一:HTML概述

1.HTML简介:
  • ​ HTML是纯文本标记语言,是互联网上用于编写网页的主要语言
  • ​ HTML文件可以直接由浏览器解释执行,且无须编译
  • ​ 一个HTML文件是由一系列的元素和标签组成的,元素是HTML文件的重要组成文件,而标签用来规定元素的属性和它在文件中的位置
2.HTML文件基本结构:

一:标签

​ HTML是一种计算机语言,但它不能编程,只能用来标记网页中的内容,HTML通过不同的标签来标记不同的内容,格式,布局等

​ HTML标签分为单独出现的标签和成对出现的标签

(1)单独标签:其作用是在相应的位置插入元素

<元素名称>

(2)成对标签:仅对包含在其中的文件部分产生作用

注意:大多数的标签都是成对出现的,由开始标签和结束标签组成

<元素名称>要控制的元素</元素名称>

注意:在HTML标签中不区分大小写,

,和其效果是一样的

(3)属性:在HTML标签中。还可以设置一些属性,用来控制HTML标签所建立的元素,这些属性位于首标签中

<元素名称 属性1 = "值1" 属性2 = "值2"......>要控制的元素</元素名称>

二:元素

​ 当用HTML标签将一段文字包含在中间时,这段文字与包含文字的HTML标签被称为一个元素

​ 在所有的HTML文件中,最外层的元素都是由

标签建立的,在标签所建立的元素中,包含了两个主要的子元素,这两个子元素是由与标签所建立的

​ 其中

标签所建立的元素内容为头部也就是文件标题;而标签所建立的元素内容为文件主体

三:HTML的基本标签

(1)文件开始标签

​ 在任何一个HTML文件里,最先出现的标签就是

,它用于表示该文件是以HTML编写的

是成对出现的,开始标签和结束标签分别位于文件的最前面和最后面,文件的所有内容和HTML的其它标签都包含在标签里面
<html>
    该文件的全部元素
</html>

注意:

标签不带任何属性

(2)文件头部标签

也是一个成对出现的标签,用来表示网页头部的标签,而头部是用来规定该文件的标题,也就是浏览器的标题栏,和文件的一些属性

​ 在由

标签所定义的元素中,并不放置网页的任何内容也就是它并不属于HTML文件的主体;它仅放置关于HTML文件的信息(标题,编码方式及URL等信息)这些信息大部分是用于提供索引,辨认等应用的

注意:如果HTML文件不需要提供相关信息,则可以省略

标签

(3)文件标题标签

标签之间的,并且
目录
相关文章
|
6天前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
3月前
|
机器学习/深度学习 运维 安全
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
金融交易网络与蛋白质结构的共同特点是它们无法通过简单的欧几里得空间模型来准确描述,而是需要复杂的图结构来捕捉实体间的交互模式。传统深度学习方法在处理这类数据时效果不佳,图神经网络(GNNs)因此成为解决此类问题的关键技术。GNNs通过消息传递机制,能有效提取图结构中的深层特征,适用于欺诈检测和蛋白质功能预测等复杂网络建模任务。
132 2
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
|
3月前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
3月前
|
前端开发 测试技术 定位技术
如何利用HTML和CSS构建企业级网站的全过程。从项目概述到页面结构设计,再到HTML结构搭建与CSS样式设计,最后实现具体页面并进行优化提升,全面覆盖了网站开发的关键步骤
本文深入介绍了如何利用HTML和CSS构建企业级网站的全过程。从项目概述到页面结构设计,再到HTML结构搭建与CSS样式设计,最后实现具体页面并进行优化提升,全面覆盖了网站开发的关键步骤。通过实例展示了主页、关于我们、产品展示、新闻动态及联系我们等页面的设计与实现,强调了合理布局、美观设计及用户体验的重要性。旨在为企业打造一个既专业又具吸引力的线上平台。
116 7
|
3月前
|
SQL 存储 安全
网络安全与信息安全概述####
本文探讨了网络安全(Cybersecurity)和信息安全(Information Security)的基本概念及其差异,重点介绍了网络安全漏洞、加密技术及安全意识在信息保护中的重要性。本文旨在通过深入分析这些关键技术和策略,提升对信息安全整体性的理解,帮助读者在数字化时代更好地应对信息安全挑战。 ####
|
6月前
|
存储 网络协议 安全
|
4月前
|
机器学习/深度学习 存储 自然语言处理
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
|
4月前
|
机器学习/深度学习 PyTorch API
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
|
6月前
|
数据采集 移动开发 Python
六:《智慧的网络爬虫》— 正则表达式概述
【8月更文挑战第7天】本文介绍了正则表达式的基本概念、用途,如表单验证和爬虫,以及Python中re模块的使用,包括match(),match()函数、元字符、预定义字符集、重复匹配、位置匹配、非贪婪模式和re模块的常用方法如compile(),search(),findall(),split(),sub()等。
88 1
六:《智慧的网络爬虫》— 正则表达式概述
|
6月前
|
移动开发 HTML5
HTML5概述
【8月更文挑战第22天】
51 1