🌌第一章 绪论
🌍1. 数据库系统概述
🪐1.1 数据库的四个基本概念
- 数据(Data): 描述事物的符号记录
语义:数据的含义- 数据库(DB):长期存储在计算机内、有组织、可共享的大量数据的集合
特点:永久存储、有组织、可共享- 数据库管理系统(DBMS):计算机的基础软件
- 数据库系统(DBS): 由 DB/DBA/DBMS+应用程序 组成的系统
注意:数据库管理员(DBA):不属于实体
🪐1.2 数据库管理三阶段
人工管理阶段--> 文件系统阶段 --> 数据库系统阶段 标志着数据管理技术的飞跃,以加工数据的程序为中心 转变为 围绕共享的数据库为中心
🪐1.3 DBS特点
- 数据结构化
- 数据共享性高、冗余度低且易扩充
- 数据独立性高(包括物理独立和逻辑独立)
- 数据由DBMS统一管理和控制
🌍2. 数据模型:对现实世界的抽象
🪐2.1 两类数据模型
1.两类数据模型:概念模型+逻辑模型和物理模型
🪐2.2 概念模型
概念模型:表示方法:实体-联系方法(E-R方法,用E-R图)
现实世界->概念模型基本知识
- 实体:客观存在且可相互区分的事物 ------对应概念模型的记录
如:人、事、物...- 属性:实体的某一特征 ------对应概念模型的字段(数据项)
如:学生姓名、学号...- 码(key):唯一标识属性集
如:学号- 实体型:实体名+属性名集合
如:学生(学号,姓名,性别...)- 实体集:同类型实体集合
如:全体学生- 联系:实体内部联系+实体之间联系,可一对一、一对多、多对多
🪐2.3 数据模型
1 组成要素:
- 数据结构:DB对象与对象之间的联系
- 数据操作:增删改查
- 数据的完整性约束:一组完整性规则
2 常用数据模型:
- 层次模型
- 网状模型
- 关系模型
- 待续..
注:层次模型与网状模型统称格式化模型
🌕2.3.1 层次模型
层次模型:一根一双亲 关系:一对多
定义:
- 有且只有根结点没有双亲结点
- 根以外的其它结点有且只有一个双亲结点
示例:
数据操纵:增删改查
层次模型的完整性约束条件:
- 无相应的双亲结点值就不能插入子女结点值
- 如果删除双亲结点值,则相应的子女结点值也被同时删除
- 更新操作时,应更新所有相应记录,以保证数据的一致性
优缺点
优点:
- 层次模型的数据结构比较简单清晰
- 查询效率高,性能优于关系模型
缺点:
- 结点之间的多对多联系表示不自然
- 对插入和删除操作的限制多,应用程序的编写比较复杂
- 查询子女结点必须通过双亲结点层次命令趋于程序化
🌕2.3.2 网状模型
网状模型:多根多双亲 关系:多对多
定义:
- 允许一个以上的结点无双亲
- 一个结点可以有多于一个的双亲
示例:
数据操纵:增删改查
层次模型的完整性约束条件:码
优缺点
优点:
- 能够更为直接地描述现实世界,如一个结点可以有多个双亲
- 具有良好的性能,存取效率较高
缺点:
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
- DDL、DMIL语言复杂,用户不容易使用
- 记录之间联系是通过存取路径实现的,用户必须了解系统结构的细节
🌕2.3.3 关系模型
定义:二维表【规范表】,一般表示示例: 学生(学号,姓名,性别...)
示例:
术语:
- 关系:表
- 关系名:表名
- 元组:行
- 属性:列
- 码:唯一标识行,如:学号
- 域:相同数据类型值的集合,如性别的域是(男,女)
- 分量:元组中的一个属性值,如姓名中的王小明
- 关系模式:表头
- 非规范表:表中含表
数据操纵【操作对象和操作结果都是关系】:增删改查
层次模型的完整性约束条件:
- 实体完整性
- 参照完整性
- 用户定义的完整性
优缺点
优点:
- 建立在严格的数学概念的基础上概念单一
- 实体和各类联系都用关系来表示对数据的检索结果也是关系,关系模型的存取路径对用户透明
- 具有更高的数据独立性,更好的安全保密性简化了程序员的工作和数据库开发建立的工作
缺点:
- 存取路径对用户透明,查询效率往往不如格式化数据模型
- 为提高性能,必须对用户的查询请求进行优化,增加了开发数据库管理系统的难度
🌍3. 数据库系统的结构
🪐3.1 数据库系统模式的概念
模式=型+值
- 型(type):数据类型,如varchar
- 值(value):具体赋值,如男
如:
学生记录: (学号,姓名,性别,系别,年龄,籍贯)
一个记录值; (201315130,李明,男,计算机系,19,江苏南京市)
模式(schema)=DB中全体数据的 逻辑结构+特征 的描述,涉及型不涉及值
实例:是模式的具体值,涉及值
注意:一个模式可有多个实例。
🪐3.2 数据库系统的三级模式结构
数据库系统的三级模式结构
- 模式:全局逻辑结构
- 外模式:局部逻辑结构
- 内模式:物理结构
关系数据库的三级模式结构
1. 模式:全局逻辑结构
定义:数据库中全体数据的逻辑结构和特征的描述,所有用户的公共数据视图
2. 外模式:局部逻辑结构
定义:
- 数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
3. 内模式:存储模式
定义:
- 是数据物理结构和存储方式的描述
- 是数据在数据库内部的表示方式
注:
- 一个DB只有一个模式和内模式,可有多个外模式
- 一个应用程序只有一个外模式
🪐3.3 数据库的二级映像功能
数据库的二级映像功能
- 外模式/模式映像【多个】:模式变->外模式不变->应用程序不变(体现逻辑独立性)
- 模式/内模式映像【唯一】:存储变->模式不变->应用程序不变(体现物理独立性)
🌌第二章 关系数据库
🌍1. 关系数据结构及形式化定
🪐1.1 关系
关系模型的数据结构:关系【二维表】
1. 域:相同数据结构值的集合,如sex属于域:{“男”,“女”}
2. 笛卡儿积:域运算
示例:
给出3个域:
D1={a1,a2}
D2={b1,b2}
D3={c1,c2,c3}
D1,D2,D3的笛卡尔积为
D1×D2×D3={
(a1,b1,c1),(a1,b1,c2),(a1,b1,c3),
(a1,b2,c1), (a1,b2,c2),(a1,b2,c3),
(a2,b1,c1),(a2,b1,c2),(a2,b1,c3),
(a2,b2,c1),(a2,b2,c2),(a2,b2,c3) }
元组:(a1,b1,c1)...
分量:a1...
基数为2×2×3=12
笛卡尔积的定义:
给定一组域D1,D2,…,Dn,允许其中某些域是相同的。
D1×D2×…×Dn ={(d1,d2,…,dn)|di∈Di,i=1,2,…,n}
域的所有取值的一个组合不重复
元组:笛卡尔积中每一个元素(d1,d2,…,dn)叫作一个n元组(n-tuple)或简称元组
分量:笛卡尔积元素(d1,d2,…,dn)中的每一个值di 叫作一个分量
基数:Di(i=1,2,…,n)为有限集,其基数为mi(i=1,2,…,n),则D1×D2×…×Dn
的基数M为:
表示方法:一张二维表,行对应元组,列对应属性【域】
3. 关系
定义:
D1×D2×…×Dn的子集叫作在域D1,D2,…,Dn上的关系,表示为
R(D1,D2,…,Dn) R:关系名,n:关系的目或度
当n=1时,称该关系为一元关系
当n=2时,称该关系为二元关系
相关概念
- 元组:关系中的每个元素
- 候选码:若关系中的某一属性组的值能唯一地标识一个元组
- 全码:所有属性组是候选码
- 主码:若一个关系有多个候选码,则选定其中一个为主码
- 主属性:候选码的诸属性称为主属性
- 非主属性:不包含在任何侯选码中的属性
关系的三种类型:
- 基本表【基本关系】:实际存在的表
- 查询表:查询结果对应的表
- 视图表:由基本表或其他视图表导出的表,是虚表
基本关系性质:
- 列同质不同名
- 行列无序
- 键值唯一不为空
- 分量不可分
🪐1.2 关系模式
关系模式是型、关系是值,关系模式是对关系的描述
关系模式的表示:
R(U,D,DOM,F)
R 关系名
U 组成该关系的属性名集合
D U中属性所来自的域
DOM 属性向域的映象集合
F 属性间数据的依赖关系的集合
关系模式和关系的区别
- 关系模式是对关系的描述,是静态的、稳定的
- 关系是关系模式在某一时刻的状态或内容,是动态的、随时间不断变化的
注意:
- 关系是元组的集合,由主码唯一标识。
- 关系模型的逻辑结构是表,物理结构交给OS完成。
🌍2. 关系操作
常用的关系操作【集合操作】
- 查询操作:选择、投影、连接、除、并、差、交、笛卡尔积,其中选择、投影、并、差、笛卡尔基是5种基本操作
- 数据更新:插入、删除、修改
🌍3. 关系的完整性
三类完整性约束:
- 实体完整性:键值唯一不为空
示例:
选修(学号,课程号,成绩)
“学号、课程号”为主码,则“学号”和“课程号”两个属性都不能取空值- 参照完整性:定义外码与主码使用规则
示例:
学生(学号,姓名,性别,专业号,年龄)
专业(专业号,专业名)
专业号是专业的主码,但不是学生的主码,并且专业号与学号相对应,则专业号是学生的外码。- 用户定义的完整性:如某值不能为空,某值唯一,sex范围限制为{"男","女"}...
🌍4. 关系代数
运 算 符 |
含 义 |
|
传统的 运算符 |
∪ |
并 |
- |
差 |
|
∩ |
交 |
|
× |
笛卡尔积 |
|
专门的 运算符 |
σ |
选择 |
π |
投影 |
|
连接 |
||
÷ |
除 |
🪐4.1 传统的运算符
🌕1. 并 U
R∪S 仍为n目关系,由属于R或属于S的元组组成 R∪S = { t|t ∈ R∨t ∈S }
🌕2. 差 -
R - S 仍为n目关系,由属于R而不属于S的所有元组组成 R -S = { t|t∈R∧t∈S }
🌕3. 交 ∩
R∩S仍为n目关系,由既属于R又属于S的元组组成 R∩S = { t|t ∈R∧t ∈S }
【R∩S = R –(R-S)】
🌕4. 笛卡尔积 R×S
R×S
列:(n+m)列元组的集合,元组的前n列是关系R的一个元组,后m列是关系S的一个元组
行:k1×k2个元组 R×S = {tr ts |tr ∈R ∧ ts∈S }
🪐4.2 专门的运算符
基本概念:
设关系模式为R(A1,A2,…,An),它的一个关系设为R
- t∈R 表示t是R的一个元组
- t[Ai] 则表示元组t中相应于属性Ai的一个分量
象集
则
- x1在R中的象集 Zx1 ={Z1,Z2,Z3}
- x2在R中的象集 Zx2 ={Z2,Z3}
- x3在R中的象集 Zx3 ={Z1,Z3}
🌕1. 选择 σ
在关系R中选择满足给定条件的诸元组 σF(R) = {t|t∈R∧F(t)= '真'}
示例:
查询信息系(IS系)全体学生。
σSdept = 'IS' (Student)
Sno |
Sname |
Ssex |
Sage |
Sdept |
201215125 |
张立 |
男 |
19 |
IS |
查询年龄小于20岁的学生。
σSage < 20(Student)
Sno |
Sname |
Ssex |
Sage |
Sdept |
201215122 |
刘晨 |
女 |
19 |
IS |
201215123 |
王敏 |
女 |
18 |
MA |
201215125 |
张立 |
男 |
19 |
IS |
🌕2. 投影 π
从R中选择出若干属性列组成新的关系 πA(R) = { t[A] | t ∈R } ,A:R中的属性列
示例:
查询学生的姓名和所在系。
即求Student关系上学生姓名和所在系两个属性上的投影
πSname,Sdept(Student)
Sname |
Sdept |
李勇 |
CS |
刘晨 |
CS |
王敏 |
MA |
张立 |
IS |
查询学生关系Student中都有哪些系。
πSdept(Student)
Sdept |
CS |
IS |
MA |
🌕3. 连接
从两个关系的笛卡尔积中选取属性间满足一定条件的元组
A和B:分别为R和S上度数相等且可比的属性组;θ:比较运算符
1. 连接分成 等值连接+自然连接
等值连接
θ为“=”的连接运算称为等值连接
自然连接
两个关系中进行比较的分量必须是相同的属性组+在结果中把重复的属性列去掉
2. 外连接与左外连接和右外连接
悬浮元组:两个关系R和S在做自然连接时,关系R中某些元组有可能在S中不存在公共属性上值相等的元组,从而造成R中这些元组在操作时被舍弃了
两个关系中相同的属性组联合
3.3 外连接:把悬浮元组也保存在结果关系中,而在其他属性上填空值(Null)
3.4 左外连接:只保留左边关系R中的悬浮元组
3.5 右外连接:只保留右边关系S中的悬浮元组
🌕4. 除运算 ÷
给定关系R (X,Y) 和S (Y,Z),其中X,Y,Z为属性组。
R中的Y与S中的Y可以有不同的属性名,但必须出自相同的域集。
R与S的除运算得到一个新的关系P(X),
P是R中满足下列条件的元组在 X 属性列上的投影:
元组在X上分量值x的象集Yx包含S在Y上投影的集合,记作:
R÷S={tr[X] | tr∈R∧πY(S)∈Yx}
Yx:x在R中的象集,x = tr[X]
示例
解释:
在关系R中,A可以取四个值{a1,a2,a3,a4}
- a1的象集为 {(b1,c2),(b2,c3),(b2,c1)}
- a2的象集为 {(b3,c7),(b2,c3)}
- a3的象集为 {(b4,c6)}
- a4的象集为 {(b6,c6)}
S在(B,C)上的投影为 {(b1,c2),(b2,c1),(b2,c3) }
只有a1的象集包含了S在(B,C)属性组上的投影
所以 R÷S ={a1}
🌌第三章 关系数据库标准语言SQL
📝总结
数据库SQL Server领域就像一片未被勘探的信息大海,引领你勇敢踏入数据科学的神秘领域。这是一场独特的学习冒险,从基本概念到算法实现,逐步揭示更深层次的模式分析、匹配算法和智能模式识别的奥秘。