分析与设计数据库模型的简单过程

简介:

近期在做一个业务系统的分析和数据模型设计,工作这几年也做过好几个项目的数据库模型的设计,期间也算是积累了一定的经验吧,这次有机会就写写我的数据库模型设计过程与方法。

在数据库设计中,设计的目标就是要建立E-R图(实体-关系图),在PowerDesigner中就是要建立概念模型或者逻辑模型。既然是实体-关系图,所以整个建模的核心就是围绕建立“实体”对象和找到实体之间的“关系”。实体分为两部分:标识(主键)和属性。标识是实体的一个或多个属性的组合,用于唯一的表标识出实体中的每一个数据。在确认一个实体的过程中,首先就是要确认实体的主键,只要找到了实体的主键,那么剩下的就是实体的属性。

1.确认核心实体

在建模过程中,首先需要对业务进行分析,知道我们的模型要表示怎么样的一个事情,从而确定我们模型的核心实体,找到了核心实体和其主键,那么剩下的工作就是以核心实体为中心进行实体关联的扩展和实体属性的抽象。一个数据库模型中一般会有1~2个实体作为整个模型的核心实体,核心实体一般都是一个名词,在整个业务过程中作为主语和宾语。所以总的来说,我们用一个主谓宾的句子来描述我们这个模型,那么基本就可以肯定,这句话中的主语和宾语就是核心实体,而通常谓语也是一个很核心的对象,该对象可能会产生一个实体来表示,也可能只是一个关联(Association)。通常数据库中数据量最大的表就是谓语对应的表。

以上说法可能比较抽象,用一两个简单的例子来说明。假设我们需要设计一个学生选课系统的数据库模型,那么首先就是要分析,我们这个系统是做什么的,记录什么的?“学生选课”!虽然只有4个字,但是已经完整的表达整个系统,从这样一个主谓宾的句子中,我们可以得出,整个模型的核心是“学生”(主语)和“课程安排”(宾语),谓词“选”表名了两个实体之间的核心关系。确定了核心的实体“学生”和“课程安排”,那么接下来就是要确定实体的主键和属性。“学生”实体的主键很容易确定,只要找到能够唯一标识每个学生的一个字段即可,所以我们可以使用“学号”来作为学生实体的主键,一个学校中每个学生的学号肯定是唯一的。“课程安排”这个实体的主键并没有那么明显的属性能够表示,对于无法找到明显的实体属性作为主键的情况下,我们需要创建一个专门的标识列(ID)用来标识实体中的每个实例。在数据库中最常见的ID就是自增列。这里我们可以设计“课程安排ID”作为课程实体的主键,每在数据库中增加一门课程,系统会自动为该课程分配一个自增的唯一整数来标识。

image

再比如一个要设计一个电子商务系统的数据库模型,首先一句话总结该系统就是“用户在网上购买商品”,所以这个系统的核心实体就是“用户”和“商品”。用户实体的主键是什么?用户的登录名是唯一的、邮箱是唯一的,都可以作为该实体的主键。但是在真实的电子商务系统中很少使用登录名或邮箱来作为主键,因为其中一个很重要的原因是登录名和邮箱都太长,而且长度不确定,所以在数据库中一般会设计一个自增的“用户ID”来作为用户的主键。商品实体的主键可以用商品的条形码来作为主键,确实可以这么做,但是同样的原因,条形码太长了,所以一般会用一个Int型的自增列“商品ID”作为商品的主键。

image

2.确认相关实体

在找到了核心实体后,接下来就是以核心实体为中心,找到相关的实体。相关实体一般来说就是和核心实体存在直接联系的实体,当然也有些相关实体是要经过另一个相关实体与核心实体关联。相关实体一般情况下都是名词。

以选课系统为例,与学生相关的实体是什么?班级、专业方向、院系等,与课程安排相关的实体是什么?课程、课程的详细安排、安排的教师等,所以我们可以将这些要关联到的实体都建立。

image

再看看前面说到的电子商务平台,核心实体是用户和商品,围绕用户,我们需要建立用户的“订单”(包括订单的明细)、用户的“代金券”等实体,围绕商品,我们需要建立商品的分类,商品的供应商等相关实体。于是我们的电子商务数据库模型变为:

image

这一步并没有完成,一个实体可以没有属性,但是却不能没有主键,所以需要给所有相关实体添加主键,我们可以以简短的可以唯一标识实体的属性来作为主键,也可以使用自增的ID作为主键,在数据库中出于性能、快捷等方面的考虑,大部分实体都是以ID作为主键。

3.确认关联和关系

关联(Association)也是一种实体间的连接,在Merise模型方法学理论中,Association是一种用于连接分别代表明确定义的对象的不同实体,这种连接仅仅通过另一个实体不能很明确地表达,而通过“事件(Event)”连接来表示。

也就是说,实体和实体之间存在着关系(多对多),但是这种关系还存在其他的属性,这些属性如果如果作为一个明确的实体的实体来表示又不是很合适,所以就使用了Association来表达,这种关系之间一般是一个“事件”虚实体,也就是说是一个动词对应的实体。

以选课系统为例,“选课”这个动词就是需要用关联来表示,一个学生可以选择多个课程安排,一个课程安排会有多个学生来选,所以学生和课程安排之间是多对多的关系,但是学生选课时还需要记录学生的时间、选课是否成功等信息,所以需要使用关联来表示选课这个动作。

前面说到的多对多是实体之间的一种关系,两个实体之间存在4种关系:一对一、一对多、多对一和多对多。根据核心实体和相关实体之间的关系建立实体之间的关系,于是我们的选课系统数据库模型如图所示:

image

对于一个电子商务系统,分析其中的实体之间的关系,也可以得到类似的关系图。要表示用户对商品的收藏,也就用户和商品两个实体直接的直接关系,一个用户可以收藏多件商品,一个商品可以被多个用户收藏,所以用户和商品之间是多对多的关系。另外,商品分类和自身是一个一对多的关系,因为分类存在大分类和小分类,是一种层级关系,一个父级分类下面有多个小分类,一个小分类只会有一个父级分类,所以分类自身一对多。

image

4.确认属性

前面几步工作时最重要最核心的工作,接下来的工作就是要完善模型。首先需要的就是要将实体的属性补齐,实体的属性可以根据日常生活常识、用户提交的表单、用户需求调研等来确定。比如学生表,根据常识我们知道,学生会具有姓名、性别、生日等属性;课程会具有课程名、学分等属性;课程的详细安排会安排具体的时间、上课的地点等属性……在实际的企业应用中,大部分实体的属性时不可能通过常识来得到的,必须进行需求的调研,结合业务上的需求和实际中的表单、数据流等找到实体的属性。比如对于供应商这个实体,我们只知道供应商有编号,有名字,还有其他什么属性就必须得调研了。调研时我们知道企业新增加一个供应商时会填写一个新增供应商表,那么我们就可以拿到该表,更加表单的内容来设计供应商实体的属性。

5.范式化

在前面设计选课系统的数据模型时,对于选课的详细信息实体,会存在上课的时间、上课的地点等属性,但是仔细一考虑,这些属性如果直接放在该实体中,必然会形成数据重复,导致数据维护困难,不符合3范式的设计原则,所以应该将这些属性提出,作为单独的实体,于是,我们的选课系统的数据库模型就变为如图所示:

image

再说下电子商务系统的模型,里面最重要的一个实体“商品”会包含很多属性,比如大小、颜色、重量、卖价……,这其中,大小、颜色本身也可以作为实体抽取出来,以便于进行维护,所以我们的电子商务系统的模型便为:

image

6.细节调整

现在整个模型已经基本上完成了,但是仍然有几个地方需要进一步的确认和调整:属性的数据类型和实体之间的关系。现在数据库模型中,所有的属性的数据类型都是Undefined,需要根据系统要求、业务需求和调研来确定每个属性的数据类型。但一般来说还是具有一定的规则可循:

  • 自增ID用Integer型,如果数据量会特别特别大的话,可以使用长整型。
  • 涉及到金额的用Money类型。
  • 涉及字符串的确定该属性中是否有可能出现中文,如果有中文出现的,用variable multibyte,没有中文出现那就用Characters或者variable Characters。
  • 如果是枚举类型的,用Byte。
  • 日期和时间类型的,确定是要用日期还是用时间,或者两者都需要记录。
  • 具有小数的用float类型。

按照实际情况将模型中的每个属性的数据类型进行修改。另外就是实体之间的关系,在默认情况下,添加的实体关系是一对多的关系,另外也可能存在一对一或者多对多的关系,除了这些关系外,另外还需要确定对应的关系实体是否是必须的。一对多中,一这部分就存在0,1 和1,1两种情况;多的部分存在0,n和1,n两种情况。最常见的情况是1,1:0,n,也就是说多的一端肯定会对应一个一的实体,而一的一端可以对应0到多个实体。

image

再比如电子商务系统,确定该数据库模型中每个实体属性的数据类型,然后修改实体之间的关系,将必须存在值对应的地方修改为1,1或者1,n即可。

image

通过以上几步操作,我们可以建立完整的数据库概念模型,主要应该关注在实体的建立(核心就是要找到实体的主键)和实体关系的建立(核心就是找到实体直接是一对多还是多对多或者一对一),只要把这两点做好,那么整个模型的框架就搭建好了。

目录
相关文章
|
4月前
|
关系型数据库 MySQL 分布式数据库
PolarDB 与传统数据库的性能对比分析
【8月更文第27天】随着云计算技术的发展,越来越多的企业开始将数据管理和存储迁移到云端。阿里云的 PolarDB 作为一款兼容 MySQL 和 PostgreSQL 的关系型数据库服务,提供了高性能、高可用和弹性伸缩的能力。本文将从不同角度对比 PolarDB 与本地部署的传统数据库(如 MySQL、PostgreSQL)在性能上的差异。
248 1
|
24天前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
2月前
|
SQL 关系型数据库 MySQL
Vanna使用ollama分析本地数据库
这篇文章详细介绍了如何使用Vanna和Ollama框架来分析本地数据库,实现自然语言查询转换为SQL语句并与数据库交互的过程。
239 7
Vanna使用ollama分析本地数据库
|
27天前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
51 2
|
2月前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
2月前
|
SQL 自然语言处理 关系型数据库
Vanna使用ollama分析本地MySQL数据库
这篇文章详细介绍了如何使用Vanna结合Ollama框架来分析本地MySQL数据库,实现自然语言查询功能,包括环境搭建和配置流程。
230 0
|
3月前
|
Oracle NoSQL 关系型数据库
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
482 2
|
3月前
|
前端开发 IDE 数据库连接
ThinkPHP6 模型层的模型属性,表映射关系,以及如何在控制层中使用模型层和模型层中的简单CRUD
本文详细介绍了ThinkPHP6中模型层的使用,包括模型属性设置、表映射关系、以及如何在控制层中使用模型层进行CRUD操作。
ThinkPHP6 模型层的模型属性,表映射关系,以及如何在控制层中使用模型层和模型层中的简单CRUD
|
3月前
|
SQL Java OLAP
Hologres 入门:实时分析数据库的新选择
【9月更文第1天】在大数据和实时计算领域,数据仓库和分析型数据库的需求日益增长。随着业务对数据实时性要求的提高,传统的批处理架构已经难以满足现代应用的需求。阿里云推出的 Hologres 就是为了解决这个问题而生的一款实时分析数据库。本文将带你深入了解 Hologres 的基本概念、优势,并通过示例代码展示如何使用 Hologres 进行数据处理。
376 2
|
3月前
|
前端开发 数据库 开发者
数据模型(数据库表设计)生成代码
BizWorks ToolKit 插件集成 Mybatis-Plus 代码生成工具,支持从数据库表批量生成代码,简化开发流程。本文详细介绍配置方法及项目示例,包括配置文件格式、生成选项及具体操作步骤,帮助开发者快速实现代码同步更新。配置文件 `.mp.yaml` 支持自定义输出目录、生成组件等,适用于多种项目结构。
50 0