关系型数据库设计三大范式-低调大师

关系型数据库设计三大范式

2022-12-19 484

作者：郑龙飞

范式定义

百度百科:设计关系数据库时，遵从不同的规范要求，设计出合理的关系型数据库，这些不同的规范要求被称为不同的范式，各种范式呈递次规范，越高的范式数据库冗余越小。

人类语言: 范式可以理解为设计一张数据表的表结构，符合的标准级别、规范和要求。

而通常我们用的最多的就是第一范式（1NF）、第二范式（2NF）、第三范式（3NF），也就是本文要讲的“三大范式”。

范式的优点

采用范式可以降低数据的冗余性。

为什么要降低数据的冗余性？

十几年前，磁盘很贵，为了减少磁盘存储。
以前没有分布式系统，都是单机，只能增加磁盘，磁盘个数也是有限的。
一次修改，需要修改多个表，很难保证数据一致性。

范式的缺点

范式的缺点是获取数据时，需要通过Join拼接出最后的数据。

目前范式的分类

目前业界范式有：第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。

什么是函数依赖？

百度百科:函数依赖简单点说就是：某个属性集决定另一个属性集时，称另一属性集依赖于该属性集。

人类语言:以下面表格为例，通俗易懂的解释，什么是函数依赖。

学号	姓名	系名	系主任	科名	分数
001	张三	计算机系	李雷	高等数学	87
001	张三	计算机系	李雷	大学英语	88
001	张三	计算机系	李雷	数据库设计	89
002	李四	计算机系	李雷	高等数学	86
002	李四	计算机系	李雷	java程序设计	90
002	李四	计算机系	李雷	大学英语	98
003	王五	财务系	韩梅梅	高等数学	96
003	王五	财务系	韩梅梅	财务基础	95

完全函数依赖

官方定义:设X，Y是关系R的两个属性集合，X’是X的真子集，存在X→Y，但对每一个X’都有X’!→Y，则称Y完全函数依赖于X。

人类语言:比如通过，(学号，课程) 推出分数，但是单独用学号推断不出来分数，那么就可以说：分数完全依赖于(学号，课程) 。

总结:即：通过A B能得出C，但是A B单独得不出C，那么说C完全依赖于AB。

部分函数依赖

官方定义:假如 Y函数依赖于 X，但同时 Y 并不完全函数依赖于 X，那么我们就称 Y 部分函数依赖于 X。

人类语言:比如通过，(学号，课程) 推出姓名，因为其实直接可以通过，学号推出姓名，所以：姓名部分依赖于 (学号，课程)。

总结:通过AB能得出C，通过A也能得出C，或者通过B也能得出C，那么说C部分依赖于AB。

传递函数依赖

官方定义:传递函数依赖：设X，Y，Z是关系R中互不相同的属性集合，存在X→Y(Y !→X),Y→Z，则称Z传递函数依赖于X。

人类语言:比如：学号推出系名，系名推出系主任，但是，系主任推不出学号，系主任主要依赖于系名。这种情况可以说：系主任传递依赖于学号。

总结:即：通过A得到B，通过B得到C，但是C得不到A，那么说C传递依赖于A。

三范式的区别

第一范式

第一范式1NF核心原则：属性不可切割。

举例说明:

学号	姓名	系名	系主任	科名	分数	学籍信息
001	张三	计算机系	李雷	高等数学	87	本科，大二
002	李四	计算机系	李雷	大学英语	88	研究生,研三

很明显上面表格设计是不符合第一范式的，学籍信息列中的数据不是原子数据项，是可以进行分割的，因此对表格进行修改，让表格符合第一范式的要求，修改结果如下图所示：

学号	姓名	系名	系主任	科名	分数	学历	所在年级
001	张三	计算机系	李雷	高等数学	87	本科	大二
002	李四	计算机系	李雷	大学英语	88	研究生	研三

实际上，1NF是所有关系型数据库的最基本要求 ,你在关系型数据库管理系统（RDBMS），例如SQL Server，Oracle，MySQL中创建数据表的时候，如果数据表的设计不符合这个最基本的要求，那么操作一定是不能成功的。也就是说，只要在RDBMS中已经存在
的数据表，一定是符合1NF的。

第二范式

第二范式2NF核心原则：不能存在“部分函数依赖”。

举例说明:

学号	姓名	系名	系主任	科名	分数
001	张三	计算机系	李雷	高等数学	87
001	张三	计算机系	李雷	大学英语	88
001	张三	计算机系	李雷	数据库设计	89
002	李四	计算机系	李雷	高等数学	86
002	李四	计算机系	李雷	java程序设计	90
002	李四	计算机系	李雷	大学英语	98
003	王五	财务系	韩梅梅	高等数学	96
003	王五	财务系	韩梅梅	财务基础	95

以上表格明显存在，部分依赖。比如，这张表的主键是 (学号，课名），分数确实完全依赖于(学号，课名），但是姓名并不完全依赖于(学号，课名）,让表格符合第二范式的要求，修改结果如下图所示：

学号	科名	分数
001	高等数学	87
001	大学英语	88
001	数据库设计	89
002	高等数学	86
002	java程序设计	90
002	大学英语	98
003	高等数学	96
003	财务基础	95

学号	姓名	系名	系主任
001	张三	计算机系	李雷
002	李四	计算机系	李雷
003	王五	财务系	韩梅梅

以上符合第二范式，去掉部分函数依赖依赖。

第三范式

第三范式 3NF核心原则：不能存在传递函数依赖。

举例说明:

学号	姓名	系名	系主任
001	张三	计算机系	李雷
002	李四	计算机系	李雷
003	王五	财务系	韩梅梅

在上面这张表中，存在传递函数依赖：学号->系名->系主任，但是系主任推不出学号。

上面表需要再次拆解：

学号	姓名	系名
001	张三	计算机系
002	李四	计算机系
003	王五	财务系

系名	系主任
计算机系	李雷
计算机系	李雷
财务系	韩梅梅

反三范式

没有冗余的数据库未必是最好的数据库，有时为了提高运行效率，就必须降低范式标准，适当保留冗余数据。具体做法是：在概念数据模型设计时遵守第三范式，降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段，减少了查询时的关联，提高查询效率，因为在数据库的操作中查询的比例要远远大于DML的比例。但是反范式化一定要适度，并且在原本已满足三范式的基础上再做调整的。

总结

引用知乎大佬对范式的理解:

数据库设计应该也是分为三个境界的：

第一个境界，刚入门数据库设计，范式的重要性还未深刻理解。这时候出现的反范式设计，一般会出问题。

第二个境界，随着遇到问题解决问题，渐渐了解到范式的真正好处，从而能快速设计出低冗余、高效率的数据库。

第三个境界，再经过N年的锻炼，是一定会发觉范式的局限性的。此时再去打破范式，设计更合理的反范式部分。

微信关注我们

原文链接：https://my.oschina.net/u/4090830/blog/5611237

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

数据价值深度挖掘，分析服务上线“探索”能力

近日，华为分析服务6.9.0版本发布，正式上线探索能力。开发者可自由定义与配置分析模型，支持报告实时预览，数据洞察体验更加灵活与便捷。新上线的探索能力中，有漏斗分析、事件归因、会话路径分析三个高级分析模型。在原有能力的基础上，时效性进一步增强，开发者在完成配置与报告创建后，即能查看具体内容。通过低时延、快响应的数据分析，能够及时发现用户在关键转化节点和链路的流失异常，基于此可迅速制定调优策略，有效提升运营效率。一、漏斗分析：直观分析各环节流失率，达成持续有效的用户增长关键业务流程的漏斗创建可帮助运营直观分析转化异常，迅速定位问题节点；而响应更快、时间颗粒度更细的转化周期更有利于及时发现异常环节的用户流失。探索下的漏斗分析沿用原漏斗分析模型，在此基础上新增转化周期自定义能力，可按照分钟、小时、天级三个维度自由定义，不再局限于原有的自然天与会话转化周期。例如，在电商大促活动刚开始的黄金阶段，运营可能会更加关注用户在前几小时甚至几十分钟内的用户转化情况，那么可以通过自定义转化周期的方法，灵活调整并实时预览报告，迅速定位异常流失，及时调优。电商转化漏斗示意，非真实数据需要注意的是，...

2022-12-19

427

作者 | daydreamer 前篇《探秘C++内存管理（理论篇）》主要介绍了Linux C++程序内存管理的理论基础，本文作为系列文章《探秘C++内存管理》的第二篇，将会探讨经典内存管理器ptmalloc如何管理C++程序的内存。借助剖析ptmalloc解决问题的着重点和设计实现成本的权衡，更具体的呈现c++内存管理面临的问题和工程落地中的巧思。一、概述 ptmalloc是开源GNU C Library(glibc)默认的内存管理器，当前大部分Linux服务端程序使用的是ptmalloc提供的malloc/free系列函数，而它在性能上远差于Meta的jemalloc和Google的tcmalloc。服务端程序调用ptmalloc提供的malloc/free函数申请和释放内存，ptmalloc提供对内存的集中管理，以尽可能达到：用户申请和释放内存更加高效，避免多线程申请内存并发和加锁寻求与操作系统交互过程中内存占用和malloc/free性能消耗的平衡点，降低内存碎片化，不频繁调用系统调用函数简单概括ptmalloc的内存管理策略：预先向操作系统申请并持有一块内存供用户ma...

2022-12-19

541

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。