搜索[学习]结果-低调大师优秀个人博客

每日一博 | 读 RocketMQ 源码，学习并发编程三大神器

笔者是 RocketMQ 的忠实粉丝，在阅读源码的过程中，学习到了很多编程技巧。这篇文章，笔者结合 RocketMQ 源码，分享并发编程三大神器的相关知识点。

2022-12-03

一种分布式深度学习编程新范式：Global Tensor

在深度学习场景下，SPMD 编程需要在原计算代码中插入通信操作，比如数据并行时对梯度汇总（AllReduce 操作），模型并行时需要 AllGather/ReduceScatter 操作。

2022-07-26

开源之夏专访｜带着问题去学习，Apache DolphinScheduler 王福政

其中包含了许多著名的开源社区和项目，作为学生参与进来除了能学习到如何正确参与开源，还能锻炼自己的能力，以及与社区导师沟通。

2022-07-22

Geoffrey Hinton：我的五十年深度学习生涯与研究心法

我更专注于研究如何构建大型学习系统和研究大脑的工作机制，Google Brain不仅有研究大型系统所需要的丰富资源，还能跟众多优秀人才交流学习。

2022-06-28

机器学习服务助应用内文本语种在线和离线检测

HMS Core机器学习服务的语种检测服务提供在线语种检测和离线语种检测，既支持检测单语种文本，也支持检测混合语种文本，涵盖南非荷兰语、阿拉伯语等百种语言。

2022-06-13

深度学习下运维日志分析的趋势解读与应用实践

也有采用迁移学习、集成学习、持续学习等不同的学习方式去各方面高效提升运维效率。总而言之，研究者们正在深挖深度学习在该领域的研究和应用价值。

2022-03-18

深度学习崛起十年：“开挂”的OpenAI革新者

期间，他与谷歌研究员Oriol Vinyals和Quoc Le提出了Seq2seq学习，开启了RNN广泛应用于语言任务的时代。他还参与开发了机器学习框架TensorFlow，用于大规模机器学习。

2022-03-17

每日一博 | 详解基于机器学习的恶意代码检测技术

下面让我们开始进行系统的介绍吧~ 一.机器学习概述与算法举例 1.机器学习概念首先介绍下机器学习的基本概念，如下图所示，往分类模型中输入某个样本特征，分类模型输出一个分类结果。

2022-03-07

Kubernetes 的学习路径，容器混合云到底有没有 “easy mode”

如果企业团队对 Kubernetes 不甚熟悉，或者没有时间调研、学习 Kubernetes，又该如何应对混合云环境下的容器编排和治理问题呢？

2022-02-27

手写一个线程池，带你学习ThreadPoolExecutor线程池实现原理

本文分享自华为云社区《手写线程池，对照学习ThreadPoolExecutor线程池实现原理！》，作者：小傅哥。谢飞机，小记！，上次吃亏在线程上，这可能一次坑掉两次吗！

2022-02-14

开源机器学习数据库 OpenMLDB 贡献者计划全面启动！

但AI的产业化落地，需要针对数据处理、特征工程、模型构建、应用上线等机器学习全流程各个环节进行优化，市场上罕有此类开源AI基础技术。

2021-12-07

英特尔开源基于机器学习的代码检测工具 ControlFlag

去年，英特尔推出了一个基于机器学习的代码检测工具 ControlFlag，可以帮助开发者发现代码中的错误，减少调试应用程序和软件所需的时间。

2021-10-22

以OneFlow为例梳理深度学习框架的那些插值方法

这篇文章就以OneFlow中这个算子的实现为例来盘点一下深度学习框架中的那些插值算法。

2021-09-08

浅谈GPU虚拟化和分布式深度学习框架的异同

撰文 | 袁进辉经常有人来问我：GPU虚拟化和分布式深度学习框架的异同，以及是不是用GPU虚拟化技术也可以解决现在超大规模深度学习模型的分布式训练难题。

2021-07-17

重新学习Mysql数据库1：无废话MySQL入门

关注公众号后回复“2019”领取我这两年整理的学习资料，涵盖自学编程、求职面试、算法刷题、Java技术学习、计算机基础和考研等8000G资料合集。

2021-07-09

2 --> MySQL索引类型一、简介 MySQL目前主要有以下几种索引类型： 1.普通索引 2.唯一索引 3.主键索引 4.组合索引 5.全文索引二、语句 CREATE TABLE table_name[col_name data type] [unique|fulltext][index|key][index_name](col_name[length])[asc|desc] 1.unique|fulltext为可选参数，分别表示唯一索引、全文索引 2.index和key为同义词，两者作用相同，用来指定创建索引 3.col_name为需要创建索引的字段列，该列必须从数据表中该定义的多个列中选择 4.index_name指定索引的名称，为可选参数，如果不指定，默认col_name为索引值 5.length为可选参数，表示索引的长度，只有字符串类型的字段才能指定索引长度 6.asc或desc指定升序或降序的索引值存储三、索引类型 1.普通索引是最基本的索引，它没有任何限制。它有以下几种创建方式：（1）直接创建索引 CREATE INDEX index_name ON table(column(length)) （2）修改表结构的方式添加索引 ALTER TABLE table_name ADD INDEX index_name ON (column(length)) （3）创建表的时候同时创建索引 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER NOT NULL , `content` text CHARACTER NULL , `time` int(10) NULL DEFAULT NULL , PRIMARY KEY (`id`), INDEX index_name (title(length)) ) （4）删除索引 DROP INDEX index_name ON table 2.唯一索引与前面的普通索引类似，不同的就是：索引列的值必须唯一，但允许有空值。如果是组合索引，则列值的组合必须唯一。它有以下几种创建方式：（1）创建唯一索引 CREATE UNIQUE INDEX indexName ON table(column(length)) （2）修改表结构 ALTER TABLE table_name ADD UNIQUE indexName ON (column(length)) （3）创建表的时候直接指定 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER NOT NULL , `content` text CHARACTER NULL , `time` int(10) NULL DEFAULT NULL , UNIQUE indexName (title(length)) ); 3.主键索引是一种特殊的唯一索引，一个表只能有一个主键，不允许有空值。一般是在建表的时候同时创建主键索引： CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) NOT NULL , PRIMARY KEY (`id`) ); 4.组合索引指多个字段上创建的索引，只有在查询条件中使用了创建索引时的第一个字段，索引才会被使用。使用组合索引时遵循最左前缀集合 ALTER TABLE `table` ADD INDEX name_city_age (name,city,age); 5.全文索引主要用来查找文本中的关键字，而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同，它更像是一个搜索引擎，而不是简单的where语句的参数匹配。fulltext索引配合match against操作使用，而不是一般的where语句加like。它可以在create table，alter table ，create index使用，不过目前只有char、varchar，text 列上可以创建全文索引。值得一提的是，在数据量较大时候，现将数据放入一个没有全局索引的表中，然后再用CREATE index创建fulltext索引，要比先为一张表建立fulltext然后再将数据写入的速度快很多。（1）创建表的适合添加全文索引 CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER NOT NULL , `content` text CHARACTER NULL , `time` int(10) NULL DEFAULT NULL , PRIMARY KEY (`id`), FULLTEXT (content) ); （2）修改表结构添加全文索引 ALTER TABLE article ADD FULLTEXT index_content(content) （3）直接创建索引 CREATE FULLTEXT INDEX index_content ON article(content) 四、缺点 1.虽然索引大大提高了查询速度，同时却会降低更新表的速度，如对表进行insert、update和delete。因为更新表时，不仅要保存数据，还要保存一下索引文件。 2.建立索引会占用磁盘空间的索引文件。一般情况这个问题不太严重，但如果你在一个大表上创建了多种组合索引，索引文件的会增长很快。索引只是提高效率的一个因素，如果有大数据量的表，就需要花时间研究建立最优秀的索引，或优化查询语句。五、注意事项使用索引时，有以下一些技巧和注意事项： 1.索引不会包含有null值的列只要列中包含有null值都将不会被包含在索引中，复合索引中只要有一列含有null值，那么这一列对于此复合索引就是无效的。所以我们在数据库设计时不要让字段的默认值为null。 2.使用短索引对串列进行索引，如果可能应该指定一个前缀长度。例如，如果有一个char(255)的列，如果在前10个或20个字符内，多数值是惟一的，那么就不要对整个列进行索引。短索引不仅可以提高查询速度而且可以节省磁盘空间和I/O操作。 3.索引列排序查询只使用一个索引，因此如果where子句中已经使用了索引的话，那么order by中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作；尽量不要包含多个列的排序，如果需要最好给这些列创建复合索引。 4.like语句操作一般情况下不推荐使用like操作，如果非使用不可，如何使用也是一个问题。like “%aaa%” 不会使用索引而like “aaa%”可以使用索引。 5.不要在列上进行运算这将导致索引失效而进行全表扫描，例如 SELECT * FROM table_name WHERE YEAR(column_name)<2017; 6.不使用not in和<>操作参考http://blog.codinglabs.org/articles/theory-of-mysql-index.html 摘要本文以MySQL数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此MySQL数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于BTree索引，因为这是平常使用MySQL时主要打交道的索引，至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第一部分主要从数据结构及算法理论层面讨论MySQL数据库索引的数理基础。第二部分结合MySQL数据库中MyISAM和InnoDB数据存储引擎中索引的架构实现讨论聚集索引、非聚集索引及覆盖索引等话题。第三部分根据上面的理论基础，讨论MySQL中高性能使用索引的策略。数据结构及算法基础索引的本质 MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质：索引是数据结构。我们知道，数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了很多更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。如果稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，但是数据本身的组织结构不可能完全满足各种数据结构（例如，理论上不可能同时将两列都按顺序进行组织），所以，在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。看一个例子：图1 图1展示了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并不是一定物理相邻的）。为了加快Col2的查找，可以维护一个右边所示的二叉查找树，每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就可以运用二叉查找在O(log2n)O(log2n)的复杂度内获取到相应数据。虽然这是一个货真价实的索引，但是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树（red-black tree）实现的，原因会在下文介绍。 B-Tree和B+Tree 目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree作为索引结构，在本文的下一节会结合存储器原理及计算机存取原理讨论为什么B-Tree和B+Tree在被如此广泛用于索引，这一节先单纯从数据结构角度描述它们。 B-Tree 为了描述B-Tree，首先定义一条数据记录为一个二元组[key, data]，key为记录的键值，对于不同数据记录，key是互不相同的；data为数据记录除key外的数据。那么B-Tree是满足下列条件的数据结构： d为大于1的一个正整数，称为B-Tree的度。 h为一个正整数，称为B-Tree的高度。每个非叶子节点由n-1个key和n个指针组成，其中d<=n<=2d。每个叶子节点最少包含一个key和两个指针，最多包含2d-1个key和2d个指针，叶节点的指针均为null 。所有叶节点具有相同的深度，等于树高h。 key和指针互相间隔，节点两端是指针。一个节点中的key从左到右非递减排列。所有节点组成树结构。每个指针要么为null，要么指向另外一个节点。如果某个指针在节点node最左边且不为null，则其指向节点的所有key小于v(key1)v(key1)，其中v(key1)v(key1)为node的第一个key的值。如果某个指针在节点node最右边且不为null，则其指向节点的所有key大于v(keym)v(keym)，其中v(keym)v(keym)为node的最后一个key的值。如果某个指针在节点node的左右相邻key分别是keyikeyi和keyi+1keyi+1且不为null，则其指向节点的所有key小于v(keyi+1)v(keyi+1)且大于v(keyi)v(keyi)。图2是一个d=2的B-Tree示意图。图2 由于B-Tree的特性，在B-Tree中按key检索数据的算法非常直观：首先从根节点进行二分查找，如果找到则返回对应节点的data，否则对相应区间的指针指向的节点递归进行查找，直到找到节点或找到null指针，前者查找成功，后者查找失败。B-Tree上查找算法的伪代码如下： BTree_Search(node, key) { if(node == null) return null; foreach(node.key) { if(node.key[i] == key) return node.data[i]; if(node.key[i] > key) return BTree_Search(point[i]->node); } return BTree_Search(point[i+1]->node); } data = BTree_Search(root, my_key); 关于B-Tree有一系列有趣的性质，例如一个度为d的B-Tree，设其索引N个key，则其树高h的上限为logd((N+1)/2)logd((N+1)/2)，检索一个key，其查找节点个数的渐进复杂度为O(logdN)O(logdN)。从这点可以看出，B-Tree是一个非常有效率的索引数据结构。另外，由于插入删除新的数据记录会破坏B-Tree的性质，因此在插入删除时，需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质，本文不打算完整讨论B-Tree这些内容，因为已经有许多资料详细说明了B-Tree的数学性质及插入删除算法，有兴趣的朋友可以在本文末的参考文献一栏找到相应的资料进行阅读。 B+Tree B-Tree有许多变种，其中最常见的是B+Tree，例如MySQL就普遍使用B+Tree实现其索引结构。与B-Tree相比，B+Tree有以下不同点：每个节点的指针上限为2d而不是2d+1。内节点不存储data，只存储key；叶子节点不存储指针。图3是一个简单的B+Tree示意。图3 由于并不是所有节点都具有相同的域，因此B+Tree中叶节点和内节点一般大小不同。这点与B-Tree不同，虽然B-Tree中不同节点存放的key和指针可能数量不一致，但是每个节点的域和上限是一致的，所以在实现中B-Tree往往对每个节点申请同等大小的空间。一般来说，B+Tree比B-Tree更适合实现外存储索引结构，具体原因与外存储器原理及计算机存取原理有关，将在下面讨论。带有顺序访问指针的B+Tree 一般在数据库系统或文件系统中使用的B+Tree结构都在经典B+Tree的基础上进行了优化，增加了顺序访问指针。图4 如图4所示，在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针，就形成了带有顺序访问指针的B+Tree。做这个优化的目的是为了提高区间访问的性能，例如图4中如果要查询key为从18到49的所有数据记录，当找到18后，只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点，极大提到了区间查询效率。这一节对B-Tree和B+Tree进行了一个简单的介绍，下一节结合存储器存取原理介绍为什么目前B+Tree是数据库系统实现索引的首选数据结构。为什么使用B-Tree（B+Tree）上文说过，红黑树等数据结构也可以用来实现索引，但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构，这一节将结合计算机组成原理相关知识讨论B-/+Tree作为索引的理论基础。一般来说，索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说，索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理，然后再结合这些原理分析B-/+Tree作为索引的效率。 B树为什么要B树磁盘中有两个机械运动的部分，分别是盘片旋转和磁臂移动。盘片旋转就是我们市面上所提到的多少转每分钟，而磁盘移动则是在盘片旋转到指定位置以后，移动磁臂后开始进行数据的读写。那么这就存在一个定位到磁盘中的块的过程，而定位是磁盘的存取中花费时间比较大的一块，毕竟机械运动花费的时候要远远大于电子运动的时间。当大规模数据存储到磁盘中的时候，显然定位是一个非常花费时间的过程，但是我们可以通过B树进行优化，提高磁盘读取时定位的效率。为什么B类树可以进行优化呢？我们可以根据B类树的特点，构造一个多阶的B类树，然后在尽量多的在结点上存储相关的信息，保证层数尽量的少，以便后面我们可以更快的找到信息，磁盘的I/O操作也少一些，而且B类树是平衡树，每个结点到叶子结点的高度都是相同，这也保证了每个查询是稳定的。简介这里的B树，也就是英文中的B-Tree，一个 m 阶的B树满足以下条件：每个结点至多拥有m棵子树；根结点至少拥有两颗子树（存在子树的情况下）；除了根结点以外，其余每个分支结点至少拥有 m/2 棵子树；所有的叶结点都在同一层上；有 k 棵子树的分支结点则存在 k-1 个关键码，关键码按照递增次序进行排列；关键字数量需要满足ceil(m/2)-1 <= n <= m-1；举个栗子： B树上大部分的操作所需要的磁盘存取次数和B树的高度是成正比的，在B树中可以检查多个子结点，由于在一棵树中检查任意一个结点都需要一次磁盘访问，所以B树避免了大量的磁盘访问。操作既然是树，那么必不可少的操作就是插入和删除，这也是B树和其它数据结构不同的地方，当然了，还有必不可少的搜索，分享一个对B树的操作进行可视化的网址，它是由usfca提供的。假定对高度为h的m阶B树进行操作。插入新结点一般插在第h层，通过搜索找到对应的结点进行插入，那么根据即将插入的结点的数量又分为下面几种情况。如果该结点的关键字个数没有到达m-1个，那么直接插入即可；如果该结点的关键字个数已经到达了m-1个，那么根据B树的性质显然无法满足，需要将其进行分裂。分裂的规则是该结点分成两半，将中间的关键字进行提升，加入到父亲结点中，但是这又可能存在父亲结点也满员的情况，则不得不向上进行回溯，甚至是要对根结点进行分裂，那么整棵树都加了一层。其过程如下：删除同样的，我们需要先通过搜索找到相应的值，存在则进行删除，需要考虑删除以后的情况，如果该结点拥有关键字数量仍然满足B树性质，则不做任何处理；如果该结点在删除关键字以后不满足B树的性质（关键字没有到达ceil(m/2)-1的数量），则需要向兄弟结点借关键字，这有分为兄弟结点的关键字数量是否足够的情况。如果兄弟结点的关键字足够借给该结点，则过程为将父亲结点的关键字下移，兄弟结点的关键字上移；如果兄弟结点的关键字在借出去以后也无法满足情况，即之前兄弟结点的关键字的数量为ceil(m/2)-1，借的一方的关键字数量为ceil(m/2)-2的情况，那么我们可以将该结点合并到兄弟结点中，合并之后的子结点数量少了一个，则需要将父亲结点的关键字下放，如果父亲结点不满足性质，则向上回溯；其余情况参照BST中的删除。其过程如下： B+树为什么要B+树由于B+树的数据都存储在叶子结点中，分支结点均为索引，方便扫库，只需要扫一遍叶子结点即可，但是B树因为其分支结点同样存储着数据，我们要找到具体的数据，需要进行一次中序遍历按序来扫，所以B+树更加适合在区间查询的情况，所以通常B+树用于数据库索引，而B树则常用于文件索引。简介同样的，以一个m阶树为例：根结点只有一个，分支数量范围为[2，m]；分支结点，每个结点包含分支数范围为[ceil(m/2), m]；分支结点的关键字数量等于其子分支的数量减一，关键字的数量范围为[ceil(m/2)-1, m-1]，关键字顺序递增；所有叶子结点都在同一层；操作其操作和B树的操作是类似的，不过需要注意的是，在增加值的时候，如果存在满员的情况，将选择结点中的值作为新的索引，还有在删除值的时候，索引中的关键字并不会删除，也不会存在父亲结点的关键字下沉的情况，因为那只是索引。 B树和B+树的区别这都是由于B+树和B具有这不同的存储结构所造成的区别，以一个m阶树为例。关键字的数量不同；B+树中分支结点有m个关键字，其叶子结点也有m个，其关键字只是起到了一个索引的作用，但是B树虽然也有m个子结点，但是其只拥有m-1个关键字。存储的位置不同；B+树中的数据都存储在叶子结点上，也就是其所有叶子结点的数据组合起来就是完整的数据，但是B树的数据存储在每一个结点中，并不仅仅存储在叶子结点上。分支结点的构造不同；B+树的分支结点仅仅存储着关键字信息和儿子的指针（这里的指针指的是磁盘块的偏移量），也就是说内部结点仅仅包含着索引信息。查询不同；B树在找到具体的数值以后，则结束，而B+树则需要通过索引找到叶子结点中的数据才结束，也就是说B+树的搜索过程中走了一条从根结点到叶子结点的路径。主存存取原理目前计算机使用的主存基本都是随机读写存储器（RAM），现代RAM的结构和存取原理比较复杂，这里本文抛却具体差别，抽象出一个十分简单的存取模型来说明RAM的工作原理。图5 从抽象角度看，主存是一系列的存储单元组成的矩阵，每个存储单元存储固定大小的数据。每个存储单元有唯一的地址，现代主存的编址规则比较复杂，这里将其简化成一个二维地址：通过一个行地址和一个列地址可以唯一定位到一个存储单元。图5展示了一个4 x 4的主存模型。主存的存取过程如下：当系统需要读取主存时，则将地址信号放到地址总线上传给主存，主存读到地址信号后，解析信号并定位到指定存储单元，然后将此存储单元数据放到数据总线上，供其它部件读取。写主存的过程类似，系统将要写入单元地址和数据分别放在地址总线和数据总线上，主存读取两个总线的内容，做相应的写操作。这里可以看出，主存存取的时间仅与存取次数呈线性关系，因为不存在机械操作，两次存取的数据的“距离”不会对时间有任何影响，例如，先取A0再取A1和先取A0再取D3的时间消耗是一样的。磁盘存取原理上文说过，索引一般以文件形式存储在磁盘上，索引检索需要磁盘I/O操作。与主存不同，磁盘I/O存在机械运动耗费，因此磁盘I/O的时间消耗是巨大的。图6是磁盘的整体结构示意图。图6 一个磁盘由大小相同且同轴的圆形盘片组成，磁盘可以转动（各个磁盘必须同步转动）。在磁盘的一侧有磁头支架，磁头支架固定了一组磁头，每个磁头负责存取一个磁盘的内容。磁头不能转动，但是可以沿磁盘半径方向运动（实际是斜切向运动），每个磁头同一时刻也必须是同轴的，即从正上方向下看，所有磁头任何时候都是重叠的（不过目前已经有多磁头独立技术，可不受此限制）。图7是磁盘结构的示意图。图7 盘片被划分成一系列同心环，圆心是盘片中心，每个同心环叫做一个磁道，所有半径相同的磁道组成一个柱面。磁道被沿半径线划分成一个个小的段，每个段叫做一个扇区，每个扇区是磁盘的最小存储单元。为了简单起见，我们下面假设磁盘只有一个盘片和一个磁头。当需要从磁盘读取数据时，系统会将数据逻辑地址传给磁盘，磁盘的控制电路按照寻址逻辑将逻辑地址翻译成物理地址，即确定要读的数据在哪个磁道，哪个扇区。为了读取这个扇区的数据，需要将磁头放到这个扇区上方，为了实现这一点，磁头需要移动对准相应磁道，这个过程叫做寻道，所耗费时间叫做寻道时间，然后磁盘旋转将目标扇区旋转到磁头下，这个过程耗费的时间叫做旋转时间。局部性原理与磁盘预读由于存储介质的特性，磁盘本身存取就比主存慢很多，再加上机械运动耗费，磁盘的存取速度往往是主存的几百分分之一，因此为了提高效率，要尽量减少磁盘I/O。为了达到这个目的，磁盘往往不是严格按需读取，而是每次都会预读，即使只需要一个字节，磁盘也会从这个位置开始，顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理：当一个数据被用到时，其附近的数据也通常会马上被使用。程序运行期间所需要的数据通常比较集中。由于磁盘顺序读取的效率很高（不需要寻道时间，只需很少的旋转时间），因此对于具有局部性的程序来说，预读可以提高I/O效率。预读的长度一般为页（page）的整倍数。页是计算机管理存储器的逻辑块，硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块，每个存储块称为一页（在许多操作系统中，页得大小通常为4k），主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中，然后异常返回，程序继续运行。 B-/+Tree索引的性能分析到这里终于可以分析B-/+Tree索引的性能了。上文说过一般使用磁盘I/O次数评价索引结构的优劣。先从B-Tree分析，根据B-Tree的定义，可知检索一次最多需要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每个节点只需要一次I/O就可以完全载入。为了达到这个目的，在实际实现B-Tree还需要使用如下技巧：每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。 B-Tree中一次检索最多需要h-1次I/O（根节点常驻内存），渐进复杂度为O(h)=O(logdN)O(h)=O(logdN)。一般实际应用中，出度d是非常大的数字，通常超过100，因此h非常小（通常不超过3）。综上所述，用B-Tree作为索引结构效率是非常高的。而红黑树这种结构，h明显要深的多。由于逻辑上很近的节点（父子）物理上可能很远，无法利用局部性，所以红黑树的I/O渐进复杂度也为O(h)，效率明显比B-Tree差很多。上文还说过，B+Tree更适合外存索引，原因和内节点出度d有关。从上面分析可以看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小： dmax=floor(pagesize/(keysize+datasize+pointsize))dmax=floor(pagesize/(keysize+datasize+pointsize)) floor表示向下取整。由于B+Tree内节点去掉了data域，因此可以拥有更大的出度，拥有更好的性能。这一章从理论角度讨论了与索引相关的数据结构与算法问题，下一章将讨论B+Tree是如何具体实现为MySQL中索引，同时将结合MyISAM和InnDB存储引擎介绍非聚集索引和聚集索引两种不同的索引实现形式。 MySQL索引实现在MySQL中，索引属于存储引擎级别的概念，不同存储引擎对索引的实现方式是不同的，本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式。 MyISAM索引实现 MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。下图是MyISAM索引的原理图：图8 这里设表一共有三列，假设我们以Col1为主键，则图8是一个MyISAM表的主索引（Primary key）示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中，主索引和辅助索引（Secondary key）在结构上没有任何区别，只是主索引要求key是唯一的，而辅助索引的key可以重复。如果我们在Col2上建立一个辅助索引，则此索引的结构如下图所示：图9 同样也是一颗B+Tree，data域保存数据记录的地址。因此，MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，则取出其data域的值，然后以data域的值为地址，读取相应数据记录。 MyISAM的索引方式也叫做“非聚集”的，之所以这么称呼是为了与InnoDB的聚集索引区分。 InnoDB索引实现虽然InnoDB也使用B+Tree作为索引结构，但具体实现方式却与MyISAM截然不同。第一个重大区别是InnoDB的数据文件本身就是索引文件。从上文知道，MyISAM索引文件和数据文件是分离的，索引文件仅保存数据记录的地址。而在InnoDB中，表数据文件本身就是按B+Tree组织的一个索引结构，这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键，因此InnoDB表数据文件本身就是主索引。图10 图10是InnoDB主索引（同时也是数据文件）的示意图，可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。第二个与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说，InnoDB的所有辅助索引都引用主键作为data域。例如，图11为定义在Col3上的一个辅助索引：图11 这里以英文字符的ASCII码作为比较准则。聚集索引这种实现方式使得按主键的搜索十分高效，但是辅助索引搜索需要检索两遍索引：首先检索辅助索引获得主键，然后用主键到主索引中检索获得记录。了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助，例如知道了InnoDB的索引实现后，就很容易明白为什么不建议使用过长的字段作为主键，因为所有辅助索引都引用主索引，过长的主索引会令辅助索引变得过大。再例如，用非单调的字段作为主键在InnoDB中不是个好主意，因为InnoDB数据文件本身是一颗B+Tree，非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整，十分低效，而使用自增字段作为主键则是一个很好的选择。下一章将具体讨论这些与索引有关的优化策略。两种引擎索引的比较： B-/+Tree索引的性能优势：一般使用磁盘I/O次数评价索引优劣。 1.结合操作系统存储结构优化处理： mysql巧妙运用操作系统存储结构(一个节点分配到一个存储页中->尽量减少IO次数) & 磁盘预读(缓存预读->加速预读马上要用到的数据). 2.B+Tree 单个节点能放多个子节点，相同IO次数，检索出更多信息。 3.B+TREE 只在叶子节点存储数据 & 所有叶子结点包含一个链指针 & 其他内层非叶子节点只存储索引数据。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。详解：Mysql设计利用了磁盘预读原理，将一个B+Tree节点大小设为一个页大小，在新建节点时直接申请一个页的空间，这样就能保证一个节点物理上存储在一个页里，加之计算机存储分配都是按页对齐的，这样就实现了每个Node节点只需要一次I/O操作。 B-Tree索引、B+Tree索引：单个节点能放多个子节点，查询IO次数相同(mysql查询IO次数最多3-5次-所以需要每个节点需要存储很多数据) B+TREE 只在叶子节点存储数据 & 所有叶子结点包含一个链指针 & 其他内层非叶子节点只存储索引数据。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。 B+Tree更适合外存索引，原因和内节点出度d有关。从上面分析可以看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小： B+Tree内节点去掉了data域，因此可以拥有更大的出度，拥有更好的性能。只利用索引快速定位数据索引范围，先定位索引再通过索引高效快速定位数据。 dmax=floor(pagesize/(keysize+datasize+pointsize)) Mysql 索引底层实现-MyISAM & InnoDB 聚簇索引：索引和数据文件为同一个文件。非聚簇索引：索引和数据文件分开的索引。 MyISAM & InnoDB 都使用B+Tree索引结构。但是底层索引存储不同，MyISAM 采用非聚簇索引，而InnoDB采用聚簇索引。 MyISAM索引原理：采用非聚簇索引-MyISAM myi索引文件和myd数据文件分离，索引文件仅保存数据记录的指针地址。叶子节点data域存储指向数据记录的指针地址。(底层存储结构： frm -表定义、 myi -myisam索引、 myd-myisam数据) MyISAM索引按照B+Tree搜索，如果指定的Key存在，则取出其data域的值，然后以data域值-数据指针地址去读取相应数据记录。辅助索引和主索引在结构上没有任何区别，只是主索引要求key是唯一的，而辅助索引的key可以重复。MyISAM索引树如下： InnoDB优势：高扩展性，充分发挥硬件性能、Crash Safe、支持事务、可以在线热备份 InnoDB特性： 1.事务支持（ACID）2. 扩展性优良 3. 读写不冲突 4. 缓存加速 2. 功能组件: redo/undo & 异步IO & MVCC & 行级别锁 & Page Cache（LRU） InnoDB物理存储结构如下图： InnoDB表空间管理 InnoDB物理存储文件结构说明： InnoDB以表空间Tablespace(idb文件)结构进行组织，每个Tablespace 包含多个Segment段，每个段(分为2种段：叶子节点Segment&非叶子节点Segment), 一个Segment段包含多个Extent，一个Extent占用1M空间包含64个Page（每个Page 16k），InnoDB B-Tree 一个逻辑节点就分配一个物理Page,一个节点一次IO操作。,一个Page里包含很多有序数据Row行数据，Row行数据中包含Filed属性数据等信息。 • 表空间(ibd文件) • 段(一个索引2段：叶子节点Segment & 非叶子节点Segment） • Extent（1MB）：一个Extent(1M) 包含64个 Page(16k),一个Page里包含很多有序行数据 , InnoDB B-Tree 一个逻辑节点就分配一个物理Page,一个节点一次IO操作。 • Page(16KB) • Row • Field 表插入数据扩展原理：一次扩张一个Extent空间（1M），64个Page,按照顺序结构向每个page中插入顺序。 InnoDB逻辑组织结构： InnoDB索引树结构每个索引一个B+树，一个B+树节点 = 一个物理Page（16K） • 数据按16KB切片为Page 并编号，编号可映射到物理文件偏移(16K * N）， B+树叶子节点前后形成双向链表，数据按主键索引聚簇，二级索引叶节点存储主键值，通过叶节点主键值回表查找数据。 InnoDB索引原理：采用聚簇索引- InnoDB数据&索引文件为一个idb文件，表数据文件本身就是主索引，相邻的索引临近存储。叶节点data域保存了完整的数据记录(数据[除主键id外其他列data]+主索引[索引key:表主键id])。叶子节点直接存储数据记录，以主键id为key,叶子节点中直接存储数据记录。(底层存储结构:frm -表定义、 ibd: innoDB数据&索引文件) 注：由于InnoDB采用聚簇索引结构存储，索引InnoDB的数据文件需要按照主键聚集，因此InnoDB要求表必须有主键(MyISAM可以没有)。如果没有指定mysql会自动选择一个可以唯一表示数据记录的列作为主键，如果不存在这样的列，mysql自动为InnoDB表生成一个隐含字段(6个字节长整型)作为主键。 InnoDB的所有辅助索引都引用数据记录的主键作为data域。聚簇索引这种实现方式使得按主键的搜索十分高效，但是辅助索引搜索需要检索两遍索引：首先检索辅助索引获得数据记录主键，然后用主键到主索引中检索获得数据记录。InnoDB聚簇索引结构：索引查找流程： #1.索引精确查找: 确定定位条件, 找到根节点Page No, 根节点读到内存, 逐层向下查找, 读取叶子节点Page,通过二分查找找到记录或未命中。（select * from user_info where id = 23） #2.索引范围查找：读取根节点至内存, 确定索引定位条件id=18, 找到满足条件第一个叶节点 , 顺序扫描所有结果, 直到终止条件满足id >=22 （select * from user_info where id >= 18 and id < 22） #3.全表扫描：直接读取叶节点头结点，顺序扫描，返回符合条件记录，到最终节点结束（select * from user_info where name = 'abc'） #4.二级索引查找 Create table table_x(int id primary key, varchar(64) name,key sec_index(name) ) • Select * from table_x where name = “d”; 通过二级索引查出对应主键，拿主键回表查主键索引得到数据，二级索引可筛选掉大量无效记录，提高效率

2021-07-09

从零开始学习3D可视化之爆炸图

说到爆炸图你第一时间想到的是什么？是这样吗？不不不，爆炸图现在一般指立体装配图，有了爆炸图工程技术人员在绘制立体装配示意图时就显得轻松多了，不仅提高了工作效率还减少了工作的强度。如今这项功能不仅仅是用在工业产品的装配使用说明中，而且还越来越广泛的应用到机械制造中，使加工操作人员可以一目了然，而不再像以前一样看清楚个装配图也要花上半天的时间。如何能更简洁地表述产品装配关系？能够让所有人一秒看懂产品各零部件之间的关系？ThingJS的爆炸图功能帮你快速解决这一问题！你只需花费很短的时间，就能学会这个功能！闲话少说，下面就为大家介绍如何利用ThingJS来快速制作爆炸图效果，快来看看吧！一个物体模型要做爆炸图，可以在3dmax建模时根据爆炸图拆分需要，定义并命名各子对象（或叫子模型、子节点）。这些子对象在ThingJS在线开发中可作为模型子节点来控制，这些子节点可像单独模型对象物体一样进行移动、添加事件等操作。要注意两点： 1.出于互动模型性能考虑，要求在模型上传前做塌陷。经塌陷的模型不会再有子节点保留（融合掉细节，故性能较高）。因此只有确有类似上述分项控制模型局部要求的模型才应该保留子对象信息（不做塌陷），虽然这样模型性能较差，但确实是特殊需要。 2. 拆分后模型子节点如果有多材质或点数超过上限在在线开发中会进行拆分，例如：3dmax命名一个子节点名字为“box”，由于该子节点使用了多种材质，该子节点在在线开发中会被命名成组，组内会被拆分并命名为“box_0”，“box_1”等对象。爆炸图完整代码如下： // 加载场景代码 var app = new THING.App({ url: '/api/scene/406e419fae9000a47a4a8899' }); // 发电机模型节点数据 var nodeObjData = { '1': { name: '机座', offset: [0, 0, -1] }, '2': { name: '保护装置', offset: [0, -1, 0] }, '3': { name: '电瓶', offset: [0, -1, 0] }, '4': { name: '排气口', offset: [0, 0, 1] }, '5_0': { name: '过滤器', offset: [0, 0, 1] }, '5_1': { name: '过滤网', offset: [0.5, 0, 1] }, '6': { name: '供给装置', offset: [0, 0, 1] }, '7': { name: '烟囱', offset: [-1, 0, 0] }, '8': { name: '发电机' }, '9': { name: '控制器', offset: [0, 1, 0] } } var nodeJsonData = null; // 发电机模型节点对象 var generatorObj = null; // 发电机对象 var expandState = false; // 发电机展开状态 var expandCount = 0; // 发电机展开次数 // 场景加载完成后执行 app.on('load', function (ev) { generatorObj = app.query('#generator')[0]; // 查询发电机对象 nodeJsonData = getNode(generatorObj); // 获取发电机模型节点对象 // 创建测试按钮 new THING.widget.Button('展开', expandObj); new THING.widget.Button('还原', unexpandObj); new THING.widget.Button('顶牌显示', createAllPanel); new THING.widget.Button('顶牌隐藏', hiddenAllPanel); // 设置摄像机位置和目标点 app.camera.position = [8.607320990228896, 4.659529165486485, 2.463883920016444]; app.camera.target = [5.457047915958038, 2.0011500043525103, -3.0191956945367244]; }) /** * 显示所有顶牌 */ function createAllPanel() { for (let key in nodeObjData) { nodeJsonData[key].name = nodeObjData[key].name; createPanel(nodeJsonData[key]); } } /** * 隐藏所有顶牌 */ function hiddenAllPanel() { for (let key in nodeObjData) { hiddenPanel(nodeJsonData[key]); } } /** * 展开物体 */ function expandObj() { // 防止发电机在执行一次展开过程中多次点击 if (expandState) { return; } expandState = true; expandCount++; for (let key in nodeObjData) { // 各子节点进行偏移 objOffset(nodeJsonData[key], nodeObjData[key].offset); } } /** * 还原物体 */ function unexpandObj() { // 展开次数为0，代表未展开 if (expandCount == 0) return; for (let key in nodeObjData) { if (nodeObjData[key].offset) { // 计算还原时子节点需要进行的偏移量，数值为 -1 * 展开次数 * nodeObjData中定义的该子节点对应的偏移量 let offsetValue = [-1 * expandCount * nodeObjData[key].offset[0], -1 * expandCount * nodeObjData[key].offset[1], -1 * expandCount * nodeObjData[key].offset[2]] objOffset(nodeJsonData[key], offsetValue); } } expandCount = 0; } /** * 获取节点对象 */ function getNode(obj) { let nodeJson = {}; // obj.subNodes 即可获取到一个物体的所有子节点 for (let i = 0; i < obj.subNodes.length; i++) { let subnode = obj.subNodes[i]; // 获取物体子节点对象中node属性的type值，只有当type值为Mesh时，才能对物体添加事件 let type = subnode.node.type; if (type == 'Mesh') { nodeJson[subnode.name] = subnode; } } return nodeJson; } /** * 物体偏移 */ function objOffset(obj, value) { if (!value) return; // 物体移动 obj.moveTo({ offsetPosition: value, // 自身坐标系下的相对位置 time: 500, // 移动完成需要的时间 complete: function () { expandState = false; } }); } /** * 创建面板 */ function createPanel(obj) { // 判断是否已经创建过面板，如果已创建，显示，否则创建面板 var panel = obj.getAttribute('panel'); if (panel != null) { panel.visible = true; return; } // 创建panel panel = new THING.widget.Panel({ width: '100px', // 设置面板宽度 cornerType: 'polyline' // 没有角标 none ，没有线的角标 noline ，折线角标 polyline }) panel.addString(obj, 'name').caption(''); // 绑定物体身上相应的属性数据 // 创建UIAnchor面板 var uiAnchor = app.create({ type: 'UIAnchor', // 类型 parent: obj, // 设置父物体 element: panel.domElement, // 要绑定的dom元素对象 localPosition: [0, 0, 0], // 设置 localPosition 为 [0, 0, 0] pivotPixel: [-16, 109] // 相对于面板左上角的偏移像素值，当前用值是角标的中心点 }); // 更改面板文本样式 $('.ThingJS_wrap .main .ThingJS_UI .ThingJS_string-value').css('text-align', 'center'); obj.setAttribute('panel', uiAnchor); } /** * 隐藏面板 */ function hiddenPanel(obj) { var panel = obj.getAttribute('panel'); if (panel != null) { panel.visible = false; // 设置面板隐藏 } } 爆炸图现在作为分析图中最有效的一种，在工业设计、产品设计、建筑设计中是非常重要的一环，而在ThingJS平台制作产品爆炸图3D可视化可观看每个部件细节，自主操控，展开、还原、显示顶牌等，相比传统2D爆炸图更加直观高效！

2021-06-17

开源公告｜微信云端深度学习推理框架 WeChat TFCC 开源啦！

WeChat TFCC 是微信技术架构部后台团队研发的服务端深度学习通用推理框架，也是腾讯深度学习与加速Oteam云帆的开源协同成果，具有高性能、易用、通用的特点，已在微信视频号、微信开放平台推荐系统、

2021-06-02

优达学城深度学习之三（下）——卷积神经网络

这个概念在很多领域都非常流行，包括机器学习领域。

2021-06-01

时序数据库Influx-IOx源码学习九（写入总结）

InfluxDB是一个由InfluxData开发的开源时序数据库，专注于海量时序数据的高性能读、写、高效存储与实时分析等，在DB-Engines Ranking时序型数据库排行榜上常年排名第一。 InfluxDB可以说是当之无愧的佼佼者，但 InfluxDB CTO Paul 在 2020/12/10 号在博客中发表一篇名为：Announcing InfluxDB IOx – The Future Core of InfluxDB Built with Rust and Arrow的文章，介绍了一个新项目 InfluxDB IOx，InfluxDB 的下一代时序引擎。接下来，我将连载对于InfluxDB IOx的源码解析过程，欢迎各位批评指正，联系方式见文章末尾。上一章介绍了Chunk是怎样被写入到持久化设备中的，详情见： https://my.oschina.net/u/3374539/blog/5031456 这一章主要总结一下所有的代码思路，希望能够更直观的还原IOx的执行，以及执行过程中的各种数据格式。我们知道写入是由客户端发起的(在第六章中有客户端写入数据的示例)，服务器使用一个Grpc的协议接收客户端数据。这是第一次入口点，数据格式是LP,类似这样: myMeasurement,tag1=value1,tag2=value2 fieldKey="123" 1556813561098000000 数据接收到之后就会转换为一个ParsedLine结构，根据输入的数据库名、表名、时间及数据，预先对数据进行shard及partition的分配，使用一个多级的BtreeMap结构进行存储。如图：之后会再根据这个数据结构进行遍历，生成为flatbuffers的数据结构(转换为这个格式是为了传输效率及收到方的高效使用)，并行对各个shard进行数据写入。根据shardId可以获取到配置的机器组中各个节点的Ip地址，然后根据配置的写入节点数，进行顺序的一个节点一个节点的写入。 PS：这里比较拗口，就是shard和shard之间是并行写的，但是shard中的每个节点是串行写入的。这时候远程服务器，就会收到这个flatbuffers结构的数据，收到之后的第一任务就是写入Write Buffer（这里的Write Buffer相当于其他数据库的WAL，但是不同的是功能要更多一些，可以做一些排序等额外的工作，就相当于一个写缓冲）。在排序和写入WAL之后，就开始写入到MutBuffer中了，整体的存储结构如图所示。到了MbChunk之后，做了一次字典压缩，把field、tag等等的字符串都转为了id，然后使用列式存储，一列一列的存储下来。如图：之后数据会被移动到readbuffer当中，变为不可写的数据。在readbuffer中数据结构是arrow格式的：这里出现了两个metadata，第一个是表级别的，第二个是小块级别的，因为在写入过程中，有可能第一个chunk和第二个chunk的列不一样多，这样就在表级别存了一个最全的metadata。到这里基本上这章就可以结束了，最后附一张pauldix的关于写入及异步模型图：祝各位玩儿的开心。欢迎关注微信公众号：或添加微信好友： liutaohua001

2021-04-26

精选列表