顺序写入且不 <a href="http://www.baoding-soft.com/solution/softwa_昆山宝鼎软件有限公司|昆山软件开发|苏州软件开发|劳务派遣管理系统|劳务派遣信息管理系统|昆山软件定制开发|苏州软件定制开发

原文出处： MRRiddler

冥冥之中，打仗到了差异于干系数据库的NoSQL Key-Value存储引擎RocksDB，懵懵懂懂、布满好奇，google一点，满眼皆是LSM-Tree，头晕目眩、若即若离，便有了这篇文章，一起与各人分享这趟探险之旅。

LSM-Tree(Log-Structured-Merge-Tree)

LSM从定名上看，容易望文生义成一个详细的数据布局，一个tree。但LSM并不是一个详细的数据布局，也不是一个tree。LSM是一个数据布局的观念，是一个数据布局的设计思想。实际上，要是给LSM的定名断句，Log和Structured这两个词是归并在一起的，LSM-Tree应该断句成Log-Structured、Merge、Tree三个词汇，这三个词汇别离对应以下三点LSM的要害性质：

将数据形成Log-Structured：在将数据写入LSM内存布局之前，先记录log。这样LSM就可以将有易失性的内存看做永久性存储器。而且信任内存上的数据，比及内存容量到达threshold再集团写入磁盘。将数据形成Log-Structured，也是将整体存储布局转换成了“内存(in-memory)”存储布局。

将所有磁盘上数据不组织成一个整体索引布局，而组织成有序的文件集：因为磁盘随机读写比顺序读写慢3个数量级，LSM只管将磁盘读写转换成顺序读写。将磁盘上的数据组织成B树这样的一个整体索引布局，固然查找很高效，可是面临随机读写，由于大量寻道导致其机能不佳。而LSM用了一种很有趣的要领，将所有数据不组织成一个整体索引布局，而组织成有序的文件集。每次LSM面临磁盘写，将数据写入一个或几个新生成的文件，顺序写入且不能修改其他文件，这样就将随机读写转换成了顺序读写。LSM将一次性集团写入的文件作为一个level，磁盘上分别多level，level与level之间相互断绝。这就形成了，以写入数据时间线形成的逻辑上、而非物理上的层级布局，这也就是为什么LSM被定名为”tree“，但不是“tree”。

将数据按key排序，在归并差异file、level上的数据时雷同merge-join：假如一直保持生成新的文件，不只写入会造成冗余空间，并且也会大量低落读的机能。所以要高效的、周期性归并差异file、level。而假如数据是乱序的，基础做不到高效归并。所以LSM要将数据按key排序，在归并差异file、level上的数据时雷同merge-join。

很明明，LSM牺牲了一部门读的机能和增加了归并的开销，调换了高效的写机能。那LSM为什么要这么做？实际上，这就干系到对付磁盘写已经没有什么优化手段了，而对付磁盘读，岂论硬件照旧软件上都有优化的空间。通过多种优化后，读机能固然仍是下降，但可以节制在可接管范畴内。实际上，用于磁盘上的数据布局差异于用于内存上的数据布局，用于内存上的数据布局机能的瓶颈就在搜索巨大度，而用于磁盘上的数据布局机能的瓶颈在磁盘IO，甚至是磁盘IO的模式。

LSM连年来已被遍及利用起来，尚有将B家属树和LSM团结起来利用的，像HBase、SQLite4、MongoDB、Cassandra、LevelDB，尚有接下来的主角RocksDB，这些当家数据存储花旦，都或多或少支持、利用起LSM了。

RocksDB

RocksDB是Facebook在LevelDB基本上用C++写的Key-Value存储引擎。其Key和Value都是二进制流。并对闪存(flash)有更友好的优化。先来聊一聊RocksDB的整体布局，然后再聊一聊RocksDB中的一些有意思的抽象，最后聊一聊RocksDB内存上、磁盘上的详细布局。在RocksDB中，将内存布局中的数据写入磁盘布局叫做flush，而差异file、level之间merge叫做compaction。

Architecture

RocksDB如上文所说是基于LSM做存储。RocksDB在内存中的布局叫做memtable，用于形成Log-Structured的file叫做logfile，磁盘上的file布局叫做sstfile，用于记录对file变动的log叫做manifest。

Column-Family

为存储的数据逻辑分族，将差异family相互断绝，分隔设置、存储。column family共享logfile，而不共享memtable和sstfile，这使得column family有以下两点特点：

多个column family仍然能保持事务的原子性。

单独增加、修改、删除一个column family内的数据机能晋升。

Filter

RocksDB有一些奇思妙想的filter，这些filter按照特定条件生成，通过数据的key就可以判定数据是否确定或大概被特定条件解除去。有些filter可以用来对读优化，有些也可以用来打点数据的生命周期等。

Bloom-Filter

bloom filter就是一个能提高读机能的filter。通过算法可以生成一个key set对应的bloom filter。这个bloom filter可以判定出任意key大概存在可能必定不存在key set中。每个sstfile在生成的时候，城市建设一个或多个对应的bloom filter，当在读数据的时候，可以快速判定出数据是否大概在sstfile中。在做range scan和prefix查找的时候，bloom filter也能帮上忙。

Time-To-Live(TTL)

新闻资讯

MENU

顺序写入且不次来源：宝鼎软件时间：2018-02-22

新闻资讯

MENU

顺序写入且不 次 来源：宝鼎软件 时间：2018-02-22

顺序写入且不次来源：宝鼎软件时间：2018-02-22