Apache Doris(incubating)0.11.0 版本正式发布
经历了三个多月的研发,Apache Doris(incubating) 0.11.0版本今天正式发布了。这是Doris进入Apache社区孵化以来第三个正式版本。
Doris功能、性能在0.11.0版本都有极大的提升,总计有29名社区同学贡献了382个commit。Doris的contributor数目也增长到了57名。
在过去的一个月,外部同学的代码提交量已经达到了主创团队代码提交量的一半。同时也迎来了Doris第一个海外用户Shopee。
引擎重构
本次版本最大的改进就是重构了存储引擎。通过重构存储引擎工作,引擎的代码框架变得更加清晰,之前版本很多的Corner Case也在本版本修复。除此外,通过本次的引擎重构,代码的可读性、扩展性都得到了极大的提升。也正是基于此次工作,正在优化存储结构,预计在0.12版本中,能够支持字符串字典压缩,压缩比比现在提升1倍左右。以及在未来的版本中增加倒排索引等工作。
Bitmap类型支持
在这个版本中,Doris支持了Bitmap类型,用户如果有精确去重的需求可以通过使用这种类型来实现。用户可以在聚合模型下创建Bitmap类型的value列,然后向这个字段导入数据时,Doris内部会将所有导入的数据求并呈现为一个Bitmap。当用户进行查询的时候能够对这个字段进行union、count等计算,从而能够达到精确去重的功能。
这个功能是由美团的@kangkaisen(github.com/kangkaisen)同学贡献,在美团内部,性能已经达到可上线标准。
文档工作
文档一直被用户所抱怨,在这个版本中,重构了文档结构,将之前需要写多份的文档变成“书写一次,多次应用”。这样能够保证无论是用户从官网上看到的,以及用户通过help查看到的文档内容都是一致的。同时也在不断的增加文档内容。此外,还增加了我们的英文文档内容,当前大部分英文文档内容是通过翻译软件获得。
用户可以从Doris官网(doris.apache.org/)获得文档的内容。
导入优化
parquet
通过社区同学们的努力,Doris现在能够直接导入Parquet格式的数据内容了。
识别分区列
同时也能够从导入文件路径中获得对应的列信息,这样能够更好的兼容Hadoop/Spark生态,让用户能够更加方便的导入数据。
指定过滤条件
用户可以在导入的时候指定过滤条件。通过这个机制,用户能够在数据导入到Doris前,完成对数据的抽取功能,将不需要的数据过滤掉,是的用户在导入数据的时候能够更加灵活地进行数据导入。
时区支持
在这个版本中,京东的同学@HangyuanLiu(github.com/HangyuanLiu)为Doris支持了时区功能。现在用户无论导入、查询都能够设定时区来完成时间数据的相关转化。
除了上述所列功能外,还有很多其他功能、性能方面的修复。用户可以访问这里(github.com/apache/incubator-doris/issues/1891)来获取所有相关改进。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Mars-java 3.0.0 发布,面向声明式 API 编程(DAP)的框架
本次更新带来了两个变动 面向声明式API编程(DAP) 单元测试改动 单元测试 取消了抽象方法before,而采用了注解的方式,在单测类上加上MarsTest注解即可 面向声明式API编程(DAP) 按照传统的开发方式,如果要开发一个后端接口,需要分为以下三步 创建controller 创建service 创建dao(甚至会创建存放sql的xml) 但是,我们编写一个接口,重点应该是放在业务逻辑上的,也就是说 我们的关注点应该在第二步,但是通常第一步和第三步的重复工作量让我们感到窒息,所以我梳理了一下,制定了一个新玩法,这套新玩法就叫声明式API 写业务逻辑 声明一个API给前端 将API与业务逻辑关联 所以我们是这样玩的 编写业务逻辑 @MarsBean("testService") public class TestService { 要返回的数据类型 selectListForName(TestDTO testDTO){ // 第一步 根据testDTO里的参数从xx表查询需要的数据 // 第二步 根据查出来的数据,去操作xx2表 // 第三步 对前两步的结果汇...
- 下一篇
spider-flow 0.1.0 发布,Java 开源爬虫平台
历时三个多月,第一个正式版发布 spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 现已有特性如下: 支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取 支持多数据源、SQL select/insert/update/delete/批量插入 支持爬取JS动态渲染的页面 支持代理 支持二进制格式、二进制流格式 支持保存/读取文件(csv、xls、jpg等) 常用字符串、日期、文件、加解密等函数 支持流程嵌套 支持插件扩展(自定义执行器,自定义函数) 支持HTTP接口 已有插件如下: selenium 插件 redis 插件 mongodb 插件 IP代理池 插件 OCR 识别插件 OSS 插件 电子邮箱 插件 部分截图:
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,CentOS7官方镜像安装Oracle11G
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境