兼容 Presto、Trino、ClickHouse、Hive 近 10 种 SQL 方言,Doris SQL Convertor 功能解读及实操演示
随着版本迭代,Apache Doris 一直在拓展应用场景边界,从典型的实时报表、交互式 Ad-hoc 分析等 OLAP 场景到湖仓一体、高并发数据服务、日志检索分析及批量数据处理,越来越多用户与企业开始将 Apache Doris 作为统一的数据分析产品,以解决多组件带来的数据冗余、架构复杂、分析时效性低、运维难度大等问题。
然而在架构统一和升级的过程中,由于部分大数据分析系统有自己的 SQL 方言、需要对 SQL 语法进行一定程度的修改,另外由于大量原有系统的 SQL 与业务逻辑相关联,需要进行大量业务逻辑的改造,这不可避免地增加了额外迁移成本。
为了帮助企业有效应对这些挑战,Apache Doris 2.1 版本提供了 SQL 方言兼容与转换方案—— Doris SQL Convertor,兼容了包括 Presto、Trino、Hive、ClickHouse、PostgreSQL 等在内多种 SQL 语法。 用户可以在 Doris 中直接使用相应系统的 SQL 语法执行查询,也可以在可视化界面对原有的 SQL 语句进行批量转换。通过 Doris SQL Convertor,能够有效减轻用户业务迁移成本,提供更加顺畅地业务迁移体验。
核心特性
01 无缝切换,高度兼容多种 SQL 方言
无需手动对原有系统的 SQL 方言进行改写,用户仅需要在 Apache Doris 会话变量中设置 set sql_dialect= XXX,即可直接在 Doris 中执行该 SQL 语法的查询。
我们在实际客户场景中进行了大量兼容性测试,以 ClickHouse 和 Presto 方言为例。在某些社区用户的实际线上业务 SQL 兼容性测试中,Doris SQL Convertor 在全部 3 万多条查询语句中,与 Presto SQL 兼容度高达 99.6% ,与 ClickHouse 方言兼容度高达 98%。 目前,Doris SQL Convertor 已支持了多种主流 SQL 方言,包括 Presto、Trino、Hive、ClickHouse、PostgreSQL 等。后续我们也将继续收集用户的反馈,在持续优化多种语法兼容性的同时,支持如 Teradata 、SQL Server、Snowflake 等更多方言,以满足用户更多样化的业务需求。
02 简单易用,支持一键批量生成
除了直接在命令行中执行查询 SQL 以外,我们还提供了可视化界面,支持文本输入和文件上传两种模式。对于单个 SQL,用户可以直接在 Web 界面中进行文本输入。如若存量 SQL 规模庞大,可以通过上传文件进行多个 SQL 的一键批量转换。
安装部署与使用介绍
01 服务部署与使用
1. 下载最新版本的 SQL 方言转换工具。
2.在任意 FE 节点,通过以下命令启动服务。
- 该服务是一个无状态的服务,可随时启停;
- 该命令中的
port=5001
是服务端口,可以指定为任意一个可用端口。 - 建议在每个 FE 节点都单独启动一个服务。
nohup ./doris-sql-convertor-1.0.1-bin-x86 run --host=0.0.0.0 --port=5001 &
3.启动 Doris 集群,版本需为 Doris 2.1 或更高
4.在 Doris 中设置 SQL 方言转换服务的 URL。该命令中127.0.0.1:5001
是 SQL 方言转换服务的部署节点 IP 和端口。
MySQL> set global sql_converter_service_url = "http://127.0.0.1:5001/api/v1/convert"
在完成服务部署后,我们可以直接在命令行中执行 SQL,在此以 Presto 与 Clickhouse SQL 方言为例。在会话变量中设置set sql_dialect = ``XXX
即可开启服务,执行示例如下:
Presto
mysql> set sql_dialect=presto; Query OK, 0 rows affected (0.00 sec) mysql> SELECT cast(start_time as varchar(20)) as col1, array_distinct(arr_int) as col2, FILTER(arr_str, x -> x LIKE '%World%') as col3, to_date(value,'%Y-%m-%d') as col4, YEAR(start_time) as col5, date_add('month', 1, start_time) as col6, REGEXP_EXTRACT_ALL(value, '-.') as col7, JSON_EXTRACT('{"id": "33"}', '$.id')as col8, element_at(arr_int, 1) as col9, date_trunc('day',start_time) as col10 FROM test_sqlconvert where date_trunc('day',start_time)= DATE'2024-05-20' order by id; +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ | col1 | col2 | col3 | col4 | col5 | col6 | col7 | col8 | col9 | col10 | +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ | 2024-05-20 13:14:52 | [1, 2, 3] | ["World"] | 2024-01-14 | 2024 | 2024-06-20 13:14:52 | ['-0','-1'] | "33" | 1 | 2024-05-20 00:00:00 | +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ 1 row in set (0.03 sec)
ClickHouse
mysql> set sql_dialect=clickhouse; Query OK, 0 rows affected (0.00 sec) mysql> select toString(start_time) as col1, arrayCompact(arr_int) as col2, arrayFilter(x -> x like '%World%',arr_str)as col3, toDate(value) as col4, toYear(start_time)as col5, addMonths(start_time, 1)as col6, extractAll(value, '-.')as col7, JSONExtractString('{"id": "33"}' , 'id')as col8, arrayElement(arr_int, 1) as col9, date_trunc('day',start_time) as col10 FROM test_sqlconvert where date_trunc('day',start_time)= '2024-05-20 00:00:00' order by id; +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ | col1 | col2 | col3 | col4 | col5 | col6 | col7 | col8 | col9 | col10 | +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ | 2024-05-20 13:14:52 | [1, 2, 3] | ["World"] | 2024-01-14 | 2024 | 2024-06-20 13:14:52 | ['-0','-1'] | "33" | 1 | 2024-05-20 00:00:00 | +---------------------+-----------+-----------+------------+------+---------------------+-------------+------+------+---------------------+ 1 row in set (0.02 sec)
02 可视化界面部署与使用
针对大规模历史业务逻辑转换的需求,推荐使用可视化界面,通过文件批量上传完成方言转换。
可视化界面的部署过程如下:
-
环境要求: docker 、docker-compose
-
获取 Doris-SQL-Convertor Docker 镜像包(文末附获取 Docker 镜像包方式)
-
创建镜像网络
docker network create app_network
-
解压安装包
tar xzvf doris-sql-convertor-1.0.1.tar.gz cd doris-sql-convertor
-
编辑环境变量 vim .env
FLASK_APP=server/app.py FLASK_DEBUG=1 API_HOST=http://doris-sql-convertor-api:5000 # DOCKER TAG API_TAG=latest WEB_TAG=latest
-
启动
sh start.sh
在部署完成后,可以在本地浏览器中通过 ip:8080
访问。当前默认端口为 8080,可以修改映射端口。在界面中,可直接选择来源方言,输入需要转换的 SQL 方言,并点击 Convert 实现转换。
提示:
- 进行批量转换时每条 SQL 需要以
;
结束- 最多支持 239 个 UNION ALL 转换
结束语
作为一款强大而易用的 SQL 方言转换工具,Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。无论是平滑无痕的方言转换,还是复杂的批量 SQL 处理任务,Doris SQL Convertor 都能够提供快速而稳定的转换体验,确保转化过程中的完整性与准确性。
未来,我们将不断扩展支持更多的 SQL 方言并持续提高 SQL 方言的兼容性,以满足不断变化的迁移需求。欢迎大家前往 Doris 问答论坛 反馈使用过程中的问题与建议。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
源码解析丨一次慢SQL排查
当long_query_time=1时(表info的id为主键),出现下面的慢日志,可能会让你吃惊 # Time: 2024-01-28T22:52:24.500491+08:00 # User@Host: root[root] @ [127.0.0.1] Id: 8 # Query_time: 7.760787 Lock_time: 7.757456 Rows_sent: 0 Rows_examined: 0 use apple; SET timestamp=1706453536; delete from info where id < 10; 环境信息 配置 参数 ip 172.17.137.12 hostname dev memory 16G cpu 8C MySQL version GreatSQL 8.0.26 慢查询相关参数 greatsql> select * from performance_schema.global_variables where variable_name in('slow_query_log','log_output','slow_q...
- 下一篇
数据本地性如何助力企业在云上实现高效机器学习
分享嘉宾: Lu Qiu, Shawn Sun 本文将讨论数据本地性对于在云上进行高效机器学习的重要性。首先对比现有解决方案的利弊,并综合考虑如何通过数据本地性来降低成本和实现性能最大化。其次会介绍新一代的Alluxio设计与实现,详细说明其在模型训练和部署中的价值。最后会分享从基准测试和实际案例研究中得出的结论。 一、为什么需要数据本地性 数据本地性指的是让计算任务靠近需要访问的数据,在云环境中优化数据本地性主要带来两大益处 ——提升性能和降低成本。 1.1 提升性能 将数据存放在计算引擎附近时,数据访问速度要比从远端存储访问快的多。这对于数据密集型应用(如机器学习和AI任务)的影响尤为重大。数据本地性会减少数据传输时间,进而缩短完成任务所需的总时间。 具体的性能收益包括与远端存储相比,数据访问速度更快; 以及在诸如机器学习和AI等数据密集型应用上的耗时更少。通过就近存放并访问所需数据,减少了数据移动上的耗时,可将更多的时间用于高效计算。 1.2 节约成本 数据本地性除了能帮助更快地完成任务外,也降低了云环境成本。 让计算引擎靠近数据存储,可减少与外部云存储服务之间通过API调用(L...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路