Elastic Stack 实现地理空间数据采集与可视化分析
随着人类在不断地探索空间,地理空间数据越来越多。 收集信息的速度以及提供位置信息的来源正在迅速增长。政府和商业卫星继续扩张。与GPS一起,它们提供了一系列不同的空间丰富的数据源,包括天气和温度模式,土地使用,土壤化学,减灾和响应,电信等。
移动设备和底层网络将人员,汽车,卡车和大量踏板车变成了位置信息的来源。计算机网络将位置信息嵌入IP地址元数据中,这可以帮助IT管理员在分布式基础架构中为用户提供支持,或者帮助执法部门以及我们的网络运营商找到并阻止坏人。所有这些数据都是令人兴奋的,它激发了每个人内部的创造力来利用它。提出新的问题,构思新的想法,并建立新的期望。这些新事物不容易解决。他们需要以不同格式存储的数据或跨非空间维度(如主题标签或网络域)的相关性存储的数据。尽管专家长期以来拥有执行复杂的地理空间分析的工具,但这些工具并不总是能够完成非传统来源的混合或处理当今数据集规模的任务。现在事情变得更加复杂。Elastic Stack 是一个高效的存储,分析及搜索软件栈。Elastic Stack 正在积极地推动这一进程。为我们提供更多的数据,更多的用途和更多的利益。
准备工作:
我将使用 opensky network API 来获取飞机的飞行信息,并使用 Kibana 来对数据进行展示。
1、开通阿里云 Elasticsearch 1核2G ,免费测试环境
2、开通阿里云 Logstash 2核4G ,免费测试环境
我们通过阿里云控制台,进入 阿里云 kibana
Logstash 配置文件
在这个展示中,我们将使用 Logstash 定期地去 opensky network 网站上去抓取数据,并导入到 Elasticsearch 中。Logstash 的配置文件如下:
fligths_logstash.conf
input { http_poller { codec => "json" schedule => { every => "15s" } urls => { url => "https://opensky-network.org/api/states/all" } } } filter { split { field => "states" add_field => { "icao" => "%{[states][0]}" "callsign" => "%{[states][1]}" "origin_country" => "%{[states][2]}" "time_position" => "%{[states][3]}" "last_contact" => "%{[states][4]}" "location" => "%{[states][6]},%{[states][5]}" "baro_altitude" => "%{[states][7]}" "on_ground" => "%{[states][8]}" "velocity" => "%{[states][9]}" "true_track" => "%{[states][10]}" "vertical_rate" => "%{[states][11]}" "geo_altitude" => "%{[states][13]}" "squawk" => "%{[states][14]}" "spi" => "%{[states][15]}" "position_source" => "%{[states][16]}" } } mutate { strip => ["callsign"] rename => { "time" => "request_time" } remove_field => ["states", "@version"] } translate { field => "[position_source]" destination => "position_source" override => "true" dictionary => { "0" => "ADS-B" "1" => "ASTERIX" "2" => "MLAB" } } if [time_position] =~ /^%{*/ { drop { } } if [callsign] =~ /^%{*/ { mutate { remove_field => ["callsign"] } } if [location] =~ /^%{*/ { mutate { remove_field => ["location"] } } if [baro_altitude] =~ /^%{*/ { mutate { remove_field => ["baro_altitude"] } } if [velocity] =~ /^%{*/ { mutate { remove_field => ["velocity"] } } if [true_track] =~ /^%{*/ { mutate { remove_field => ["true_track"] } } if [vertical_rate] =~ /^%{*/ { mutate { remove_field => ["vertical_rate"] } } if [sensors] =~ /^%{*/ { mutate { remove_field => ["sensors"] } } if [geo_altitude] =~ /^%{*/ { mutate { remove_field => ["geo_altitude"] } } if [squawk] =~ /^%{*/ { mutate { remove_field => ["squawk"] } } mutate { convert => { "baro_altitude" => "float" "geo_altitude" => "float" "last_contact" => "integer" "on_ground" => "boolean" "request_time" => "integer" "spi" => "boolean" "squawk" => "integer" "time_position" => "integer" "true_track" => "float" "velocity" => "float" "vertical_rate" => "float" } } } output { stdout { codec => rubydebug } elasticsearch { manage_template => "false" index => "flights" # pipeline => "flights_aircraft_enrichment" hosts => "localhost:9200" } }
从上面的 input 部分我们可以看出来:
input { http_poller { codec => "json" schedule => { every => "15s" } urls => { url => "https://opensky-network.org/api/states/all" } } }
这里,我们使用 http_poller 每隔15秒去抓一次数据.如果大家想知道这个 API https://opensky-network.org/api/states/all 的内容是什么,你可以直接在浏览器的地址栏中输入这个地址,你及可以看出来是什么样的格式的信息。你可以使用工具 http://jsonviewer.stack.hu/ 对这个 JSON 格式的返回信息进行格式化,以便更好地分析它里面的数据。这对在 filter 部分的各个过滤器的使用的理解是非常有帮助的。在 filter 的最后部分,我也对数据的类型进行了转换以便更好地在 Kibana 中进行分析。
为了能够使得我们的 flights 的数据类型和我们转换的数据类型进行很好的匹配,我们必须在 Kibana 中对这个索引定义好它的 mapping:
PUT flights { "mappings": { "properties": { "@timestamp": { "type": "date" }, "baro_altitude": { "type": "float" }, "callsign": { "type": "keyword" }, "geo_altitude": { "type": "float" }, "icao": { "type": "keyword" }, "last_contact": { "type": "long" }, "location": { "type": "geo_point" }, "on_ground": { "type": "boolean" }, "origin_country": { "type": "keyword" }, "position_source": { "type": "keyword" }, "request_time": { "type": "long" }, "spi": { "type": "boolean" }, "squawk": { "type": "long" }, "time_position": { "type": "long" }, "true_track": { "type": "float" }, "velocity": { "type": "float" }, "vertical_rate": { "type": "float" } } } }
在 Kibana 的 Dev Tools 中运行上面的指令,这样我们就创建好了 flights 索引的 mapping。
接下来,我就可以启动 通过阿里云 控制台,进入Logstash 了。
这时,我们可以在 console 中看到如下的输出:
它表明我们的 Logstash 正在工作。
我们接下来在 Kibana 中打入如下命令:
GET _cat/indices
我们可以看到文件大小不断增长的 flights 索引。它表明我们的数据正被导入到 Elasticsearch 中。
为了分析数据,我们必须创建一个 index pattern:
点击 Create index pattern:
点击 Next step:
点击上面的 Create index pattern。这样就完成了创建 Index pattern。
运用 Kibana 可视化
显示目前所有的正在飞行的飞机
我们接下来显示所有目前正在的飞行的飞机。打开 Kibana,并创建 Visualization:
点击上面的 Create new visualization:
选择 Maps:
点击 Add layer:
选择 Documents:
点击上面的 Add layer:
向下滚动:
我们选择飞机机场图标为固定的图标。选择速度为它的颜色,速度越快,颜色越深。
同时,我们绑定图标的方向为 true_track,这是飞机的飞行方向。同时飞机的高度越高,图标就越大。点击 Save & close 按钮:
同时设定每隔两秒整,抓取数据一次,这样我们就可以看到每个飞机的状态了。点击上面的 Apply:
点击上面的 Save 按钮,并取名为 v1。这样我们就创建了第一个 Visualization。
显示飞机过去7天的数据
和上面的显示一样,只不过这次,我们显示过去7天的数据,而不是最新的一个数据。
点击上面的 Save & close:
从上面,我们可以看到每架飞机的轨迹。
查看哪个国家的飞机航班多
找出各个地区的机场数目
点击 Create map:
我们看一下美国有时间上最多的机场。
我们可以发现从美国起飞的飞机是最多的,颜色最深。
声明:本文由原文作者“ Elastic 中国社区布道师——刘晓国”授权转载,对未经许可擅自使用者,保留追究其法律责任的权利。
出处链接:https://elasticstack.blog.csdn.net/.
【阿里云Elastic Stack】100%兼容开源ES,独有9大能力,提供免费 X-pack服务(单节点价值$6000)
相关活动
更多折扣活动,请访问阿里云 Elasticsearch 官网
阿里云 Elasticsearch 商业通用版,1核2G ,SSD 20G首月免费
阿里云 Logstash 2核4G首月免费

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Spark™ 3.0中全新的Structured Streaming UI
作者:Genmao Yu原文链接:https://databricks.com/blog/2020/07/29/a-look-at-the-new-structured-streaming-ui-in-apache-spark-3-0.html 编译:邵嘉阳,计算机科学与技术大三在读,Apache Spark 中文社区志愿者 在Apache Spark 2.0中,我们迎来了Structured Streaming——构建分布式流处理应用的最佳平台。统一的API(SQL,Dataset和DataFrame)以及Spark内置的大量函数为开发者实现复杂的需求提供了便利,比如流的聚合,流-流连接和窗口支持。开发者们普遍喜欢通过Spark Streaming中的DStream的方式来管理他们的流,那么类似的功能什么时候能在Structured Streaming中得到实现呢?这不,在Apache Spark 3.0中,全新的Structured Streaming可视化UI和开发者们见面了。 新的Structured Streaming UI会提供一些有用的信息和统计数据,以此来监视所有流作业...
- 下一篇
阿里云云原生数据湖分析DLA重磅发布-数据湖管理,助力企业一站式管理OSS数据湖存储数据
一、什么是数据湖方案 数据湖当前在国内外是比较热的方案,MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案,有效解决了业务痛点;还有很多企业在构建或者计划构建自己的数据湖,Gartner 2020年发布的报告显示目前已经有39%的用户在使用数据湖,34%的用户考虑在1年内使用数据湖。在构建自己的数据湖之前还是需要充分评估什么是数据湖、数据湖方案能够带来什么价值、如何快速构建数据湖。 1.1 什么是数据湖 Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件,包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。从上面可以总结出数据湖具有以下特性: 数据来源:原始数据、转换数据 数据类型:结构化数据、半结构化数据、非结构化数据、二进制 数据湖存储:可扩展...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker安装Oracle12C,快速搭建Oracle学习环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Linux系统CentOS6、CentOS7手动修改IP地址