22【在线日志分析】之项目第二阶段概述-低调大师

22【在线日志分析】之项目第二阶段概述

2017-03-30 664

主要对HDFS服务和Tomcat服务进行实时计算预警，故要做以下加强功能:
1. 改造 CDH/Apache hadoop的hdfs的nn,dn进程的日志输出格式,每一条改为json格式输出 (之前每一条为 string)
2. 改造 Tomcat的日志支持log4j,其为json格式输出
3. 改造基于Flume-ng Exec Source开发自定义插件ExecSource_JSON,支持JSON数据处理
4. 改造 spark streaming+spark sql,支持读取json解析
5. 使用hive离线计算loginfo字段,计算高词频的词,添加到MySQL表中,同时支持添加自定义监控词
6. 改造 spark streaming+spark sql,参数配置定时读取监控词库,进行预警计算
7. 改造grafana dashboard可视化
8. 整个架构高可靠设计和优化
9. 扩展其他应用、DB的日志等等

微信关注我们

原文链接：https://yq.aliyun.com/articles/578732

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

storm自定义分组与Hbase预分区结合节省内存消耗

Hbas预分区在系统中向hbase中插入数据时，常常通过设置region的预分区来防止大数据量插入的热点问题，提高数据插入的效率，同时可以减少当数据猛增时由于Region split带来的资源消耗。大量的预分区数量会导致hbase客户端缓存大量的分区地址，导致内存的增长，某些系统中一个JVM进程中会开启几十个独立的hbase客户端对象，同时会查询多张Hbase表，这样JVM进程就会缓存 (预分区数 X 表数 X Hbase客户端数=条记录)。 storm的自定义分组有没有这种情况?有的，在本人的storm项目中，采用结合spring注入的方式来结合Hbase向hbase存入数据，storm中的每一个线程都会创建一个XmlBeanDefinitionReader对象来加载spring的配置文件，所以一个线程就有一个hbse客户端对象了，同时Hbase表设置102预分区，一个topology会操作最少8张表，一个worker会走20个task。所以一个work会缓存大约102*8*20=16320条记录，每一条记录的数据格式大致就是hbase.meta的一条数据格式，经过我计算160...

2017-03-30

655

SQL 在解析字符串方面，能力还是有限，因为支持的算子譬如substring,split等有限，且不具备复杂的流程表达能力。我们内部有个通过JSON描述的DSL引擎方便配置化解析，然而也有一定的学习时间成本。我们当然可以通过SQL的 UDF函数等来完成字符串解析，在streamingpro中也很简单，只要注册下你的UDF函数库即可： "udf_register": { "desc": "测试", "strategy": "....SparkStreamingRefStrategy", "algorithm": [], "ref": [], "compositor": [ { "name": "...SQLUDFCompositor", "params": [ { "analysis": "streaming.core.compositor.spark.udf.func.MLFunctions" } ] } ] } 这样你就可以在SQL中使用MLfunctions里面所有的udf函数了。然而为此专门提供一个jar包也是略显麻烦。这个时候如果能直接写脚本解析就好了，最好是能支持各种脚本...

2017-03-30

625

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。