cassandra 查询超时-低调大师

cassandra 查询超时

2019-07-09 1133

背景介绍

在对某个表做count时出现如下错误(在做业务性测试，生产环境请不要简单粗暴做count操作，耗时还可能不准)

Cassandra timeout during read query at consistency LOCAL_ONE (1 responses were required but only 0 replica responded)

很奇怪，另外一个表应该是跟他相同条数的，都能直接count出来，但是当前表count一直报错，而且数据还差2两条(跟ES里面的数据对比后得知)

问题查找

在网上可以直接查询相关问题，结果也出来了很多。其中我给出几个具有参考性的链接

日志跟踪

在 cassandra system.log 看到了count产生的日志，前面后后观察了很长的日志，结果会出现如下一些情况

Redistributing index summaries


INFO  [ReadStage-18] 2019-07-08 23:02:30,820 NoSpamLogger.java:91 - Maximum memory usage reached (536870912), cannot allocate chunk of 1048576


ggregation query used without partition key

上面是3个有不同于常见日志的信息，下面是常见的日志信息

WARN  [ReadStage-1] 2019-07-10 03:27:07,652 ReadCommand.java:569 - Read 1221 live rows and 1221 tombstone cells for query SELECT * FROM data_repository.crawler_forecast_weather WHERE token(city_code) > -8205240754366621005 AND token(city_code) <= -8009162018439875451 LIMIT 5000 (see tombstone_warn_threshold)
WARN  [ReadStage-9] 2019-07-10 03:27:07,654 ReadCommand.java:569 - Read 1275 live rows and 1275 tombstone cells for query SELECT * FROM data_repository.crawler_forecast_weather WHERE token(city_code) > -4148410870856401753 AND token(city_code) <= -3960705342382018938 LIMIT 5000 (see tombstone_warn_threshold)

可能原因

这个问题曾经以为被定位到问题，但是最终却发现还是无能为力。这里说下历程

第一次以为找到缘由

做count 操作操作时，就跟其他读操作一样，需要将数据加载到缓存中。数据来源包括 SSTables，tombstone标记，这些数据都放在缓存中。

缓存的大小由cassandra.yaml中的 file_cache_size_in_mb设置控制。默认大小为 512 MB

count出问题这张表是因为有一个字段存了很长的文本内容，count整个表时，将所有数据(完整的每行数据)加载到内存就导致内存不足。

第二次

根据上面的方式解决count超时不久后又发现超时，但这次却是不同之前说的两个表。这次没有再去调配置大小，而是在社区朋友的指导下跟踪了cpu idle 跟磁盘的 %util

在跟踪的过程中刚好出现 %util 达到 100%, 99% 的情况。然后他认为是磁盘性能造成的超时。但是我跟踪了磁盘负载很高的时间刚好是定时任务在往cassandra里面写数据。那%util高应该是写入造成的，我在定时任务跑完然后再去执行count 也还是超时，所以我不太认同时磁盘性能造成count超时。当然，我们的确实存在磁盘性能，这个后续需要好好调优

最终无果

我之前执行count sql 时一直在 datagrip (一种cassandra的可视化管理)中操作。偶然想去cassandra 终端使用cqlsh执行，结果竟然有意外之喜

在cqlsh 首次执行也是超时，但是后面执行就能成功统计。而在datagrip中统计却一直出现超时错误。那这两个有什么表现不一样么

观察日志发现：在datagrip做操作时，system.log 会输出很多(全是查询的sql语句)，而在cqlsh中进行统计时，发现system.log 竟然只有少量的日志输出，甚至没有常见的查询日志，也是异常奇怪。目前找不到更多原因，只能记录存档了。

对于这个问题花费了很多力气，查过缓存不足，tombstone太多，cpu, 硬盘。但最后我更倾向这个操作违反了cassandra的设计，cassandra 是分布式的，记录是分区存储。当在做聚合查询时却没有带where带上分区键限制，那么很可能不能得到你预期的结果。count可以对一个数据量小小的table进行，但是数据量稍微大一点，可能就不能这么用了。

对于其他聚合查询请点击下面链接

Cassandra User Defined Aggregates

建议解决

如果是业务层需要做count统计，需要根据分区键去做count

如果只是观察数据总条数，建议直接在cqlsh上进行统计(不要使用其他工具)，当然这个也依然存在超时的问题。所以这里推荐一个非常好的统计工具 brianmhess/cassandra-count

这个工具通过使用numSplits参数拆分令牌范围，可以减少每个查询计数的数量并减少超时的可能性。

目前使用下来效果还非常不错

微信关注我们

原文链接：https://yq.aliyun.com/articles/708469

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

详解Vue响应式原理

摘要：搞懂Vue响应式原理！作者：浪里行舟原文：深入浅出Vue响应式原理 Fundebug经授权转载，版权归原作者所有。前言 Vue 最独特的特性之一，是其非侵入性的响应式系统。数据模型仅仅是普通的 JavaScript 对象。而当你修改它们时，视图会进行更新。这使得状态管理非常简单直接，不过理解其工作原理同样重要，这样你可以避开一些常见的问题。----官方文档本文将针对响应式原理做一个详细介绍，并且带你实现一个基础版的响应式系统。本文的代码请猛戳Github博客什么是响应式我们先来看个例子： <div id="app"> <div>Price :￥{{ price }}</div> <div>Total:￥{{ price * quantity }}</div> <div>Taxes: ￥{{ totalPriceWithTax }}</div> <button @click="changePrice">改变价格</button> </div> var...

2019-07-10

547

因为各种原因，需要在extjs项目中开发点新功能，由于之前没好好接触过extjs，我前端领域主要学的是React技术栈。所以开始找资料搭建ExtJs运行环境。说一段小插曲，由于看见extjs项目下有index.html文件，于是，在webstorm工程中用浏览器打开index.html文件，试图把项目跑起来，在浏览器中打开index.html的时候，是一片空白，活生生的打脸了。我潜意识的意识到，跑项目肯定需要搭建extjs的开发环境的。然而我也不知道需要用什么工具来搭建，没有关键字，搜索百度也是徒劳。我在项目代码中偶然看见了SenchaCmd这个关键字，于是百度下来，就能顺利找到资料了，知道要安装好SenchaCmd。大家需要学习ExtJS可以上中文网站 http://extjs.org.cn/ 看这本书：《ExtJS 6.2实战》安装软件安装SenchaCmd-6.7.0.63-windows-64bit 安装Cmd: SenchaCmd-6.7.0.63-windows-64bit 安装ext-6.2.0-gpl 安装SDK：ext-6.2.0-gpl 安装步骤解压安装压...

2019-07-10

794

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。