监控和日志
为什么监控和日志很重要?
监控(Monitoring)和日志(Logging)是大型分布式系统中最关键的基础设施(infrastructure)之一,因为没有监控,就没办法知晓服务的运行情况,就没办法知道集群中有没有Down机,机器的CPU使用率、负载是否正常,网站的Traffic是否正常,服务的出错率是不是在可容忍范围之内。 简而言之,监控使得我们可以实时的了解网站的运营情况和可用性(Availability)情况。
监控通常是从整体上了解网站的情况,需要具备实时性。而日志则是详尽的记录着系统运行情况,每一次service的调用,每一次数据库的访问,都应该写进日志,特别是当系统出现问题时,我们希望日志系统能为我们提供完整的错误堆栈(Exception Stack) 和尽可能完备的上下文(Context),为系统维护提供支持。日志可以