4月18日云栖精选夜读 | 阿里靠什么支撑 EB 级计算力？-低调大师

目录：数据量版本节点配置索引结构性能 Meltwater每天要处理数百万量级的帖子数据，因此需要一种能处理该量级数据的存储和检索技术。从0.11.X 版本开始我们就已经是Elasticsearch的忠实用户了。在经历了一些波折之后，最终我们认为做出了正确的技术选型。 Elasticsearch 用于支持我们的主要媒体监控应用，客户通过该应用可以检索和分析媒体数据，比如新闻文章、（公开的）Facebook帖子、Instagram帖子、博客和微博。我们通过使用一个混合API来收集这些内容，并爬取和稍作加工，使得它们可被 Elasticsearch 检索到。本文将分享我们所学到的经验、如何调优 Elasticsearch，以及要绕过的一些陷阱。如果想了解更多关于我们在Elasticsearch方面的点滴，可参考之前博文中的 numad issues 和 batch percolator。 1.数据量每天都有数量相当庞大的新闻和微博产生；在高峰期需要索引大约300多万社论文章，和近1亿条社交帖子数据。其中社论数据长期保存以供检索（可回溯到2009年），社交帖子数据保存近15个...

2019-04-17

660

一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离线分析场景。 Hadoop已经是大数据平台的实时标准，其中Hadoop生态中有数据仓库Hive，可以作为大数据平台的标准数据仓库，对于面向应用的MPP数据库，可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase)，包括对称式和非对称式两种分布式模式二、大数据分析中的实时推荐是如何实现的? 实时推荐需要使用实时处理框架结合推荐算法，从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming，组件可以对接Kafka，获取实时流数据，在实时框架内部实现对数据的处理过程。 1、实时推荐需要借助实时计算框架例如Spark或是Strom技术， 2、数据采集采用Flume+Kafka作为数据缓存和分发作用 3、同时还需要...

2019-04-17

721

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。