Netflix推出Hollow，处理内存数据集的Java库-低调大师

Netflix推出Hollow，处理内存数据集的Java库

2018-11-28 1040

Netflix最近推出了Hollow，一款Java库和工具包，旨在有效缓存不属于“大数据”的数据集。这些数据集可能是电子商务和搜索引擎的元数据，或者是Netflix电影和电视节目的元数据。处理这种数据集的传统方法包括数据存储或串行化，但这可能会有可靠性和延迟问题。Hollow的入门指南中总结了核心概念和命名方法：

Hollow管理由单个生产者构建的数据集，并向一个或多个消费者传送以用于只读访问。数据集会随着时间而改变。改变的数据集的时间线可以分为离散的数据状态，每个状态都是那个特定时间点数据的完整快照。

生产者和消费者通过在数据状态之间转换的状态引擎来处理数据集。生产者使用写状态引擎，而消费者使用读状态引擎。

Hollow取代了Netflix原先的内存数据集框架Zeno。数据集现在用紧凑的、固定长度的、强类型的数据编码表示。这种编码最小化了数据集占用的空间，并将编码记录“打包在JVM堆上合并的可重用内存条中，以避免影响繁忙的服务器上的GC行为。”

入门
要开始使用Hollow示例，请参考以下POJO：

public class Movie {
long id;
String title;
int releaseYear;

public Movie(long id,String title,int releaseYear) {
    this.id = id;
    this.title = title;
    this.releaseYear = releaseYear;
    }
}

上述POJO上简单的数据集可以这样填充：

List<Movie> movies = Arrays.asList(
new Movie(1,"The Matrix",1999),
new Movie(2,"Beasts of No Nation",2015),
new Movie(3,"Goodfellas",1990),
new Movie(4,"Inception",2010)
);

Hollow将这样的movies列表转换为新的编码形式，如下所示：

有关编码的更多详细信息，请参阅Hollow网站的高级主题章节。

生产者
生产者的第一个示例发布了数据集（本例中的电影）的初始数据状态，并通知消费者在哪里找到该数据集。对数据集的后续更改会系统地发布并传送给消费者。

生产者使用HollowWriteStateEngine作为数据集的句柄：

HollowWriteStateEngine writeEngine = new HollowWriteStateEngine();

HollowObjectMapper填充HollowWriteStateEngine：

HollowObjectMapper objectMapper = new HollowObjectMapper(writeEngine);
for(Movie movie : movies) {
    objectMapper.addObject(movie);
    }

HollowObjectMapper是线程安全的，也可以并行执行。

生产者将数据集（也称blob）写入定义的输出流：

OutputStream os = new BufferedOutputStream(new FileOutputStream(snapshotFile));
HollowBlobWriter writer = new HollowBlobWriter(writeEngine);
writer.writeSnapshot(os);

为消费者生成API
客户端API基于数据模型生成必要的Java文件，并且必须在写入初始的消费者源代码前执行：

HollowAPIGenerator codeGenerator = new HollowAPIGenerator(
"MovieAPI", // a name for the API
"org.redlich.hollow.consumer.api.generated", // the path for generated API files
stateEngine); // the state engine
codeGenerator.generateFiles(apiCodeFolder);

消费者
一旦通知消费者已发布的数据集，消费者使用HollowWriteReadEngine作为数据集的句柄：

HollowReadStateEngine readEngine = new HollowReadStateEngine();

HollowBlobReader将blob从生产者消费到HollowReadStateEngine：

HollowBlobReader reader = new HollowBlobReader(readEngine);
InputStream is = new BufferedInputStream(new FileInputStream(snapshotFile));
reader.readSnapshot(is);

通过生成的API可以访问到数据集中的数据：

MovieAPI movieAPI = consumer.getAPI();
for(MovieHollow movie : movieAPI.getAllMovieHollow()) {
    System.out.println(movie._getId() + ", " +
    movie._getTitle()._getValue() + ", " +
    movie._getReleaseYear());
    }

这将打出结果输出：

1, "The Matrix", 1999
2, "Beasts of No Nation", 2015
3, "Goodfellas", 1990
4,"Inception", 2010

完整的Hollow项目可以在GitHub上找到。

微信关注我们

原文链接：https://blog.roncoo.com/article/127171

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

构建基于Spark的推荐引擎（Python）

在学习Spark机器学习时，书上用scala完成，自己不熟悉遂用pyshark完成，更深入的理解了spark对协同过滤的实现在这里我们的推荐模型选用协同过滤这种类型，使用Spark的MLlib中推荐模型库中基于矩阵分解（matrix factorization）的实现。协同过滤（Collaborative Filtering）协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。很简单的例子来介绍就是日常我们生活中经常找电影会通过向和自己品味类似的朋友要求推荐，这就是协同过滤的思想基于用户的协同过滤推荐机制的基本原理基于用户或物品的方法的得分取决于若干用户或是物品之间依据相似度所构成的集合（即邻居），故它们也常被称为最邻近模型。矩阵分解这里我们要处理的数据是用户提供的自身偏好数据，即用户对物品的打分数据。这些数据可以被转换成用户为行，物品为列的二维矩阵，即评分矩阵A（m*n）表示m...

2018-11-28

797

项目背景大数据及其应用迅速发展，已经渗透到各个行业和业务职能领域，成为重要的生产因素，2015年8月国务院印发《促进大数据发展行动纲要》，将大数据提升为国家战略。在未来的5-10年，我国将把大数据作为提升政府治理能力的重要手段，大力推进大数据在政府管理中创新应用。为此，《交通运输信息化”十三五”发展规划》中提出要”运用大数据分析技术，开展交通运输经济运行分析、政策实施效果评价、交通发展趋势研判等分析工作，提高交通运输宏观掌控能力”。《交通运输统计发展纲要》也提出要”充分利用大数据、云计算等现代信息技术，变革统计生产方式，再造统计业务流程，丰富统计服务产品，不断提升统计生产能力、管理能力和服务能力，开创交通运输统计发展新局面”。 “十二五”以来，信息化逐渐融入行业管理的方方面面，作为大数据应用的基础，交通运输行业数据资源日益丰富。随着以高速公路联网收费、运输车辆联网联控、智能公交、物流信息平台等为代表的行业信息化重大工程的稳步实施，交通运输行业管理部门所掌握的交通大数据规模爆发性增长，这为推进交通运输行业大数据的应用，以大数据支撑行业管理决策，提高交通行业管理自动化、智能化水平提供了基...

2018-11-28

860

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。