搜索[hadoop]结果-低调大师优秀个人博客

精选列表

搜索[hadoop]，共8437篇文章

Hadoop Shell命令（基于linux操作系统上传下载文件到hdfs文件系统基本命令学习）

示例： hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 hadoop fs -cp /user/hadoop/file1 /user/hadoop

2017-09-01

分布式数据库和Hadoop都不够好，于是我们设计了分布式SQL计算系统

设计思想为了解决分布式数据库下，复杂的 SQL(如全局性的排序、分组、join、子查询，特别是非均衡字段的这些逻辑操作)难以实现的问题;在有了一些分布式数据库和 Hadoop 实际应用经验的基础上，对比两者的优点和不足

2017-08-02

分布式数据库和Hadoop都不够好，于是我们设计分布式SQL计算系统

2017-08-01

《深入理解大数据：大数据处理与编程实践》一一2.3 集群分布式Hadoop系统安装基本步骤

2.3 集群分布式Hadoop系统安装基本步骤 Hadoop安装时对HDFS和MapReduce的节点允许用不同的系统配置方式。

2017-07-04

《深入理解大数据：大数据处理与编程实践》一一第2章 Hadoop系统的安装与操作管理

第2章 Hadoop系统的安装与操作管理可以用三种不同的方式安装Hadoop。

2017-07-04

《Hadoop与大数据挖掘》——第一篇基础篇第1章浅谈大数据 1.1 大数据概述

本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第1章，第1.1节，作者张良均樊哲位文超刘名军许国杰周龙焦正升，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2017-07-03

分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

打开容器的bash命令行环境，进入Hadoop目录： bash-4.1# cd $HADOOP_PREFIX bash-4.1# pwd /usr/local/hadoop 然后通过运行Hadoop内置的实例程序来进行测试

2017-03-16

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

背景和设计思想为了解决分布式数据库下，复杂的sql（如全局性的排序、分组、join、子查询，特别是非均衡字段的这些逻辑操作）难以实现的问题；在有了一些分布式数据库和hadoop实际应用经验的基础上,

2017-06-12

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

免费开通大数据服务：https://www.aliyun.com/product/odps 想用阿里云数加·大数据计算服务（MaxCompute），但是现在数据还在hadoop上，怎么办？

2016-12-05

hadoop中的hive查询cdn访问日志指定时间段内url访问次数最多的前10位（结合python语言）

hadoop环境描述： master节点：node1 slave节点：node2，node3，node4 远端服务器（python连接hive）：node29 需求：通过hive查询到cdn日志中指定时间段内

2017-11-12

一脸懵逼学习Hadoop中的序列化机制——流量求和统计MapReduce的程序开发案例——流量求和统计排序

（2）：Hadoop的序列化格式：Writable接口三：Hadoop序列化的作用：（1）：序列化在分布式环境的两大作用：进程间通信，永久存储。（2）：Hadoop节点间通信。

2017-09-20

《深入理解大数据：大数据处理与编程实践》一一2.2 单机和单机伪分布式Hadoop系统安装基本步骤

2.2 单机和单机伪分布式Hadoop系统安装基本步骤默认情况下，Hadoop被配置成一个以非分布式模式运行的独立Java进程，适合程序员在本地做编程和调试工作。

2017-07-04

hadoop-HA集群搭建，启动DataNode，检测启动状态，执行HDFS命令，启动YARN，HDFS权限配置，C++客户端编程，常见错误

hadoop1 ssh-copy-id hadoop2 ssh-copy-id hadoop3 ssh-copy-id hadoop4 ssh-copy-id hadoop5 通过上面的配置，可以在hadoop1

2017-06-10

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与...

1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

2017-06-10

工作3年，月薪20k+的大数据开发人员，突然说我不想只做Hadoop、Spark、Flink层面的技术开发

大批往期学员是这样说的 “我不想只做Hadoop、Spark、Flink层面的技术开发，我想深入到数仓体系构建、数据资产管理等核心领域”。

2020-04-23

datenode节点超时时间设置，Hadoop启动不正常,HDFS冗余数据块的自动删除,NameNode安全模式问题,ntp时间服务同步,机...

启动不正常、start-dfs.sh时dataNode启动不正常 Hadoop的日志目录（/home/toto/software/hadoop-2.8.0/logs） 1、hadoop启动不正常用浏览器访问

2017-05-29

通过Datax将CSV文件导入Hbase，导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

drwxrwxr-x. 19 hadoop hadoop 4.0K Sep 24 15:10 .. lrwxrwxrwx. 1 hadoop hadoop 29 Sep 24 15:21 datax -

2019-09-25

Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）

[hadoop@hadoop~]$hive --service help Usage .

2017-11-12

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗...

据邵铮工程师介绍，FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上的，Hadoop Hive集群共有超过3000个节点，共同完成对数据的实时处理分析。

2017-11-14

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式...

摘自：http://blog.fens.me/mahout-recommendation-api/ 测试程序：RecommenderTest.java 测试数据集：item.csv 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java package org.conan.mymahout.recommendation.job; import java.io.IOException; import java.util.List; import org.apache.mahout.cf.taste.common.TasteException; import org.apache.mahout.cf.taste.eval.RecommenderBuilder; import org.apache.mahout.cf.taste.impl.common.LongPrimitiveIterator; import org.apache.mahout.cf.taste.model.DataModel; import org.apache.mahout.cf.taste.recommender.RecommendedItem; import org.apache.mahout.common.RandomUtils; public class RecommenderTest { final static int NEIGHBORHOOD_NUM = 2; final static int RECOMMENDER_NUM = 3; public static void main(String[] args) throws TasteException, IOException { RandomUtils.useTestSeed(); String file = "datafile/item.csv"; DataModel dataModel = RecommendFactory.buildDataModel(file); slopeOne(dataModel); } public static void userCF(DataModel dataModel) throws TasteException{} public static void itemCF(DataModel dataModel) throws TasteException{} public static void slopeOne(DataModel dataModel) throws TasteException{} ... 每种算法都一个单独的方法进行算法测试，如userCF(),itemCF(),slopeOne()…. 5. 基于用户的协同过滤算法UserCF 基于用户的协同过滤，通过不同用户对物品的评分来评测用户之间的相似性，基于用户之间的相似性做出推荐。简单来讲就是：给用户推荐和他兴趣相似的其他用户喜欢的物品。举例说明：基于用户的 CF 的基本思想相当简单，基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。计算上，就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到 K 邻居后，根据邻居的相似度权重以及他们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。图 2 给出了一个例子，对于用户 A，根据用户的历史偏好，这里只计算得到一个邻居 – 用户 C，然后将用户 C 喜欢的物品 D 推荐给用户 A。上文中图片和解释文字，摘自：https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/ 算法API: org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender @Override public float estimatePreference(long userID, long itemID) throws TasteException { DataModel model = getDataModel(); Float actualPref = model.getPreferenceValue(userID, itemID); if (actualPref != null) { return actualPref; } long[] theNeighborhood = neighborhood.getUserNeighborhood(userID); return doEstimatePreference(userID, theNeighborhood, itemID); } protected float doEstimatePreference(long theUserID, long[] theNeighborhood, long itemID) throws TasteException { if (theNeighborhood.length == 0) { return Float.NaN; } DataModel dataModel = getDataModel(); double preference = 0.0; double totalSimilarity = 0.0; int count = 0; for (long userID : theNeighborhood) { if (userID != theUserID) { // See GenericItemBasedRecommender.doEstimatePreference() too Float pref = dataModel.getPreferenceValue(userID, itemID); if (pref != null) { double theSimilarity = similarity.userSimilarity(theUserID, userID); if (!Double.isNaN(theSimilarity)) { preference += theSimilarity * pref; totalSimilarity += theSimilarity; count++; } } } } // Throw out the estimate if it was based on no data points, of course, but also if based on // just one. This is a bit of a band-aid on the 'stock' item-based algorithm for the moment. // The reason is that in this case the estimate is, simply, the user's rating for one item // that happened to have a defined similarity. The similarity score doesn't matter, and that // seems like a bad situation. if (count <= 1) { return Float.NaN; } float estimate = (float) (preference / totalSimilarity); if (capper != null) { estimate = capper.capEstimate(estimate); } return estimate; } 测试程序: public static void userCF(DataModel dataModel) throws TasteException { UserSimilarity userSimilarity = RecommendFactory.userSimilarity(RecommendFactory.SIMILARITY.EUCLIDEAN, dataModel); UserNeighborhood userNeighborhood = RecommendFactory.userNeighborhood(RecommendFactory.NEIGHBORHOOD.NEAREST, userSimilarity, dataModel, NEIGHBORHOOD_NUM); RecommenderBuilder recommenderBuilder = RecommendFactory.userRecommender(userSimilarity, userNeighborhood, true); RecommendFactory.evaluate(RecommendFactory.EVALUATOR.AVERAGE_ABSOLUTE_DIFFERENCE, recommenderBuilder, null, dataModel, 0.7); RecommendFactory.statsEvaluator(recommenderBuilder, null, dataModel, 2); LongPrimitiveIterator iter = dataModel.getUserIDs(); while (iter.hasNext()) { long uid = iter.nextLong(); List list = recommenderBuilder.buildRecommender(dataModel).recommend(uid, RECOMMENDER_NUM); RecommendFactory.showItems(uid, list, true); } } 程序输出： AVERAGE_ABSOLUTE_DIFFERENCE Evaluater Score:1.0 Recommender IR Evaluator: [Precision:0.5,Recall:0.5] uid:1,(104,4.333333)(106,4.000000) uid:2,(105,4.049678) uid:3,(103,3.512787)(102,2.747869) uid:4,(102,3.000000) 本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7243282.html，如需转载请自行联系原作者

2017-11-15

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

精选列表

Hadoop Shell命令（基于linux操作系统上传下载文件到hdfs文件系统基本命令学习）

分布式数据库和Hadoop都不够好，于是我们设计了分布式SQL计算系统

分布式数据库和Hadoop都不够好，于是我们设计分布式SQL计算系统

《深入理解大数据：大数据处理与编程实践》一一2.3 集群分布式Hadoop系统安装基本步骤

《深入理解大数据：大数据处理与编程实践》一一第2章 Hadoop系统的安装与操作管理

《Hadoop与大数据挖掘》——第一篇 基 础 篇 第1章 浅谈大数据 1.1 大数据概述

分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

基于分布式数据库的存储和hadoop的分布式计算的分布式sql计算方法

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

hadoop中的hive查询cdn访问日志指定时间段内url访问次数最多的前10位（结合python语言）

一脸懵逼学习Hadoop中的序列化机制——流量求和统计MapReduce的程序开发案例——流量求和统计排序

《深入理解大数据：大数据处理与编程实践》一一2.2 单机和单机伪分布式Hadoop系统安装基本步骤

hadoop-HA集群搭建，启动DataNode，检测启动状态，执行HDFS命令，启动YARN，HDFS权限配置，C++客户端编程，常见错误

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与...

工作3年，月薪20k+的大数据开发人员，突然说我不想只做Hadoop、Spark、Flink层面的技术开发

datenode节点超时时间设置，Hadoop启动不正常,HDFS冗余数据块的自动删除,NameNode安全模式问题,ntp时间服务同步,机...

通过Datax将CSV文件导入Hbase，导入之前的CSV文件大小和导入之后的Hadoop分布式文件大小对比引入的思考

Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗...

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式...

资源下载

优质分享App

腾讯云软件源

Spring

Sublime Text

欢迎您来访！

《Hadoop与大数据挖掘》——第一篇基础篇第1章浅谈大数据 1.1 大数据概述