首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/229957

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

数据湖只是个哗众取宠的伪概念吗?

数据湖是个伪概念吗?最直接的答案是是的,在这篇文章中我会告诉你原因。 最大的问题在于“数据湖”这个词已经不堪重负,被供应商和分析师们赋予了太多不同的含义。如果有什么东西不属于传统的数据仓库架构,那就把它归结为某一种数据湖。最后数据湖就成了一个不清楚的、模糊的概念。众所周知,模糊的概念会导致模糊的思路,最后做出很差的决定。 我见过很多关于数据湖的定义,在本文中我们会挨个讨论。有时候大家提到数据湖时指的只是某一个概念,有的时候又会把几个概念混起来谈。有的人谈数据湖时却指的是下面的所有概念。 作为原始数据水库的数据湖 这是最早提出数据湖概念时的含义。从这个概念看,数据湖与数据仓库的一个中转区域没有太大的不同。在中转区域中,我们从源系统复制一份数据过来。把这份数据向下游传输和整合,就形成了数据仓库。一个原始数据水库可以用来替换掉一个企业级数据仓库的中转区。 但在中转区和原始数据水库的概念之间还有着许多重要的不同。 从传统意义上讲,一个中转区域只会有一个消费者:生成数据仓库的下游进程。但原始数据水库却有多个消费者,不只是生成数据仓库的ETL,还有用于自助服务和高级分析的沙箱、企业级搜索引擎、主数...

浅谈影响推荐系统效果的一些因素

在一个网站或者app中,推荐系统通常会和整个大系统的多个方面有交互,推荐系统本身也有很多的组成部分,再加上整个系统所处的大环境,综合起来会有很多因素影响着一个推荐系统最终效果的好坏,这里的效果指的是包括准确率、召回率、多样性等等指标在内的一个整体整体效果,不做具体区分。在这里我们试对其中一些主要的因素做一讨论。需要指出的是,这些因素里面并不是所有的我们都可以左右,但是了解它们究竟是什么对我们开发和优化系统还是非常有用的。 用户因素 与广告系统需要同时面对用户和广告主不同,推荐系统的服务对象只有一个,那就是用户,所以用户的因素很大程度会影响系统的效果。具体来讲,系统中新用户和老用户的比例可以说是对效果影响最大的因素之一。大家知道推荐系统是高度依赖用户行为的,而对于无任何行为或者行为非常少的新用户,效果肯定是不会太好的,所以整个系统中新用户的比例越高,系统的整体表现就会越差。 这就是一个典型的推荐系统本身无法左右的因素,而是需要整个系统共同努力来解决。对于这个问题,有两种解决思路:一种是努力优化推荐系统的冷启动算法,这种方法肯定会有效,但是其天花板也是非常低的;而另一种方法,是努力将平台上...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。