首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/220568

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据技术众多的今天,不要忘记搜索!

文章讲的是 大数据技术众多的今天,不要忘记搜索, 尽管Hadoop、Spark和NoSQL数据库现在正发展的如火如荼,但请不要忘记搜索是最原始,最有用的大数据技术之一。随着很多非常棒的开源工具比如Solr,Lucidworks以及Elasticsearch的出现,你可以使用非常强大的方法优化I/O以及个性化用户体验,它会比以错误结束的纷繁复杂的新工具要好得多。 Spark缺陷 不久前,一个客户问我,如何使用spark查遍所有涌入NoSQL数据库的大批量数据。问题在于,他们的搜索模式是单一的字符串搜索和向下查询,这已经超出了数据库的有效能力范围。他们从存储中拉取数据并在内存中解析。即便AWS上有DAG,但还是很慢,更不用提昂贵的价格了。 当你在内存中处理意义明确的数据集时,Spark还是很有帮助的,不仅在于其强大的吸收能力,更是因为其在内存中的分析能力和转移到内存中的能力一样强大。我们仍然需要考虑存储并且要知道如何做才能达到我们想要的快速简洁的效果。对于某些客户来说,数据进来之后可能会拉取出某个集合用于机器学习,把搜索工作留给搜索引擎完成。 搜索与机器学习 其实,在搜索,机器学习和其他相...

数据库大会:大数据来了 机遇与挑战共存

本文讲的是 数据库大会:大数据来了 机遇与挑战共存, 2012年4月13日,由IT168(ITPUB、IXPUB、ChinaUnix)主办的2012中国数据库技术大会(DTCC)在北京隆重召开。大会第二天,北京人大金仓信息技术股份有限公司首席科学家王珊教授发表了主题为“Big Data时代数据库的机遇、挑战与应变”的精彩演讲。 大数据时代的到来,数据带来了爆炸式的增长,数据设备使真实世界能够被数字化处理,数据由量的积累而产生了分析处理价值。 王珊表示,大数据的来源主要来自互联网公司Facebook、大型企业、电信、金融等行业的简单数据类型和结构化数据。现在Facebook拥有强大的数据仓库。互联网和电子商务的发展使数据库技术面临着海量数据处理的挑战,需要高度的可扩展和高度的可伸缩。数据的处理由事务处理走向了分析处理。传感器网络、物联网上的流数据和不确定性数据成为了数据处理的来源,随着硬件技术的发展,数据处理平台由单处理器平台走向了多核、大内存、集群、云计算平台的迁移。 ▲ 谈及大数据时,王珊指出,由麦肯锡研究提供的报告指出了当前大数据的特点,简称为4V(多样、快变、巨量、价值)如传感数...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

JDK

JDK

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。