大数据创业，数据哪里来？需要跨过几道坎？-低调大师

大数据创业，数据哪里来？需要跨过几道坎？

2017-07-31 576

这篇文章考虑了很久也没下笔，一方面想写得干货一些，一方面又想写得引人入胜一些，纠结来纠结去，终于决定还是以一个中立的用户角度去写，尽量写得大众化一些。

2013年5月10日，在淘宝十周年晚会-马云退休演讲中，马云说：这是一个变化的时代。还有人没搞清楚PC，移动互联网来了；还没搞清楚移动互联网，大数据来了。而变化的时代是年轻人的时代。

马云说的这句话很关键，他不仅提到了大数据，而且更是用一句话阐述了互联网从PC时代，进化到移动互联网时代，然后从移动互联网时代进阶到了大数据时代。有几个关键点很重要：

PC时代，全球催生了大量的互联网上市企业，包括谷歌、亚马逊、新浪、搜狐、新东方等等；

移动互联网时代，中国创业热潮风生水起，不仅有大量的移动互联网（包括手游）企业赴美上市，更是诞生了无数个创业奇迹；如：陌陌科技公司、中国手游娱乐集团有限公司均在纳斯达克上市；飞鱼科技、云游控股（Forgame）和蓝港互动均在香港上市；而掌趣科技和北纬通信在深圳证券交易所成功挂牌上市。移动互联网不仅为我们的生活带来了便利，更是把创业热潮推向了历史最高峰。

现在问题来了，大数据时代，创业热潮是不是应该比移动互联网时代更加热闹呢？大数据时代如何创业？大数据创业的门槛又有哪些呢？

先回答第一个问题：大数据时代，创业热潮是不是应该比移动互联网时代更加热闹呢？

据我了解，不是。走在中关村创业大街上，你能收到的100份融资BP里，可能有99份都是APP和O2O项目，但99家里90%以上会重视大数据。

那么大数据时代如何创业呢？请先了解一下大数据的创业门槛。

门槛一：数据

大数据大数据，没有数据怎么玩？那么数据从哪里来呢？

像百度、腾讯和阿里巴巴这样的BAT企业，本身就积累了大量的数据，所以他们玩起大数据来，多半是“闷声发大财”。当然了，也可以举几个BAT企业玩大数据的例子，比如说百度旗下的“百度迁徙”、“百度精算”、“百度舆情”、“百度大数据预测引擎”等等，都是百度的大数据产品应用；阿里巴巴的话， “阿里云”、“支付宝-花呗”、“支付宝-借呗”“芝麻信用”、“蚂蚁金服”等等，都应用了大数据技术。而腾讯方面，“腾讯广点通”、“腾讯云分析”和微信等也都应用了大数据技术。

尔等屌丝没有数据，如何玩呢？

首先，你可以通过第三方购买数据，比如说，数据堂就有很多数据出售和分享；
其次，你可以用爬虫爬回一些数据来存储；
再者，通过给企业、开发者、站长等等授权使用大数据工具来积累数据。这方面的新创企业包括Talkingdata、友盟和DataEye等。
最后，使用免费的政府、企业、和机构开放数据。比如说高德数据的API接口和微博商业数据API接口等等。

总体来说，解决好数据源是大数据创业的必要门槛。关键看你创业的项目是什么。

门槛二：硬件

在北京，我曾经参观过一家大数据初创企业，当时他们还没有拿到融资。我去他们的办公区发现一幕特别心酸的事情。他们的员工挤在一间很小的屋子里办公，而两件较大的屋子都用来安放大数据存储服务器。

大数据的存储量是很惊人的，这对机房和硬件设备也提出了新的挑战。这一点和移动互联网不太一样，你做一个APP，用电脑搞开发，服务器用云服务器就行，按需购买。但是大数据不行，你没法把自家的数据存储在别人的云服务器上，一方面是安全因素，另外一方面也有产权因素。硬件也是大数据创业的门槛之一，但不是最大的门槛。

顺便补充一句，我曾经参观过的那家大数据新创企业，目前已完成百万美元的A轮融资，现在他们家的办公区特别宽敞，恭喜星图数据。

门槛三：人才

我认为大数据创业的最大门槛在于人才。和做APP不一样，大数据创业你一个人乃至几个人都是没法玩转的。初创企业你就往10-15人这样的团队先招人吧，这样的团队要包括Hadoop工程师、算法工程师，数据建模工程师、架构师、NoSQL工程师、BI工程师等等，全都是技术要求较高、薪资要求也很高的人才。大数据人才有多贵？在美国，在R、NoSQL和MapReduce方面需求的专业人才薪水达到了每年约11万5千美元，在中国也便宜不到哪里去，没有年薪30万，你很难招到一个大数据人才。

据中国商业联合会数据分析专业委员会统计，未来中国基础性数据分析人才缺口将达到1400万，而在BAT企业招聘的职位里，60%以上都在招大数据人才。也就是说，技术很牛的大数据人才，他的选择面很宽，要么早就进入BAT企业，要么也是在不错的企业拿着高薪，你要挖这样的人才，除了钱，股票、期权、福利等等，都是必须付出的代价。

2015年-2016年是大数据人才最为匮乏的两年，原因很简单，各大刚刚开通了大数据科目的院校，学生还没毕业；而招聘市场上的大数据人才需求量远远已经供不应求。除了BAT企业，通信企业、电力企业、金融银行行业、医疗行业、工业、游戏行业等等，哪个行业不是都在招大数据人才？创业公司要在这么严峻的人才环境中找到适合自己的大数据技术人才，门槛可不止是钱。

门槛四：技术

说了人才，就要说技术了。大数据技术不是你懂C++或者R语言就够了的，大数据有一整套自己的技术体系，包括统计、编程、JAVA、数据库、 Hadoop、Spark、NoSQL、机器学习、自然语言处理、算法、数据可视化等等技术。光是Hadoop需要用到的技术和编程语言就有很多项。而且市面上的大数据工具每家用的还不一样，用开源软件（如Hadoop、Spark）或者用SAP（SAP HANA）需要的技术也不一样。技术要求较高，而拥有大数据综合技术的人才又较少，这也成为了制约大数据创业的最大问题。

门槛五：钱

其实我不想写钱，但是又必须写钱。大数据行业创业不缺资本，只要你创业项目的商业模式没问题，并且技术能力强，且团队靠谱，无论在中国还是在美国，融个A轮还是没有问题的，资本关注度很热。但是你在拿到融资之前，自己启动的资金就需要一大笔。人才、硬件和技术成本都较高。这么理解吧，如果说，几个好朋友凑50万花3个月可以做一个APP项目，那么要在大数据行业创业的话，请先准备600-800万再来玩。

门槛六：商业模式

中国互联网上最赚钱的行业是什么？我认为是电子商务和网络游戏。电子商务和网络游戏也是互联网变现最快的行业。而大数据，它的变现能力不如网络游戏和电子商务那般简单直接。在我拜访过的很多企业中，他们手里有钱、有数据、有人才也有技术，但是他们不知道自己手里的数据可以拿来做什么。也就是说，大数据目前没有最明朗最直接的商业模式。

大数据只有和业务场景结合，才能产生价值。

大数据就像石油原油一样，你知道它在哪里，你可以开采它，但是开采出来你还需要冶炼，并且经过减压蒸馏、加氢精制、溶剂精制、溶剂脱蜡等炼制过程，成为成品油后运送到各个加油站，让汽车加满油后产生了动力才实现最终价值。大数据也一样，需要一整套复杂的过程才能实现商业价值。

那么你可能会问了，大数据交易算不算是商业模式呢？

我个人觉得，要看交易的是什么东西？原始的非结构化的数据，后面数据清洗需要太多的工序，数据存储也是很大的成本，这样的交易代价太高。我相信无论是企业用户也好，还是个人用户也好，大家更倾向于购买“拿来就能用”的大数据数据源。

你说京东和腾讯完成首笔大数据交易，我觉得就是一个笑话，京东和腾讯的大数据不早就整合在一起了么？我用微信直接就能在京东购物，数据是互通的，何必交易？

所以说，大数据创业最难的还是在于商业模式的思考，如果你没有找到一条让大数据变现的渠道，那么千万不要忙着拉团队创业。大数据行业创业，光有idea是不够的，跑通整个商业模式才是关键。

回答最初的问题来，大数据如何创业呢？我认为是：

一、找到一个大数据商业突破口；搞清楚你要用大数据解决什么问题，你的用户是谁？商业逻辑是什么？
二、找到一笔启动资金；
三、最好自己就懂一些大数据相关技术。
四、找到几个可以与你同甘共苦的伙伴。
五、找到你的数据来源，最好是独家的数据来源。

事实上，其实我认为目前不要着急去做大数据项目，做大数据处理工具是个不错的方向，可以先从做BI（商业智能）、CRM、ERP系统开始，等你有了客户，有了数据之后，回转头来做大数据项目，会更加水到渠成。

下面回答两个大家经常问的问题：

大数据人才培训算不算大数据项目呢？

我认为不是，它应该叫做培训/教育项目。

那么市面上那么多的大数据培训企业，选哪家好呢？

我的回答是，都不选。如果你是技术类应届毕业生，建议先找份实习的工作，找个靠谱的师父跟着学，一边做项目，一遍自学大数据相关知识，遇到不懂不明白的直接问师父好了。实践比学习更重要。如果你不懂技术，那么请先学习计算机基本编程技术，把C语言和C++等学会。学完再来想，自己到底还要学什么。大数据培训不是针对没有技术的底层人员，而是需要一定的技术基础的。如果你的数据分析技术为0，那么可以先学好Excel，心急可吃不了热豆腐哦。

本文作者：诺蓝

来源：51CTO

微信关注我们

原文链接：https://yq.aliyun.com/articles/200774

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《Hadoop实战第2版》——3.4节Hadoop流

3.4　Hadoop流Hadoop流提供了一个API，允许用户使用任何脚本语言写Map函数或Reduce函数。Hadoop流的关键是，它使用UNIX标准流作为程序与Hadoop之间的接口。因此，任何程序只要可以从标准输入流中读取数据并且可以写入数据到标准输出流，那么就可以通过Hadoop流使用其他语言编写MapReduce程序的Map函数或Reduce函数。举个最简单的例子（本例的运行环境：Ubuntu，Hadoop-0.20.2）： bin/hadoop jar contrib/streaming/hadoop-0.20.2-streaming.jar -input input -output output -mapper /bin/cat –reducer usr/bin/wc 从这个例子中可以看到，Hadoop流引入的包是ha

2017-07-31

546

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。 Sort和Shuffle是MapReduce上最核心的操作之一，比如上千个Mapper之后，按照Key将数据集分发到对应的Reducer上，要走一个复杂的过程，要平衡各种因素。Spark能处理Peta sort的话，本质上已经没有什么能阻止它处理Peta级别的数据了。这差不多远超大多数公司单次Job所需要处理的数据上限了。回到本题，来说说Hadoop和Spark。Hadoop包括Yarn和HDFS以及MapReduce，说Spark代替Hadoop应该说是代替MpReduce。上面这些问题，算是每个号称下一代平台都尝试解决的。现在号称次世代平台现在做的相对有前景的是Hortonworks的Tez和Databricks的Spark。他们都尝试解决了上面说的那些问题。Tez和Spark都可以很自由地描述一个Job里执行流...

2017-07-31

587

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。