海量数据下的舆情分析,该如何搭建?
阿里妹导读:互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博、朋友圈或者点评网站上发表动态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象,一则信息可以在短短数分钟内,有数万计转发,数百万的阅读。海量信息可以得到爆炸式的传播,那么如何实时把握信息并作出对应的处理呢?是不是真的难以应对?今天,阿里云智能事业群的宇珩来跟我们聊聊大数据舆情系统对数据存储和计算系统会有哪些需求,如何根据需求来进行系统设计。 大数据时代下,除了媒体信息以外,商品在各类电商平台的订单量、用户的购买评论,都会对后续的消费者产生很大的影响。商家的产品设计者需要汇总统计和分析各类平台的数据做为依据,决定后续的产品发展,公司的公关和市场部门也需要根据舆情作出相应的及时处理,而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。具体细化看下大数据舆情系统,对我们的数据存储和计算系统提出了以下需求: 海量原始数据的实时入库:为了实现一整套舆情系统,需要有上游原始输出的采集,也就是爬虫系统。爬虫需要采集各类门户,自媒体的网...