百亿级全网舆情分析系统存储设计
前言
在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。
这个全网舆情分析系统,可以实现百亿条网页数据的存储、实时新增网页的抓取和存储并能对新增网页做实时的元数据提取。有了提取结果,我们还需要进行进一步的挖掘分析,这些分析包括但不限于
- 舆情的影响力诊断,从传播量级和扩散趋势来做预测,确定是否最终形成舆情。
- 传播路径分析,分析舆情传播的关键路径。
- 用户画像,对舆情的参与者提供共性特征勾勒,如性别,年龄,地域和感兴趣话题。