掘金15W沸点简单分析(二)
一、数据预处理与入库 获取到了原始数据之后,下一步就是清洗入库。 1.1 数据模型 因为是简单分析,所以只获取话题、用户、消息三块内容。具体如下: class Pins(object): """ 沸点 """ msg_id = None # 沸点ID topic_id = None # 话题ID topic_title = None # 话题名称 user_id = None # 用户ID user_name = None # 用户名 msg_content = None # 沸点内容 msg_ctime = None # 沸点创建时间 msg_digg_count = 0 # 沸点点赞数 msg_comment_count = 0 # 沸点评论数 def __repr__(self): return '<pins: %s>' % self.msg_id 1.2 数据库表创建 数据库的话,使用MySQL。因为沸点内容msg_content中含有emoji表情,所以在建表时字符集编码需要使用utf8mb4。 建表SQL语句如下: CREATE SCHEMA `juejin` ...






