Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)
正则表达式(re模块): 数据的分类: 结构化数据 有固定的格式 如HTML、XML、JSON 非结构化数据 图片、音频、视频 这类数据一般存储为二进制 正则: 使用流程: 创建编译对象:p = re.compile("正则表达式") 对字符串匹配:r = p.match("字符串") 获取匹配结果:print(r.group()) 常用方法: match(str) 字符串开头的第一个 返回对象 search(str) 从头开始匹配 只匹配一个 返回对象 group() 从mat