大众点评评分爬取-图文识别ORC

2018-10-06 1336

大众点评评分爬取-图文识别ORC

十一了，没出去玩，因为老婆要加班，我陪着。
晚上的时候她说要一些点评的评分数据，我合计了一下scrapy request一下应该很好做，就答应下来了，感觉没什么难度嘛。
但是呢没那么简单。需要人验证的问题就不说了，我觉得这个我也解决不了，比较吸引我的是他的评分展现方式。
大众点评这块展示用的是图片，css offset方式

selector那套行不通
这里我使用的 tesseract 图片文字识别
下面是大概流程

爬取页面

这里是使用Selenium进行页面访问，然后截屏
代码片段


opt = Options()
opt.add_argument('--headless')
self.driver = webdriver.Chrome(executable_path='/Users/xiangc/bin/chromedriver', options=opt)
self.wait = WebDriverWait(self.driver, 10)
self.driver.get('http://www.dianping.com/shop/4227604')            self.driver.save_screenshot('image{}.png'.format(url_id))

截屏页面

截取需要部分

代码片段如下，这里是hardcode，惭愧


 cropped_img = im.crop((239, 500, 239 + 780, 500 + 63)) 
 cropped_img.save('crop{}.png'.format(url_id))

图片预处理

图片预处理流程如下

清理噪点，如果一点四周只有一个非白点则为噪点，去掉
非空白点着色，色值大于200的点直接给白色
提高图片对比度


def get_color(image, x, y):
    if isinstance(image, type(Image.new('RGB', (0, 0), 'white'))):
        r, g, b = image.getpixel((x, y))[:3]
    else:
        r, g, b = image[x, y]
    return r, g, b


def is_noise(image, x, y):
    white_count = 0
    for i in range(0, x + 2):
        for j in range(0, y + 2):
            r, g, b = get_color(image, i, j)
            if (r, g, b) == (255, 255, 255):
                white_count += 1
    return white_count >= 7


def clear_noise(image, new_pixels):
    w, h = image.size
    clear_count = 0
    for i in range(w):
        for j in range(h):
            r, g, b = get_color(image, i, j)

            if r != g != b and is_noise(image, i, j):
                clear_count += 1
                print(clear_count)
                new_pixels[i, j] = (255, 255, 255)
            else:
                new_pixels[i, j] = (r, g, b)
    return clear_count

def clear_color(new_pixels, w, h):
    for i in range(w):
        for j in range(h):
            r, g, b = get_color(new_pixels, i, j)
            if np.average((r, g, b)) > 200:
                new_pixels[i, j] = (255, 255, 255)
            else:
                new_pixels[i, j] = (0, 0, 0)

def pre_image(full_path):
    image = Image.open(full_path)
    w, h = image.size
    new_image = Image.new('RGB', (w, h), 'white')
    new_pixels = new_image.load()

    clear_count = clear_noise(image, new_pixels)
    while clear_count > 0:
        clear_count = clear_noise(new_pixels, new_pixels)
        print(clear_count)
        if clear_count == 0:
            break
    clear_color(new_pixels, w, h)

    # 对比度增强
    enh_img = ImageEnhance.Contrast(new_image)
    contrast = 3
    image_contrasted = enh_img.enhance(contrast)

    dir_name = os.path.dirname(full_path)
    file_name = os.path.basename(full_path)
    new_file_path = os.path.join(dir_name, 'sharped' + file_name)
    image_contrasted.save(new_file_path)
    return new_file_path

图片文字识别

文字识别是用tesseract
注意这里加了白名单提高准确率
chi为我自己训练的识别库，训练集为10个


new_file_path = imgutils.pre_image('crop{}.png'.format(url_id))
result = pytesseract.image_to_string(
    image=new_file_path,
    lang='chi',
    config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789评论服务:费用设施环境条.元'

结果

还凑合哦

训练辅助脚本

下面是一些脚本集合

生成box文件
批量图片处理
批量训练生成训练结果文件
批量图片格式转换png->tiff

都是js和python脚本，比较简单哈~

gitee链接

爬虫代码就不放了哈~写的太丑~目前也没时间做代码优化。
由于python注释和Markdown的代码tag重复了，注释都去掉了，相信大家能看懂哈~

微信关注我们

原文链接：https://my.oschina.net/u/1240907/blog/2223263

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

认识 lib 目录里的 .so 文件

当我们安装了共享库并运行了 ldconfig 之后，通常我们会在 lib/ 里看到三个 .so 文件。这里的 so 是 shared object 之意。 libfoo.so.1.0.0 这是普通的（regular）共享库文件。可能有多个版本的该文件并存。 libfoo.so -> libfoo.so.1.0.0 这个符号链接一般用在程序的链接过程（link）。你向 linker 指定的参数 -lfoo 便是在寻找并链接 libfoo.so 这个文件。通常情况下这总是个指向具体动态库的符号链接，因为有可能你需要在不同版本的库间切换。 libfoo.so.1 -> libfoo.so.1.0.0 这个符号链接一般用在程序的运行时。每个 .so 都会有一个 SONAME。应用程序根据 SONAME 来寻找并加载共享库。libfoo.so.1 就是一个 SONAME。你可以通过 objdump -p libfoo.so.1.0.0 或 readelf -d libfoo.so.1.0.0 查看它。对于共享库的编写者来说，SONAME 相同的库应互相兼容。有些包管理器（如 deb...

2018-10-05

1707

hdfs审计日志(Auditlog)记录了用户针对hdfs的所有操作，详细信息包括操作成功与否、用户名称、客户机地址、操作命令、操作的目录等。对于用户的每一个操作，namenode都会将这些信息以key-value对的形式组织成固定格式的一条日志，然后记录到audit.log文件中。通过审计日志，我们可以实时查看hdfs的各种操作状况、可以追踪各种误操作、可以做一些指标监控等等。 hdfs的审计日志功能是可插拔的，用户可以通过实现默认接口扩展出满足自己所需的插件来替换hdfs默认提供的审计日志功能，或者与之并用。启用审计日志如果仅仅只启用默认的AuditLogger（DefaultAuditLogger），则在log4j.properties添加如下配置(hdfs.audit.logger必须配置为INFO级别)即可，审计日志会与namenode的系统日志独立开来保存，log4j.appender.RFAAUDIT.File可配置保存的位置及文件。 FSNamesystem根据log4j.properties中hdfs.audit.logger是否为INFO，以及是否配置了...

2018-10-07

1120

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。