Python中文语料批量预处理手记jieba-低调大师

Python中文语料批量预处理手记jieba

2018-02-25 889

阅读目录

手记实用系列文章：

1 结巴分词和自然语言处理HanLP处理手记

2 Python中文语料批量预处理手记

3 自然语言处理手记

4 Python中调用自然语言处理工具HanLP手记

5 Python中结巴分词使用手记

语料预处理封装类：

 
        #coding=utf-8
       
        import os
       
        import jieba
       
        import sys
       
        import re
       
        import time
       
        import jieba.posseg 
        as 
        pseg 
       
        sys.path.append(
        "../"
        ) 
       
        jieba.load_userdict(
        "../Database/userdict.txt"
        ) # 加载自定义分词词典 
       
        ''
        ' 
       
        title：利用结巴分词进行文本语料处理：单文本处理器、批量文件处理器
       
        1 首先对文本进行遍历查找 
       
        2 创建原始文本的保存结构 
       
        3 对原文本进行结巴分词和停用词处理 
       
        4 对预处理结果进行标准化格式，并保存原文件结构路径 
       
        author：白宁超
       
        myblog：http:
        //www.cnblogs.com/baiboy/ 
       
        ''
        ' 
       
        ''
        ' 
       
        分词.词性标注以及去停用词
       
        stopwordspath： 停用词路径
       
        dealpath：中文数据预处理文件的路径
       
        savepath：中文数据预处理结果的保存路径
       
        ''
        ' 
       
        def cutTxtWord(dealpath,savepath,stopwordspath):
       
        stopwords = {}.fromkeys([ line.rstrip() 
        for 
        line 
        in 
        open(stopwordspath,
        "r"
        ,encoding=
        'utf-8'
        )]) # 停用词表 
       
        with open(dealpath,
        "r"
        ,encoding=
        'utf-8'
        ) 
        as 
        f: 
       
        txtlist=f.read() # 读取待处理的文本 
       
        words =pseg.cut(txtlist) # 带词性标注的分词结果 
       
        cutresult=
        ""
        # 获取去除停用词后的分词结果 
       
        for 
        word, flag 
        in 
        words: 
       
        if 
        word not 
        in 
        stopwords: 
       
        cutresult += word+
        "/"
        +flag+
        " " 
        #去停用词 
       
        getFlag(cutresult,savepath) # 
       
        ''
        ' 
       
        分词.词性标注以及去停用词
       
        stopwordspath： 停用词路径
       
        read_folder_path ：中文数据预处理文件的路径
       
        write_folder_path ：中文数据预处理结果的保存路径
       
        filescount=300 #设置文件夹下文件最多多少个
       
        ''
        ' 
       
        def cutFileWord(read_folder_path,write_folder_path,stopwordspath):
       
        # 停用词表 
       
        stopwords = {}.fromkeys([ line.rstrip() 
        for 
        line 
        in 
        open(stopwordspath,
        "r"
        ,encoding=
        'utf-8'
        )]) 
       
        # 获取待处理根目录下的所有类别 
       
        folder_list = os.listdir(read_folder_path) 
       
        # 类间循环 
       
        for 
        folder 
        in 
        folder_list: 
       
        #某类下的路径 
       
        new_folder_path = os.path.
        join
        (read_folder_path, folder) 
       
        # 创建保存文件目录 
       
        path=write_folder_path+folder #保存文件的子文件 
       
        isExists=os.path.exists(path) 
       
        if 
        not isExists: 
       
        os.makedirs(path) 
       
        print(path+
        ' 创建成功'
        ) 
       
        else
        : pass 
       
        save_folder_path = os.path.
        join
        (write_folder_path, folder)#某类下的保存路径 
       
        print(
        '--> 请稍等，正在处理中...'
        ) 
       
        # 类内循环 
       
        files = os.listdir(new_folder_path) 
       
        j = 1 
       
        for 
        file 
        in 
        files: 
       
        if 
        j > len(files): 
        break 
       
        dealpath = os.path.
        join
        (new_folder_path, file) #处理单个文件的路径 
       
        with open(dealpath,
        "r"
        ,encoding=
        'utf-8'
        ) 
        as 
        f: 
       
        txtlist=f.read() 
       
        # python 过滤中文、英文标点特殊符号 
       
        # txtlist1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",txtlist) 
       
        words =pseg.cut(txtlist) # 带词性标注的分词结果 
       
        cutresult=
        "" 
        # 单个文本：分词后经停用词处理后的结果 
       
        for 
        word, flag 
        in 
        words: 
       
        if 
        word not 
        in 
        stopwords: 
       
        cutresult += word+
        "/"
        +flag+
        " " 
        #去停用词 
       
        savepath = os.path.
        join
        (save_folder_path,file) 
       
        getFlag(cutresult,savepath) 
       
        j += 1 
       
        ''
        ' 
       
        做词性筛选
       
        cutresult：str类型，初切分的结果
       
        savepath： 保存文件路径
       
        ''
        ' 
       
        def getFlag(cutresult,savepath):
       
        txtlist=[] #过滤掉的词性后的结果 
       
        #词列表为自己定义要过滤掉的词性 
       
        cixing=[
        "/x"
        ,
        "/zg"
        ,
        "/uj"
        ,
        "/ul"
        ,
        "/e"
        ,
        "/d"
        ,
        "/uz"
        ,
        "/y"
        ] 
       
        for 
        line 
        in 
        cutresult.split(
        '\n'
        ): 
       
        line_list2=re.split(
        '[ ]'
        , line) 
       
        line_list2.append(
        "\n"
        ) # 保持原段落格式存在 
       
        line_list=line_list2[:] 
       
        for 
        segs 
        in 
        line_list2: 
       
        for 
        K 
        in 
        cixing: 
       
        if 
        K 
        in 
        segs: 
       
        line_list.remove(segs) 
       
        break 
       
        else
        : 
       
        pass 
       
        txtlist.extend(line_list) 
       
        # 去除词性标签 
       
        resultlist=txtlist[:] 
       
        flagresult=
        "" 
       
        for 
        v 
        in 
        txtlist: 
       
        if 
        "/" 
        in 
        v: 
       
        slope=v.index(
        "/"
        ) 
       
        letter=v[0:slope]+
        " " 
       
        flagresult+= letter 
       
        else
        : 
       
        flagresult+= v 
       
        standdata(flagresult,savepath) 
       
        ''
        ' 
       
        标准化处理，去除空行，空白字符等。
       
        flagresult:筛选过的结果
       
        ''
        ' 
       
        def standdata(flagresult,savepath):
       
        f2=open(savepath,
        "w"
        ,encoding=
        'utf-8'
        ) 
       
        for 
        line 
        in 
        flagresult.split(
        '\n'
        ): 
       
        if 
        len(line)>=2: 
       
        line_clean=
        "/ "
        .
        join
        (line.split()) 
       
        lines=line_clean+
        " "
        +
        "\n" 
       
        f2.write(lines) 
       
        else
        : pass 
       
        f2.close() 
       
        if 
        __name__ == 
        '__main__' 
        : 
       
        t1=time.time() 
       
        # 测试单个文件 
       
        dealpath=
        "../Database/SogouC/FileTest/1.txt" 
       
        savepath=
        "../Database/SogouCCut/FileTest/1.txt" 
       
        stopwordspath=
        '../Database/stopwords/CH_stopWords.txt' 
       
        stopwordspath1=
        '../Database/stopwords/HG_stopWords.txt' 
        # 哈工大停用词表 
       
        # 批量处理文件夹下的文件 
       
        # rfolder_path = '../Database/SogouC/Sample/' 
       
        rfolder_path = 
        '../Database/SogouC/FileNews/' 
       
        # 分词处理后保存根路径 
       
        wfolder_path = 
        '../Database/SogouCCut/' 
       
        # 中文语料预处理器 
       
        # cutTxtWord(dealpath,savepath,stopwordspath) # 单文本预处理器 
       
        cutFileWord(rfolder_path,wfolder_path,stopwordspath) # 多文本预处理器 
       
        t2=time.time() 
       
        print(
        "中文语料语处理完成，耗时："
        +str(t2-t1)+
        "秒。"
        ) #反馈结果

执行结果：

转自：https://www.cnblogs.com/baiboy/p/7676251.html

微信关注我们

原文链接：https://yq.aliyun.com/articles/495523

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

1.Spring官网初探

源码下载地址（http://repo.spring.io/release/org/springframework/spring/）日常生活中，我们发现什么东西都是原装的好，所以无论学习编程语言还是框架，与其花大量的时间搜资料，不如静心好好学习官网，官网是最好的学习资料（权威、准确的第一手材料），spring的官方网址：https://spring.io/ 官网的界面简洁清新，导航很明确，进入projects 从配置到安全，Web应用到大数据 - 无论您的应用程序有什么样的需求，都有一个Spring Project来帮助您构建它，spring的涵盖面是很宽广的，你需要什么可以在上图所示的页面中查找，本页很清晰，很容易找到spring framework, 还有一段英文介绍provides core support for dependency injection, transaction management, web apps, data access, messaging and more.（提供了核心功能依赖注入、事务管理、web应用、数据访问、远程访问等等）选择spring ...

2018-02-26

1079

python结巴(jieba)分词

一、特点 1、支持三种分词模式：(1)精确模式：试图将句子最精确的切开，适合文本分析。(2)全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。(3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典二、实现结巴分词的实现原理主要有一下三点：(1)基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)。(2)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合。(3)对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。三、应用我们来演示一下结巴分词的主要功能 1、分词 1 #-*- coding:utf-8 -*- 2 3 4 import jieba 5 6 7 8 ''' 9 cut方法有两个参数 10 1)第一个参数是我们想分词的字符串 11 2)第二个参数cut_all是用来控制是否采用全模式 12 ''' 13 14 #全模式 15 word_list = jieba.cut("今天天气真好。亲爱的，我们...

2018-02-26

552

发表评论

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。