[日常]Beyond的歌里最多是"唏嘘"吗? - Python分词+词频
看了一个Beyond的纪录片, 提到这个. 觉得心有不甘, 于是搜集了24首歌词, 用Python做了简单分词和词频统计. 源码(包括歌词)在: program-in-chinese/study 统计了总出现次数(词频列表)和词出现在歌曲的数目(词所在文件数列表). 前者算进了所有重复歌词, 后者是算某个词出现在了几首歌中. 源码: import jieba import os 所有词 = [] 词频表 = {} 词所在文件 = {} 词所在文件数 = {} 路径 = "数据" for 文件名 in os.listdir(路径): print(文件名) with open(os.path.join(路径, 文件名)) as 文件: 内容 = 文件.read() 分词结果 = jieba.cut(内容) for 词 in 分词结果: if 词 != " " and len(词) != 1: 所有词.append(词) if 词 in 词频表: 词频表[词] += 1 词所在文件[词].add(文件名) else: 词频表[词] = 1 词所在文件[词] = set([文件名]) for ...