汉语言处理包 HanLP v1.3.5,新功能、优化与维护
HanLP v1.3.5 更新内容: 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580 新增一个提高用户词典优先级的开关:#633 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt" 开放TextRank关键词提取中的最大迭代次数参数:#577 为Term添加equal方法 TextRankKeyword 提取窗口相近词的强化 文本摘要方法支持自定义句子分隔符 提高AC自动机健壮性,添加hasKeyword接口 修复BinTrie.remove不存在的key时导致的问题:#540 解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542 CharTable.txt 添加上下标字符的对应关系 将“t”等不可打印的字符视作分隔符:#584 中文数词与阿拉伯数词切分开 修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。 校对CoreNatureDict...