spaCy 2.2 发布,NLP 自然语言文本处理库
spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。spaCy 2.2 自然语言处理库更精简,更干净,更方便用户使用,除了用于培训、评估和序列化的新模型包和特性之外,还进行了大量的 bug 修复,改进了调试和错误处理,并大大减少了磁盘上库的大小。 新模型与数据增强 spaCy v2.2 提供了经过再培训的统计模型,其中包括修复错误和改进大小写文本的性能。与其他统计模型一样,spaCy 的模型可能对培训数据和正在处理的数据之间的差异非常敏感。 用于训练的新 CLI 功能 spaCy v2.2 包括对培训和数据开发工作流的几个可用性改进,特别是对于文本分类。改进了错误消息,更新了文档,并使评估指标更加详细。例如,评估现在默认提供每一实体类型和每文本类别的准确性统计信息。最有用的改进之一是在 spaCytrain 命令行接口中集成了对文本分类器的支持。现在可以编写如下命令,就像在训练解析器、实体识别器或标记器时一样: $ python -m spacy train en /output /train /dev --pipeline textcat --...