spaCy 2.2 发布，NLP 自然语言文本处理库-低调大师

spaCy 2.2 发布，NLP 自然语言文本处理库

2019-10-05 709

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。spaCy 2.2 自然语言处理库更精简，更干净，更方便用户使用，除了用于培训、评估和序列化的新模型包和特性之外，还进行了大量的 bug 修复，改进了调试和错误处理，并大大减少了磁盘上库的大小。

新模型与数据增强

spaCy v2.2 提供了经过再培训的统计模型，其中包括修复错误和改进大小写文本的性能。与其他统计模型一样，spaCy 的模型可能对培训数据和正在处理的数据之间的差异非常敏感。

用于训练的新 CLI 功能

spaCy v2.2 包括对培训和数据开发工作流的几个可用性改进，特别是对于文本分类。改进了错误消息，更新了文档，并使评估指标更加详细。例如，评估现在默认提供每一实体类型和每文本类别的准确性统计信息。最有用的改进之一是在 spaCy train 命令行接口中集成了对文本分类器的支持。现在可以编写如下命令，就像在训练解析器、实体识别器或标记器时一样：

$ python -m spacy train en /output /train /dev --pipeline textcat
--textcat-arch simple_cnn --textcat-multilabel

为了使培训更加容易，还引入了一个新的 debug-data 命令，以验证你的培训和开发数据，获取有用的统计数据，并发现诸如无效的实体注释、循环依赖关系、低数据标签等问题。

更小的磁盘占有，更好的语言资源处理

随着 spaCy 支持更多的语言，磁盘占用也在上升，特别是当添加了对基于查找的 lemmatization 表的支持时，这些表作为 Python 文件存储，在某些情况下变得相当大。此版已经将这些查找表转换为压缩的 JSON，并将它们移到一个单独的包 spacy-look-data 中。

用于高效序列化的 DocBin

高效的序列化对于大规模文本处理是非常重要的，对于许多用例，一种很好的方法是使用 Doc.to_Array 方法将 spaCy Doc 对象序列化为 numpy 数组。然而，这种方法确实失去了一些信息。

新的 DocBin 类帮助你高效地序列化和反序列化 Doc 对象的集合，自动处理许多细节。下面是一个基本用法示例：

import spacy
from spacy.tokens import DocBin

doc_bin = DocBin(attrs=["LEMMA", "ENT_IOB", "ENT_TYPE"], store_user_data=True)
texts = ["Some text", "Lots of texts...", "..."]
nlp = spacy.load("en_core_web_sm")
for doc in nlp.pipe(texts):
    doc_bin.add(doc)
bytes_data = docbin.to_bytes()

# Deserialize later, e.g. in a new process
nlp = spacy.blank("en")
doc_bin = DocBin().from_bytes(bytes_data)
docs = list(doc_bin.get_docs(nlp.vocab))

Better Dutch NER with 20 categories

2.2 中引入新的数据集，这将对经过预先训练的 Dutch NER 模型更加有用。然而，之前的评估是对半自动创建的维基百科数据进行的，这使得该模型更容易获得高分。当在模型训练管道中加入预训练词向量和支持 spaCy pretrain 命令时，模型的精度会进一步提高。

新的视频系列

官方还提供了新的面向初学者的视频教程系列，与数据科学讲师 Vincent Warmerdam 合作。

更多详情见发布说明：

https://explosion.ai/blog/spacy-v2-2

微信关注我们

原文链接：https://www.oschina.net/news/110351/spacy-2-2-released

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GeoGebra 6.0.560 发布，绘图神器

Geogebra 是动态数学软件，它将几何、代数、电子表格、绘图、统计和微积分集成在一个易于使用的软件包中。GeoGebra 6.0.560内容如下：输入框为空，而不是显示未定义的链接 geo的 '?' 输入框的选项对齐 Cas Calculator：添加了更多命令 Invert()、NSolutions()、Sequence()、ReducedRowEraconForm()、subpee()、sum()、transpose()、RemoveUnDefined()、Tangent() 发布说明

2019-10-05

1292

Spring Data Lovelace SR11 发布了。Spring Data 项目的目的是为了简化构建基于 Spring 框架应用的数据访问计数，包括非关系数据库、Map-Reduce 框架与云数据服务等；另外也包含对关系数据库的访问支持。此版本主要是 bug 修复和依赖项升级，Lovelace SR11 基于最新发布的 Spring Framework 5.1.10，并且将应用于Spring Boot 2.1.9 中。 Spring Data Commons 2.1.11 -Artifacts-Javadoc-Documentation-Changelog Spring Data JDBC 1.0.11 -Artifacts-Javadoc-Documentation-Changelog Spring Data JPA 2.1.11 -Artifacts-Javadoc-Documentation-Changelog Spring Data for Apache Cassandra 2.1.11 -Artifacts-Javadoc-Documentation-Changel...

2019-10-05

801

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。