首页 文章 精选 留言 我的

精选列表

搜索[文档处理],共10000篇文章
优秀的个人博客,低调大师

Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.4.0更新如下: 1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。 2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"为"nuc_length.m"。 长度单位/null 米/n/length.m ,/w/null 例如/d/null 这/r/null 根/q/null 线/q/null 长/d/null 3米/q/nuc_length.m 3,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b 4,修复中文数字转阿拉伯数字后词条的offset错误。 5,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de95015056a7ea683c5955faef891fa68af36b5 6,修改Elasticsearch的资源访问为官网建议的安全资源访问形式,意味着es插件不需要再grant privileges。 7,Elasticsearch插件中增加插件级别的单例词库创建接口并且使用安全方式加载词库。 8,修改jcseg-server中的jetty版本为:9.3.24.v20180605 9,jcseg-server.properties配置文件增加自定义host支持,便于外网访问。 10,修复maven编译中的全部javadoc报错。 11,README中增加了jcseg的使用案例和链接,以及微信和QQ沟通账号。 下载地址: Gitee:https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release Github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release maven仓库地址: <dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-core</artifactId> <version>2.4.0</version> </dependency> 本文来自云栖社区合作伙伴“开源中国” 本文作者:狮子的魂 原文链接

优秀的个人博客,低调大师

如何处理Eclipse错误消息 The declared package does not match the expected packa...

我从github下载了一个开源项目后,导入到自己Eclipse之后,遇到了这个烦人的错误消息:The declared package "com.sap.smartService" does not match the expected package "main.java.com.sap.smartService" 这是我的项目文件目录: 解决方案:对项目点击右键,选择Properties->Build Path, 发现src文件夹被设为build path。 首先右键src文件夹,选择Remove from Build Path将其从build path中移除: 然后选择src/main下面的java文件夹,设置成build path,重启Eclipse: 错误即消失: 本文来自云栖社区合作伙伴“汪子熙”,了解相关信息可以关注微信公

优秀的个人博客,低调大师

go module 安装不了golang.org时的处理方式记录

go: golang.org/x/sys@v0.0.0-20180905080454-ebe1bf3edb33: unrecognized import path "golang.orgnrecognized import path "golang.org/x/sys" (https fetch: G1: dial tcp 216.239.37.1:443: conneet https://golang.org/x/sys?go-get=1: dial tcp 216.239.37.rty did not properly respond after1:443: connectex: A connection attempt failed because the connected host has failed to respoconnected party did not properly respond after a period of time, or established connection failed because connected : unrecognized import path "golang.host has failed to respond.) ... go: golang.org/x/crypto@v0.0.0-20180904163835-0709b304e793nected party did not properly respo: unrecognized import path "golang.org/x/crypto" (https fed because connected host has failedtch: Get https://golang.org/x/crypto?go-get=1: dial tcp 216.239.37.1:443: connectex: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond.) go: error loading module requirements 如上,不能安装sys和crypto这两个库,用如下方式即可 1手动加入被墙的包(原始包),一定要记住版本号,实在不知道的话,就试试v0.0.0; $ go mod edit -require=golang.org/x/net@v0.0.0 2 用github上的镜像地址替换 $ go mod edit -replace=golang.org/x/crypto@v0.0.0=github.com/golang/crypto@latest $ go mod edit -replace=golang.org/x/sys@v0.0.0=github.com/golang/sys@latest

优秀的个人博客,低调大师

如何利用自然语言处理构建基于内容的电影推荐系统

“empty brown theater chairs” by Tyler Callahan on Unsplash 你是否有过这样的疑惑:为什么Netflix,Amazon,Google总能推荐到你比较感兴趣的产品?我们有时会对互联网上的产品进行评分,以此体现我们对产品的偏好,同时,推荐系统会利用我们分享的数据,生成推荐结果。主流的推荐系统算法大致分为两类:基于用户历史数据的协同过滤算法和基于内容数据的过滤算法。两者的区别其实从名称上便可看出,但接下来我们将以电影推荐为例进一步阐述二者之间的不同。 协同过滤(Collaborative filters) 协同过滤依赖用户的历史评分数据,为用户推荐自己未曾看过,而与自己相似的用户已经观看过的电影。为了确定两个用户之间是否相似,协同过滤会结合用户所看过的电影以及他们对电影的评分。 Colla

优秀的个人博客,低调大师

Facebook 开源 oomd,一种处理内存溢出的新方法

近日,在 Facebook 的网站上,该公司的开发者 Daniel Xu 宣布在 GPLv2 许可证下开源oomd。oomd 是用户空间内存溢出杀手(OOM Killer),它在最近关于块 I/O 延迟控制器的文章中有被提及到。当内存不足时,内存溢出杀手会杀掉一些进程,它的主要任务是保护内核,因此应用程序可能会受到影响。相比传统的 Linux 内存溢出杀手,oomd 会全面监视系统,评估系统是否处于不可恢复的工作负荷下。在系统的 OOM Killer 作用前,oomd 会在用户空间采取纠正措施。 Facebook 表示,它们的基础设施已经发展到包含新闻信息流、Messenger、Instagram、WhatsApp、Oculus以及其他一系列产品。这些产品和它们背后的系统运行于分布在多个地理分布式数据中心的数百万台服务器上。随着基础设施规模不断扩大,Facebook 的机器和网络越来越多地跨越多代,这种多代生产环境的一个副作用是新的软件版本或配置更改可能导致系统在一台计算机上运行正常但在另一台计算机上遇到内存溢出(OOM)问题。传统的 Linux 内存溢出杀手在某些情况下运行良好,但在其他情况下,它启动得太晚,导致系统进入不确定时期的活锁。 因此 Facebook 开发了oomd,一种更快、更可靠的解决方案,用于常见的内存溢出(OOM)情况,它可以在用户空间而不是内核空间中运行。Facebook设计的 oomd 包含两个关键特性:pre-OOM钩子(pre-OOM hooks)和自定义插件系统。在工作负载受到威胁之前,pre-OOM钩子提供了对 OOM 的可见性。由于 OOM 检测标准可能因工作负载而异,因此插件系统支持对检测和进程终止策略进行自定义。 与用于内核空间内存溢出杀手的一些对比 总结 oomd 是新型的用户空间内存溢出杀手(OOM Killer),允许应用程序开发者在工作负载消耗所有可用系统内存时自定义响应。Facebook 表示,他们的测试表明 oomd 是默认 Linux 内核内存溢出杀手的可靠而有效的替代品。他们已经在 Facebook 开发并部署了 oomd,发现它使自家的公司能够减少从构建服务器到机架交换机到共享计算资源的工作负载频率。

优秀的个人博客,低调大师

如何在MaxCompute上处理存储在OSS上的开源格式数据

0. 前言 MaxCompute作为使用最广泛的大数据平台,内部存储的数据以EB量级计算。巨大的数据存储量以及大规模计算下高性能数据读写的需求,对于MaxCompute提出了各种高要求及挑战。处在大数据时代,数据的来源多种多样,开源社区经过十几年的发展,百花齐放,各种各样的数据格式不断的出现。 我们的用户也在各个场景上,通过各种计算框架,积累了各种不同格式的数据。怎样将MaxCompute强大的计算能力开放给这些使用开源格式存储沉淀下来的数据,在MaxCompute上挖掘这些数据中的信息,是MaxCompute团队希望解决的问题。 MaxCompute 2.0最近推出的非结构化计算框架【公测阶段】,旨在从存储介质和存储格式两个维度,打通计算与存储的通道。 在之前的文章中,我们已经介绍过怎样在MaxCompute上对存储在OSS上的文本

优秀的个人博客,低调大师

关于bootstrap下拉框组件点击后不自动关闭的处理

我们在使用bootstrap下拉框组件时,有时会有如下需求,比如,下拉框中有分页的需求,如果你点击翻页时那下拉框会自动关闭,再打开下拉框又会重新刷新,这肯定是不满足条件的。所以就会有点击后不关闭的需求。这种需求实现的方法其实不难,就两个步骤: 第一步:在你需要点击后不关闭的组件的标签中加入一个属性:data-stopPropagation="true",例如: <ul class="dropdown-menu" role="menu" id="channel-menu"> <li class="divider"></li> <li id="paging"> <ul class="pagination pagination-sm" style="margin: 0 0;"> <li><a href="#" id="previous" data-stopPropagation="true" onclick="prevPage()">&laquo;</a></li> <!-- <li><a href="#" data-stopPropagation="true">1</a></li> <li><a href="#" data-stopPropagation="true">2</a></li> <li><a href="#" data-stopPropagation="true">3</a></li> <li><a href="#" data-stopPropagation="true">4</a></li> --> <li><a href="#" id="next" data-stopPropagation="true" onclick="nextPage()">&raquo;</a></li> </ul> </li> </ul> 此段代码就是一个下拉框组,在下拉框中有分页设置,在分页部分的每个标签中都添加了data-stopPropagation="true"这个属性。这只是第一步,第二步也很简单。 第二步:在js代码中注册一个监听器,监听具有这个data-stopPropagation属性的标签,点击时不关闭,代码如下: $("ul.dropdown-menu").on("click", "[data-stopPropagation]",function(e) { e.stopPropagation(); }); 这时再去尝试下发现点击后下拉框组不会自动关闭,大功告成。

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册