首页 文章 精选 留言 我的

精选列表

搜索[文档处理],共10000篇文章
优秀的个人博客,低调大师

英伟达将为中国市场推出定制版 Blackwell 处理

根据路透社的独家报道,英伟达公司正计划为中国市场量身设计一款新的旗舰人工智能芯片。 英伟达将与中国浪潮合作推出并销售这款代号为 B20 的芯片。浪潮是英伟达在中国的主要分销合作伙伴之一。 英伟达于今年 3 月发布了 Blackwell 芯片系列,预计将于今年晚些时候开始量产。 该系列中的 B200 芯片拥有强大的性能,能够以比上一代快 30 倍的速度完成聊天机器人响应任务。

优秀的个人博客,低调大师

如何使用GaussDB(DWS)的本地临时表进行数据处理

本文分享自华为云社区《GaussDB(DWS)临时表系列 - 本地临时表》,作者: acydy 。 GaussDB(DWS) 从8.2.1版本后支持三种形式的临时表:本地临时表、Volatile临时表、全局临时表。本文先介绍DWS的本地临时表功能。 本地临时表特点:表定义和数据都是会话相关,其他会话看不到本会话创建的本地临时表。元数据会持久化到系统表,集群节点异常出错可以支持RETRY。 语法与使用 CREATE [LOCAL] { TEMPORARY | TEMP } TABLE [ IF NOT EXISTS ] table_name ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ] | table_constraint | LIKE source_table [ like_option [...] ] } [, ... ]) [ WITH ( {storage_parameter = value} [, ... ] ) ] [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ] 建表时需要指定TEMP或者TEMPORARY,表示创建本地临时表。 ON COMMIT { PRESERVE ROWS | DELETE ROWS } ON COMMIT选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。 PRESERVE ROWS(缺省值):提交时不对临时表做任何操作,临时表及其表数据保持不变。建议使用此种类型。 DELETE ROWS:提交时删除临时表中数据。 其他部分与普通表相同。 gaussdb=# create temp table tmp1(a int,b int); NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default. HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column. CREATE TABLE 临时表可以与非临时表同名。如果同名,优先级临时表高于非临时表。 gaussdb=# create temp table tmp1(a int,b int); NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default. HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column. CREATE TABLE gaussdb=# insert into tmp1 values(1,1); INSERT 0 1 gaussdb=# create table tmp1(a int,b int); NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default. HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column. CREATE TABLE gaussdb=# select *from tmp1; a | b ---+--- 1 | 1 (1 row) gaussdb=# select *from public.tmp1; a | b ---+--- (0 rows) 视图:基于临时表创建的视图是临时视图。 postgres=# create view tmp_v1 as select *from tmp1; NOTICE: view "tmp_v1" will be a temporary view CREATE VIEW 使用场景 复杂业务逻辑使用本地临时表拆分 如果业务SQL语句过于复杂,可以使用本地临时表将执行的中间结果缓存下来,从而将复杂业务逻辑拆分成多个较简单语句。简单语句的统计信息更为准备,且拆分后的业务更易于维护。 支持CN节点出现异常。 GaussDB(DWS) 是一款分布式架构的数据库。有多个Coordinator(CN),关系对等。客户端可以连接任意一个CN。CN上存有表的元数据信息。在执行DDL时,会在所有DN上进行元数据的同步,保证数据一致性。如果某个CN出现异常,会导致创建表、删除表等操作执行失败,进而导致整个作业执行失败。 在这种场景,可以使用本地临时表。本地临时表只在当前会话可见。执行本地临时表的创建、ALTER、删除等操作时,只会在当前CN进行元数据的修改。这样可以不受其他CN节点异常的影响,保证业务使用连续性。 原理 临时表在元数据上与普通表的区别是临时表由于在其他会话不可见,所以会建在一个只属于当前会话的schema。本会话第一次创建临时表时会同时建立这个会话的schema。每一个会话的临时schema都不同。 会话1: gaussdb=# create temp table tmp1(a int,b int); NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default. HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column. CREATE TABLE gaussdb=# \d+ tmp1 Table "pg_temp_coordinator1_65_3_140257888512760.tmp1" Column | Type | Modifiers | Storage | Stats target | Description --------+---------+-----------+---------+--------------+------------- a | integer | | plain | | b | integer | | plain | | Has OIDs: no Distribute By: ROUND ROBIN Location Nodes: ALL DATANODES Options: orientation=row, compression=no: 会话2, 查询不到tmp1表。 gaussdb=# select * from tmp1; ERROR: relation "tmp1" does not exist LINE 1: select * from tmp1; ^ 临时schema的命名规则:pg_temp_Coordinator名_timelineID_全局自增ID_threadID Coordinator名:CN名称,隔离不同CN创建的schema。 timelineID:在节点重启后会增加,用于判断此schema是否已经无效。 全局自增ID:单个CN上自增ID。同一个CN不用会话自增ID不同。 元数据:本地临时表的relpersistence标识是’t’。 gaussdb=# select relname, relpersistence from pg_class where relname = 'tmp1'; relname | relpersistence ---------+---------------- tmp1 | t 数据清理: 会话正常退出 会话正常退出时, 本地临时表的表定义和数据都会被删除。无法再访问原来的数据。 会话异常退出或者当前CN或者某个DN节点异常时。 出现异常时,节点的元数据和数据不会被立即删除。 GaussDB(DWS)依赖组件gs_clean工具进行本地临时表的自动定期清理。保证数据再一段周期后得到清理,防止空间持续膨胀。 CN Retry CN Retry功能开启时会为临时表数据记录日志,为保证数据一致性,在使用临时表时不建议切换CN Retry开关状态,保持使用临时表的会话中CN Retry开关始终处于打开状态或者关闭状态。 在打开CN Retry时,DN节点异常重启,临时表的数据可以保证不丢失。DN重启后,仍可以访问之前的会话。 如果希望临时表不记录日志: set max_query_retry_times = 0; 使用约束 如果上层应用,使用了连接池机制连接GaussDB(DWS),在使用临时表时,强烈建议将连接归还连接池之前,将临时表主动删除,避免造成连接未断开导致的数据异常。或者使用命令DISCARD TEMP清理会话的临时表信息。 扩容时忽略本地临时表。 不支持gs_dump 本地临时表。 点击关注,第一时间了解华为云新鲜技术

优秀的个人博客,低调大师

Jcseg 2.6.3 发布 - Java 轻量级开源自然语言处理

Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene,solr 和 elasticsearch 的分词接口! 2.6.3 版本主要更新如下: 1、优化 mmseg 的过滤实现,主要是运行效率上的。 2、修复一个因为 “单字词条覆盖” 导致的 bug,这是一个隐藏很久的老 bug了,触发的情况会导致 “最大语素自由度” 的过滤异常,例如: # 怀旧时,词条 “时” 本身比 “怀” 的语素自由度高,也就是这个且分结果应该如下: jcseg~tokenizer:complex>> 怀旧时 分词结果: 怀旧[0,2]/v 时[2,1]/nhf Done, total:3, tokens:2, in 0.00000sec # 这个 bug 出现的时候且分结果会是错误的,例如:怀/ 旧时/ 3、词库更新:增加了一些新词条,例如 https 等。 2.6.3版本下载地址: 1、Gitee:https://gitee.com/lionsoul/jcseg/tree/v2.6.3-release 2、Github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.6.3-release

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册