搜索[文档处理]结果-低调大师优秀个人博客

精选列表

搜索[文档处理]，共10015篇文章

CentOS7编译安装Gcc9.2.0，解决mysql等软件编译问题

enable-bootstrap --enable-threads=posix 6.编译并安装 sh 复制代码 make -j4 && make install 注:这里的4指的是你的电脑处理器核心有几个

2025-09-05

CentOS8安装MyCat，轻松搞定数据库的读写分离、垂直分库、水平分库

存储过程，out参数、多结果集返回（1.6）支持zookeeper协调主从切换、zk序列、配置zk化（1.6）支持库内分表（1.6）集群基于ZooKeeper管理，在线升级，扩容，智能优化，大数据处理

2025-09-05

Apache Storm 官方文档 —— 配置

Storm 有大量配置项用于调整 nimbus、supervisors 和拓扑的行为。有些配置项是系统级的配置项，在拓扑中不能修改，另外一些配置项则是可以在拓扑中修改的。每一个配置项都在 Storm 代码库的defaults.yaml中有一个默认值。可以通过在 Nimbus 和 Supervisors 的环境变量中定义一个 storm.yaml 来覆盖默认值。最后，在使用StormSubmitter提交拓扑时也可以定义基于具体拓扑的配置项。但是，基于拓扑的配置项仅仅能够覆盖那些以 “TOPOLOGY” 作为前缀的配置项。 Storm 0.7.0 以上版本支持覆写每个 Bolt/Spout 的配置信息。不过，使用这种方式只能修改以下几个配置项： “topology.debug” “topology.max.spout.pending” “topology.max.task.parallelism” “topology.kryo.register”：由于序列化对拓扑中的所有组件都是可见的，这一项与其他几项稍微有一些不同，详细信息可以参考Storm 的序列化 Storm 的 Java API 支持两种自定义组件配置信息的方式：内置型：在需要配置的 Spout/Bolt 中覆写getComponentConfiguration方法，使其返回特定组件的配置表；外置型：TopologyBuilder中的setSpout与setBolt方法会返回一个带有addConfiguration方法的ComponentConfigurationDeclarer对象，通过addConfiguration方法就可以覆写对应组件的配置项（同时也可以添加自定义的配置信息——译者注）。配置信息的优先级依次为：defaults.yaml < storm.yaml < 拓扑配置 < 内置型组件信息配置 < 外置型组件信息配置。相关资料 Config：此类包含所有可配置项的列表，对于创建拓扑配置信息很有帮助 defaults.yaml：所有配置项的默认值配置 Storm 集群：说明了如何创建、配置一个 Storm 集群在生产环境中运行拓扑：列出了在集群中运行拓扑的一些有用的配置项本地模式：列出了使用本地模式时比较有用的配置项转载自并发编程网 - ifeve.com

2017-05-21

《Spark 官方文档》硬件配置

硬件配置 Spark开发者们常常被问到的一个问题就是：如何为Spark配置硬件。我们通常会给出以下的建议，但具体的硬件配置还依赖于实际的使用情况。存储系统因为绝大多数Spark作业都很可能是从外部存储系统加载输入数据（如：HDFS或者HBase），所以最好把Spark部署在离这些存储比较近的地方。建议如下：只要有可能，就尽量在HDFS相同的节点上部署Spark。最简单的方式就是，在HDFS相同的节点上独立部署Spark（standalone mode cluster），并配置好Spark和Hadoop的内存和CPU占用，以避免互相干扰（对Hadoop来说，相关的选项有 mapred.child.java.opts – 配置单个任务的内存，mapred.tasktracker.map.tasks.maximun和mapred.tasktracker.reduce.tasks.maximum – 配置任务个数）。当然，你也可以在一些通用的集群管理器上同时运行Hadoop和Spark，如：Mesos或Hadoop YARN。如果不能将Spark和HDFS放在一起，那么至少要将它们部署到同一局域网的节点中。对于像HBase这类低延迟数据存储来说，比起一味地避免存储系统的互相干扰，更需要关注的是将计算分布到不同节点上去。本地磁盘虽然大部分情况下，Spark都是在内存里做计算，但它仍会使用本地磁盘存储数据，如：存储无法装载进内存的RDD数据，存储各个阶段（stage）输出的临时文件。因此，我们建议每个节点上用4~8块磁盘，非磁盘阵列方式挂载（只需分开使用单独挂载点即可）。在Linux中，挂载磁盘时使用noatimeoption可以减少不必要的写操作。在Spark中，配置（configure）spark.local.dir 属性可指定Spark使用的本地磁盘目录，其值可以是逗号分隔的列表以指定多个磁盘目录。如果该节点上也有HDFS目录，可以和HDFS共用同一个块磁盘。内存一般来说，Spark可以在8GB~几百GB内存的机器上运行得很好。不过，我们还是建议最多给Spark分配75%的内存，剩下的内存留给操作系统和系统缓存。每次计算具体需要多少内存，取决于你的应用程序。如需评估你的应用程序在使用某个数据集时会占用多少内存，可以尝试先加载一部分数据集，然后在Spark的监控UI（http://<driver-node>:4040）上查看其占用内存大小。需要注意的是，内存占用很大程度受存储级别和序列化格式影响 – 更多内存优化建议，请参考调优指南（tuning guide）。最后，还需要注意的是，Java虚拟机在200GB以上内存的机器上并非总是表现良好。如果你的单机内存大于200GB，建议在单个节点上启动多个worker JVM。在Spark独立部署模式下（standalone mode），你可在conf/spark-env.sh 中设置 SPARK_WORKER_INSTANCES 来配置单节点上worker个数，而且在该文件中你还可以通过 SPARK_WORKER_CORES 设置单个worker占用的CPU core个数。网络以我们的经验来说，如果数据能加载进内存，那么多数Spark应用的瓶颈都是网络带宽。对这类应用，使用万兆网（10 Gigabit）或者更强的网络是最好的优化方式。对于一些包含有分布式归约相关算子（distributed reduce相关算子，如：group-by系列，reduce-by系列以及SQL join系列）的应用尤其是如此。对于任何一个应用，你可以在监控UI(http://<driver-node>:4040)上查看Spark混洗跨网络传输了多少数据量。 CPU Cores Spark在单机几十个CPU的机器上也能表现良好，因为Spark尽量减少了线程间共享的数据。但一般你至少需要单机8~16个CPU cores。当然，根据具体的计算量你可能需要更多的CPU，但是：一旦数据加载进内存，绝大多数应用的瓶颈要么是CPU，要么是网络。转载自并发编程网 - ifeve.com

2017-05-18

《Flink官方文档》示例总览

捆绑示例 Flink 资源包含了很多流式（java/scala) 和批处理（java/scala)的示例。这些介绍说明了这些示例如何运行。转载自并发编程网 - ifeve.com

2017-05-17

Android Fresco源码文档翻译

转载请注明出处 Fresco是facebook出品的目前性能最强的图片处理框架，其功能非常强大这里有介绍的网站Fresco功能介绍。

2017-03-20

Java 异常处理之捕获处理流程

异常分为编译时异常和运行期异常编译期异常必须用 try{}catch{}捕获,运行期异常可以不捕获编译期异常从 Exception 继承, 运行期异常从RuntimeException 继承异常的处理流程

2018-09-09

PESCMS DOC 文档管理系统 v2.1.7 发布，添加 API 编写文档功能

此版本带来了API编写文档功能。API的使用方式可以打开文档系统查看：《文档系统接口》主要更新内容添加API文档编写功能。添加文档章节复制功能。添加超级管理员的软件动态推荐功能。

2024-08-22

ONLYOFFICE 文档开发者版 8.0：API 和文档生成器更新

随着8.0 版新功能的发布，ONLYOFFICE 团队更新了编辑器、文档生成器和插件的 API。请阅读本文了解详情。

2024-02-07

开发者版 ONLYOFFICE 文档 7.5：API 和文档生成器更新

用于处理文档的 API 更改外部数据源：当用户尝试通过单击编辑器中的“更改源”按钮来更改外部数据源时，将调用新添加的events.onRequestReferenceSource事件。

2023-10-24

首个接入 ChatGPT 的开源文档工具来了！可用 AI 辅助生成文档！

更新了什么 ShowDoc 是一个非常适合 IT 团队的在线 API 文档、技术文档工具，既有免费开源版，也有开箱可用的在线官网版。

2023-03-03

如何写好技术文档——来自Google十多年的文档经验

首先声明，本问所说的文档不仅限于纯文本文档，还包含代码注释(注释也是一种特殊形式的文档)。

2021-07-27

QueryPHP v1-rc.2 多语言文档系统及文档更新

QueryPHP v1.0.0-rc.1 和 2,这两版本主要推进文档的编写进程，第一个 rc 版本实现多国语言文档，rc.2 开发几十篇文档。

2019-11-26

后台处理

后台处理 Tape （一个轻快的，事务性的，基于文件的FIFO的库） Android （Priority Job Queue 一个专门为Android轻松调度任务的工作队列）

2018-04-16

EloqDoc - 弹性文档数据库

如果您喜欢 MongoDB 文档模型的灵活性，但又因其耦合架构而在扩展性、成本和一致性方面遇到挑战，EloqDoc将是更好的替代方案。

2025-10-31

RAG 文档解析工具选型指南

本文基于作者在实际项目中的工具使用经验，系统梳理了处理不同类型文档的工具选择。从知识图谱处理的 GRAG、KG-RAG、GNN-RAG 等工具，到表格解析的 TableRAG、TA。

2025-08-22

Surya - 文档 OCR 工具包

Surya 是一个文档 OCR 工具包，它可以执行以下操作：支持 90 多种语言的 OCR，其基准性能优于云服务任何语言的行级文本检测布局分析（表格、图像、标题等检测）阅读顺序检测表格识别（检测行

2025-08-15

docTR —— OCR 文档文本识别库

ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True) 读取文件可以从 PDF 或图像解释文档

2022-12-27

再见PPT，你好“文档演示模式”

PPT 这种文档格式正在不断被用户抛弃。很多公司在抛弃 PPT 后，改用纸质或在线文档来开会，可是，开会时难道让人们埋头看资料和手机？为了兼容线下投屏，语雀的“文档演示模式”应运而生。

2021-12-28

小诺官方文档再次增强

开源版本Java脚手架（快速开发平台）层出不穷，作为一块项目利器+私活利器，开发途中难免会遇到一些问题，这时大部分小伙伴也会想到说是去看官方文档。

2021-01-18

如何生成dubbo rpc接口文档

当然本文的重点不是介绍dubbo的使用，而是介绍如何利用smart-doc工具来生成dubbo的rpc内部接口文档。

2020-07-13

JavaScript之-文档对象模型(DOM)

JavaScript之 -文档对象模型(DOM)：DOM -----Document Object Model 文档对象模型（DOM）是一个能够让程序和脚本动态访问和更新文档内容、结构和样式的语言平台，

2019-11-06

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。