搜索[文档处理]结果-低调大师优秀个人博客

AI 处理器全景指南

Image Credit: Wikipedia CPU 还包含核心（cores） ------ 即 CPU 内部的处理单元，每个核心都能独立处理指令；以及线程（threads），允许一个核心同时处理多条指令流

2025-12-10

Pathway —— Python 流处理 ETL 框架

Pathway是一个用于流处理、实时分析、LLM 管道和 RAG 的 Python ETL 框架。

2025-06-05

如何处理 MySQL 主从延迟？

不过，如果你的系统数据量比较大，亦或者业务对数据实时性要求比较高，那么我们还是需要想办法去处理这个主从延迟。一般来说有如下几种思路，松哥来和大家一一说明。

2024-08-26

BeetlSQL 3.23.1 发布，批处理优化

* 优化 #I73HGK 批处理过程的跟踪 ,默认情况下，jdbc batch 操作，只会打印第一条sql以及第一条的参数，在调用 sqlManager.setBatchLogOneByOne(true

2023-05-22

全栈角度看分页处理

文章会从正常的web 结构分层的角度去梳理不同层的处理。分为数据库分页、服务端分页、前端分页数据库分页这里用mysql 举例整理。

2023-02-13

数据预处理和特征选择

数据分析流程图数据预处理什么是数据预处理？在特征工程和日志前，检测和去除数据集中的噪声数据和无关数据，处理漏洞数据，去除空白数据。为什么要做数据预处理？

2022-03-11

Meta分析数据处理流程

一、制定检索策略，确定纳入研究的文献按照选题指定检索策略，全面广泛地收集随机对照试验确定纳入和排除标准，剔除不符合要求的文献资料选择和提取，包括原文的结果数据、图表等各试验的质量评估和特征描述统计学处理结果解释

2021-03-27

高效优雅处理程序错误实战

也许你会觉得这个事没什么意思，处理错误的代码并不难写。但你想过没有，要把错误处理写好，并不是件容易的事情。

2021-03-21

Martian 发布 3.2.15，采用异步处理

本次更新的点如下接口支持设置多种请求方式采用了线程池来并发处理每次获取到的这一批SelectionKey 设置多种请求方式在RequestMethod注解上设置多个方式即可 @RequestMethod

2021-02-27

WebRTC ICE 状态与提名处理

不管 Controlling 或者 Controlled 模式下的 Agent，处理提名的状态更新规则建议如下：如果没有提名的 Pair，则继续进行连通性检查的过程。

2021-01-13

用户行为分之数据处理

一、数据架构上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分，同时也对用户行为分析做了简单的介绍，本篇我们来说一下用户行为分析的数据处理部分。

2020-09-23

SQL中的Null值处理

在日常的开发中，遇到需要处理 Null 值的场景还是蛮常见的。比如，查询某个字段包含 Null 值的记录、在展示的时候将 Null 值转为其它值、聚合包含 Null 值的列等。

2020-08-23

JAVA中byte为负数处理

java中一定有人遇见过byte取值为负数情况，比如0xc0对应的值-64，其实应该是192，这里就需要我们转化处理/** * Description: 负数byte转正int <BR> *

2020-05-11

go 下面文件锁的处理

.close) 把 Finalizer 设置在私有对象 File.file 上了，外层用户如果仅仅在 File 上取消 Finalizer，当 GC 开始时，f.file 仍然会调用 close 进行处理

2019-09-03

【翻译】split lock检测与处理

最近，Intel工程师Fenghua Yu同学正在开发一组内核补丁，用于检测和处理split lock，现在已经发出了第8版code review。阿里巴巴在多年前就意识到split loc

2019-08-25

Java异常与处理机制

Java异常与处理机制Java的异常层次体系 Java的所有异常对象都派生自Throwable类，下层有两个分支：error和exception。

2019-07-20

声明：此方案是在spark直接执行gremlinSQL方案实现受阻的情况下的备选方案，不涉及工作机密，不存在泄密可能，纯属个人思考，希望抛砖引玉方案：将gremlinSql的查询结果转化为startGraph，然后转写到HDFS，spark读取hdfs的starGraphJSon构建graphx可用的图，然后就可以调用graphx丰富的图计算算法；从而将实现graphX操作janusgraph的目的 1. gremlinSql的查询结果转换成starGraphJson 由于org.apache.tinkerpop.gremlin.structure.io.graphson.GraphSONWriter保存的graphSon格式无法满足需求，所以将查询出的带path的点边数据自己转换成单点图的json结构，转化方法如下，然后存到hdfs，存储方法不再赘述。 public StringBuilder generatorStarGraphJson(Vertex vertex, Edge edge, StringBuilder starGraphJson){ String inVId; String outVId; String VId; starGraphJson.append("{").append("\"id\":"+vertex.id()+","+"\"label\":\""+vertex.label()+"\","); //这种情况有outE和inE，outE中会有inV信息,inE会有一个inV inVId = edge.inVertex().id().toString(); outVId = edge.outVertex().id().toString(); VId = vertex.id().toString(); if(inVId.equalsIgnoreCase(VId)){ starGraphJson.append("\"outE\":{").append("\""+edge.label()+"\":[{").append("\"id\":\""+edge.id()+"\",") .append("\"inV\":"+edge.inVertex().id()+",").append("\"properties\":{"+concatEdgeProperties(edge)+"}}]},"); }else if(outVId.equalsIgnoreCase(VId)){ starGraphJson.append("\"inE\":{").append("\""+edge.label()+"\":[{").append("\"id\":\""+edge.id()+"\",") .append("\"outV\":"+edge.inVertex().id()+",").append("\"properties\":{"+concatEdgeProperties(edge)+"}}]},"); }else{ throw new Exception("点边不对应数据错误！！！"); } //拼接点的properties starGraphJson.append("\"properties\":{").append(concatVertexProperties(vertex)).append("}}"); return starGraphJson; } 2. spark读取指定路径的starGraph转成graph class GraphSon2GraphXRDD() extends Serializable { def getGraphConf(HDFSFilePath : String): BaseConfiguration ={ val inputGraphConf = new BaseConfiguration inputGraphConf.setProperty("gremlin.graph", classOf\[HadoopGraph\].getName) inputGraphConf.setProperty(Constants.GREMLIN\_HADOOP\_GRAPH\_READER, classOf\[GraphSONInputFormat\].getName) inputGraphConf.setProperty(Constants.GREMLIN\_HADOOP\_INPUT\_LOCATION, HDFSFilePath) inputGraphConf.setProperty(Constants.MAPREDUCE\_INPUT\_FILEINPUTFORMAT_INPUTDIR, HDFSFilePath) inputGraphConf } def getSc(sparkHost:String ,isRemote:Boolean): SparkContext ={ var sparkConf = new SparkConf() if(isRemote){ //待完善 }else{ sparkConf.setMaster("local\[*\]").setAppName("GraphSon2GraphX") } val sc = new SparkContext(sparkConf) sc } def getJavaRDD(conf : BaseConfiguration, sc : SparkContext): JavaPairRDD\[AnyRef, VertexWritable\] ={ val jsc = JavaSparkContext.fromSparkContext(sc) val graphRDDInput = new InputFormatRDD val vertexWritableJavaPairRDD = graphRDDInput.readGraphRDD(conf, jsc) vertexWritableJavaPairRDD } def getVertexRDD(vertexWritableJavaPairRDD : JavaPairRDD\[AnyRef, VertexWritable\]): RDD\[(Long,util.HashMap\[String,java.io.Serializable\])\] ={ vertexWritableJavaPairRDD.rdd.map((tuple2: Tuple2\[AnyRef, VertexWritable\]) => { // Get the center vertex val v = tuple2._2.get val g = StarGraph.of(v) // In case the vertex id in TinkerGraph is not long type // val vid = convertStringIDToLongID([v.id](http://v.id)().toString) val vid = [v.id](http://v.id)().toString.toLong // Pass the vertex properties to GraphX vertex value map and remain the original vertex id var graphxValueMap : util.HashMap\[String,java.io.Serializable\] = new util.HashMapString,java.io.Serializable graphxValueMap.put("originalID",[v.id](http://v.id)().toString) graphxValueMap.putAll(g.traversal.V([v.id](http://v.id)).valueMap().next(1).get(0)) (vid,graphxValueMap) }) } def getEdgeRDD(vertexWritableJavaPairRDD : JavaPairRDD\[AnyRef, VertexWritable\]): RDD\[graphx.Edge\[util.HashMap\[String, java.io.Serializable\]\]\] ={ val edge = vertexWritableJavaPairRDD.rdd.flatMap((tuple2: Tuple2\[AnyRef, VertexWritable\]) => { val v = tuple2._2.get val g = StarGraph.of(v) val edgelist:util.List\[Edge\] = g.traversal.V([v.id](http://v.id)).outE().toList // Put all edges of the center vertex into the list val list = new collection.mutable.ArrayBuffer[graphx.Edge[util.HashMap[String,java.io.Serializable]]]() var x = 0 for(x <- 0 until edgelist.size()){ var srcId = edgelist.get(x).inVertex.id().toString var dstId = edgelist.get(x).outVertex.id().toString // val md1 = convertStringIDToLongID(srcId) // val md2 = convertStringIDToLongID(dstId) val md1 = srcId.toLong val md2 = dstId.toLong // Get the properties of the edge var edgeAttr = new util.HashMap[String,java.io.Serializable]() var perporties : util.Iterator[Property[Nothing]] = edgelist.get(x).properties() while(perporties.hasNext){ val property = perporties.next() edgeAttr.put(property.key(),property.value().toString) } list.append(graphx.Edge(md1,md2,edgeAttr)) } list }) val edgeRDD = edge.distinct() edgeRDD } def doLAP(vertexWritableJavaPairRDD : JavaPairRDD\[AnyRef, VertexWritable\], iterationNum : Int): Array\[Array\[String\]\] = { val vertexRDD = getVertexRDD(vertexWritableJavaPairRDD) val edgeRDD = getEdgeRDD(vertexWritableJavaPairRDD) val graph = graphx.Graph[util.HashMap[String,java.io.Serializable], util.HashMap[String,java.io.Serializable]](vertexRDD,edgeRDD,new util.HashMap[String,java.io.Serializable]()) val LVMRsult = lib.LabelPropagation.run(graph , iterationNum).vertices.collect.sortWith (_._1 < _._1).map(f => { println(f.toString()) f}) getFinalCommunit(LVMRsult) } def getFinalCommunit(LVMRsult:Array\[(Long,Long)\]): Array\[Array\[String\]\] ={ var result = new Array[Array\[String\]](LVMRsult.length) var tmp = new ArrayBufferString for(i <- 0 until LVMRsult.length){ var k = 0 val array = new ArrayBufferString //社区中包含多个值 for(j <- (i+1) until LVMRsult.length) { if(LVMRsult(i)._2.equals(LVMRsult(j)._2)){ if(!tmp.contains(LVMRsult(i)._1.toString)){ array += LVMRsult(i)._1.toString tmp += LVMRsult(i)._1.toString } if(!tmp.contains(LVMRsult(j)._1.toString)){ array += LVMRsult(j)._1.toString tmp += LVMRsult(j)._1.toString } k = k+1 } } //自己为一个社区 if(k.equals(0)){ if(!tmp.contains(LVMRsult(i)._1.toString)){ array += LVMRsult(i)._1.toString tmp += LVMRsult(i)._1.toString } } if(array.length > 0){ result.update(i,array.toArray.distinct) } } result.filter(f => { println(if (f.length >0) f.mkString("(",",",")")) f != null }) } def doPageRank(vertexWritableJavaPairRDD : JavaPairRDD\[AnyRef, VertexWritable\], stopThreshold : Double): Array\[Array\[Any\]\] = { val vertexRDD:RDD\[(Long,util.HashMap\[String,java.io.Serializable\])\] = getVertexRDD(vertexWritableJavaPairRDD) val edgeRDD = getEdgeRDD(vertexWritableJavaPairRDD) val graph = graphx.Graph[util.HashMap[String,java.io.Serializable], util.HashMap[String,java.io.Serializable]](vertexRDD,edgeRDD,new util.HashMap[String,java.io.Serializable]()) val gpgraph = graph.pageRank(stopThreshold).cache() val titleAndPrGraph = graph.outerJoinVertices(gpgraph.vertices) { (v, title, rank) => (rank.getOrElse(0.0), title) } //倒序 false 正序 true // titleAndPrGraph.vertices.sortBy((entry: (VertexId, (Double, Object))) => entry.\_2.\_1, false).foreach(f => println(f.\_1+":"+f.\_2._1)) val pageRank = titleAndPrGraph.vertices.sortBy((entry: (VertexId, (Double, Object))) => entry._2._1, false).map(f => { println(f._1+":"+f._2._1) Array(f._1.toString,f._2._1) }) pageRank.collect() } } 这样就贯通了janusgraph和graphx，调用graphx的丰富的图计算功能就畅通无阻，就是实现有点挫，希望抛砖引玉

2019-05-20

HanLP 自然语言处理 for nodejs

text ) @param String text [文本] @ruten Object let words = HanLP.NLPTokenizer("中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程

2019-04-23

谈谈Java任务的并行处理

前言谈到并行，我们可能最先想到的是线程，多个线程一起运行，来提高我们系统的整体处理速度；为什么使用多个线程就能提高处理速度，因为现在计算机普遍都是多核处理器，我们需要充分利用cpu资源；如果站的更高一点来看

2019-04-22

精选列表

AI 处理器全景指南

Pathway —— Python 流处理 ETL 框架

如何处理 MySQL 主从延迟？

BeetlSQL 3.23.1 发布，批处理优化

全栈角度看分页处理

数据预处理和特征选择

Meta分析数据处理流程

高效优雅处理程序错误实战

Martian 发布 3.2.15，采用异步处理

WebRTC ICE 状态与提名处理

用户行为分之数据处理

SQL中的Null值处理

JAVA中byte为负数处理

初探大数据处理 on Kubernetes

go 下面文件锁的处理

【翻译】split lock检测与处理

Java异常与处理机制

Graphx处理janusGraph数据实现

HanLP 自然语言处理 for nodejs

谈谈Java任务的并行处理

资源下载

腾讯云软件源

Spring

Sublime Text

WebStorm

欢迎您来访！