搜索[数据脱敏]结果-低调大师优秀个人博客

精选列表

搜索[数据脱敏]，共10000篇文章

大数据信息挖掘中文分词是关键

在中文自然语言处理中，词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位，词语之间没有明显的区分标记，因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列，然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节，已被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。分词涉及许多方面的问题，主要包括： (1). 核心词表问题：许多分词算法都需要有一个核心的(通用、与领域无关的)词表。凡在该词表中的词，分词时就应该切分出来。但对于哪些词应当收进核心词表，目前尚无一个标准; (2). 词的变形问题：汉语中的动词和形容词有些可以产生变形结构，如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等，对这些变形结构的切分往往缺少可操作而又合理的规范; (3). 词缀的问题：如语素“者”在现代汉语中单用是没有意义的，因此“作者”、“成功者”、“开发者”内部不能切开。 (4). 汉语自动分词规范须支持各种不同目标的应用，但不同目标的应用对词的要求是不同甚至是矛盾的。比如以词为单位的键盘输入系统为了提高输入速度，一些互现频率高的相互邻接的几个字也常作为输入单位，如“这是”、“每一”、“并不”、“不多”、“不在”、“就是”、“也就”等; NLPIR/ICTCLAS分词系统针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，可以支持中英文分词与词性标注，可视化系统可根据词性对不同的分词结果进行区分显示，一般虚词都是浅色，而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入，用户可以在右下方添加用户词及词性。汉语词法分析能对汉语语言进行拆分处理，是中文信息处理必备的核心部件，采用条件随机场(Conditional Random Field,简称CRF)模型，分词准确率接近99%，具备准确率高、速度快、可适应性强等优势;特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。词性标注能对汉语语言进行词性的自动标注，它能够真正理解中文，自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”，采用条件随机场(Conditional Random Field,简称CRF)模型，一级词性标注准确率接近99%，具备准确率高、速度快、可适应性强等优势。在信息处理中，分词是一项基本技术，因为中文的词汇是紧挨着的，不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情，但对机器来说却很有挑战性，所以一直以来分词都是中文信息处理领域的重要的研究问题。

2017-12-03

视频网站数据平台变迁之路（一）

一.数据系统架构V1 _ 优酷早在2007年便采用php语言自主开发了一套数据系统。系统分为数据采集、数据存储、数据分析、报表平台，四个模块。

2017-12-02

docker深入1-docker的数据卷

docker深入1-docker的数据卷 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2017-11-27

阿里云RDS迁移mysql数据库

; mysql> FLUSH PRIVILEGES; mysql> \q systemctl restart mysqld（重启服务）第二步：阿里云ECS自建MySQL to RDS云数据库迁移记录

2017-11-26

angular架构预览(模块,组件.数据绑定等)

Angular 有很多装饰器，它们负责把“”元数据"附加到类上，以了解那些类的"设计意图"以及它们应"如何工作"。 NgModule是一个装饰器函数，它接收一个用来描述模块属性的元数据对象。

2017-11-26

HBase 与Hive数据交互整合过程详解

Hive和Hbase整合理论 1、为什么hive要和hbase整合 2、整合的优缺点优点： (1).Hive方便地提供了Hive QL的接口来简化MapReduce的使用，而HBase提供了低延迟的数据库访问

2017-11-26

利用Sqoop将MySQL数据导入Hive中

characterEncoding=UTF-8 --table employee --username root -password 'xx' --hive-database db_hive_edu 3.import数据

2017-11-26

获取数据库中的所有表

１、SQLDMO SQLDMO是操作SQLServer的理想的方式，如果您的数据库是SQLServer就可以考虑使用这种方式。

2017-11-25

VMWARE是如何打造数据中心平台

针对目前云计算炒作，我们都知道集中的数据中心带来的好处，却不知道这里面是如何去搭建，下面我们就可以从 VMWARE 推出的集成解决方案来看到。

2017-11-25

在Android使用Jsoup爬取网上数据

2.通过线程启动jsoup联网服务，以下是jsoup获取网上数据的一个方法代码 public static List<News> getNews() { final List<News

2017-11-25

iOS开发-UIWebView加载本地和网络数据

基础布局页面布局很简单就是一个文本框，一个按钮，一个UIWebView，页面布局如下: 如果想简单一点的话，其实用UIWebView也行，不过需要先准备一些文本数据，具体如下: 数据加载 ①直接拼接Html

2017-11-22

EnterpriseDB剑指Hadoop:优化数据处理

开源数据库：EnterpriseDB异军突起 EnterpriseDB是一家基于开源数据库PostgreSQL，提供增值服务的开源服务供应商。

2017-11-22

Android基础---获取手机硬件数据（转）

1、IMEI(International Mobile Equipment Identity) 是国际移动设备身份码的缩写，国际移动装备辨识码，是由15位数字组成的"电子串号"，它与每台手机一一对应，而且该码是全世界唯一的。每一只手机在组装完成后都将被赋予一个全球唯一的一组号码，这个号码从生产到交付使用都将被制造生产的厂商所记录。 2、IMSI 国际移动用户识别码（IMSI：International Mobile SubscriberIdentification Number）是区别移动用户的标志，储存在SIM卡中，可用于区别移动用户的有效信息。其总长度不超过15位，同样使用0～9的数字。 IMSI共有15位，其结构如下： MCC+MNC+MSIN MCC：Mobile Country Code，移动国家码，MCC的资源由国际电联（ITU）统一分配和管理，唯一识别移动用户所属的国家，共3位，中国为460; MNC:Mobile Network Code，移动网络码，共2位，中国移动系统使用00、02、07，中国联通GSM系统使用01，中国电信CDMA系统使用03，一个典型的IMSI号码为460030912121001; MSIN:Mobile Subscriber Identification Number共有10位，其结构如下： EF+M0M1M2M3+ABCD 其中的M0M1M2M3和MDN号码中的H0H1H2H3可存在对应关系，ABCD四位为自由分配。可以看出IMSI在NMSI号码前加了MCC，可以区别出每个用户的来自的国家，因此可以实现国际漫游。在同一个国家内，如果有多个移动网络运营商，可以通过MNC来进行区别. 需要权限： <uses-permission android:name= "android.permission.READ_PHONE_STATE" /> public class DeviceInfo { public static void getDeviceInfo(Context context) { TelephonyManager tm = (TelephonyManager)context.getSystemService(Context.TELEPHONY_SERVICE); String number = tm.getLine1Number(); //本机号码（多半不可取） String imei = tm.getDeviceId(); //（设备序列号全球唯一， IMEI） String businessName = tm.getNetworkOperatorName(); //运营商名字 String sim = tm.getSimSerialNumber(); //SIM卡序列号 String imsi = tm.getSubscriberId(); //IMSI String iso = tm.getNetworkCountryIso(); //设备所属国家 cn或者us 之类 String businessId = tm.getNetworkOperator(); //运营商ID System.out.println( " number : " +number + " imei " +imei + " bussnessName " +businessName + " sim " +sim + " imsi " +imsi + " iso " +iso + " businessId " +businessId ); } } 本文转自demoblog博客园博客，原文链接http://www.cnblogs.com/0616--ataozhijia/archive/2012/11/29/2795272.html如需转载请自行联系原作者 demoblog

2017-11-22

Android四个存储数据的SharedPreferences

除了SQLite外部数据库。SharedPreferences它是一个轻量级的数据存储，其本质是基于XML文件存储key-value键值数据，通过定期用它来存储一些简单的配置信息。

2017-11-21

IBM大数据处理平台BigInsights（2）

1，在HDFS文件系统上创建test目录 hadoop fs -mkdir /user/biadmin/test 2，将文件copy到test目录下 hadoop fs -put /var/adm/ibmvmcoc-postinstall/BIlicense_en.txt /user/biadmin/test 3，查看test目录下是否多了这个文件 biadmin@bivm:/etc/ibmvmcoc-postinstall> hadoop fs -ls /user/biadmin/test Found 1 items -rw-r--r-- 1 biadmin biadmin 62949 2016-01-01 22:34 /user/biadmin/test/BIlicense_en.txt 4，运行一个简单的MapReduce程序 WordCount是用JAVA写的针对Hadoop MapReduce的一个小程序，用于统计文本中每个单词的出现次数，关于WordCount更多内容请参考-http://wiki.apache.org/hadoop/WordCount 执行程序是hadoop-example.jar，内容是在刚刚创建的test目录下，输出到WordCount_outpt子目录中。如果没有此目录，会自动创建。 biadmin@bivm:/etc/ibmvmcoc-postinstall>hadoop jar /opt/ibm/biginsights/IHC/hadoop-example.jar wordcount /user/biadmin/test WordCount_output 16/01/01 22:36:08 INFO input.FileInputFormat: Total input paths to process : 1 16/01/01 22:36:18 INFO mapred.JobClient: Running job: job_201601012120_0001 16/01/01 22:36:19 INFO mapred.JobClient: map 0% reduce 0% 16/01/01 22:37:58 INFO mapred.JobClient: map 100% reduce 0% 16/01/01 22:39:07 INFO mapred.JobClient: map 100% reduce 100% 16/01/01 22:39:14 INFO mapred.JobClient: Job complete: job_201601012120_0001 16/01/01 22:39:15 INFO mapred.JobClient: Counters: 29 16/01/01 22:39:15 INFO mapred.JobClient: File System Counters 16/01/01 22:39:15 INFO mapred.JobClient: FILE: BYTES_READ=33219 16/01/01 22:39:15 INFO mapred.JobClient: FILE: BYTES_WRITTEN=419738 16/01/01 22:39:15 INFO mapred.JobClient: HDFS: BYTES_READ=63073 16/01/01 22:39:15 INFO mapred.JobClient: HDFS: BYTES_WRITTEN=24073 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.JobCounter 16/01/01 22:39:15 INFO mapred.JobClient: TOTAL_LAUNCHED_MAPS=1 16/01/01 22:39:15 INFO mapred.JobClient: TOTAL_LAUNCHED_REDUCES=1 16/01/01 22:39:15 INFO mapred.JobClient: DATA_LOCAL_MAPS=1 16/01/01 22:39:15 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=95300 16/01/01 22:39:15 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=50249 16/01/01 22:39:15 INFO mapred.JobClient: FALLOW_SLOTS_MILLIS_MAPS=0 16/01/01 22:39:15 INFO mapred.JobClient: FALLOW_SLOTS_MILLIS_REDUCES=0 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.TaskCounter 16/01/01 22:39:15 INFO mapred.JobClient: MAP_INPUT_RECORDS=755 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_RECORDS=9865 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_BYTES=102036 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_MATERIALIZED_BYTES=33219 16/01/01 22:39:15 INFO mapred.JobClient: SPLIT_RAW_BYTES=124 16/01/01 22:39:15 INFO mapred.JobClient: COMBINE_INPUT_RECORDS=9865 16/01/01 22:39:15 INFO mapred.JobClient: COMBINE_OUTPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_INPUT_GROUPS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_SHUFFLE_BYTES=33219 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_INPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_OUTPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: SPILLED_RECORDS=4644 16/01/01 22:39:15 INFO mapred.JobClient: CPU_MILLISECONDS=22130 16/01/01 22:39:15 INFO mapred.JobClient: PHYSICAL_MEMORY_BYTES=538050560 16/01/01 22:39:15 INFO mapred.JobClient: VIRTUAL_MEMORY_BYTES=3549384704 16/01/01 22:39:15 INFO mapred.JobClient: COMMITTED_HEAP_BYTES=2097152000 16/01/01 22:39:15 INFO mapred.JobClient: File Input Format Counters 16/01/01 22:39:15 INFO mapred.JobClient: Bytes Read=62949 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.lib.output.FileOutputFormat$Counter 16/01/01 22:39:15 INFO mapred.JobClient: BYTES_WRITTEN=24073 会自动创建WordCount_output目录 biadmin@bivm:/etc/ibmvmcoc-postinstall> hadoop fs -ls WordCount_output Found 3 items -rw-r--r-- 1 biadmin biadmin 0 2016-01-01 22:39 WordCount_output/_SUCCESS drwx--x--x - biadmin biadmin 0 2016-01-01 22:36 WordCount_output/_logs -rw-r--r-- 1 biadmin biadmin 24073 2016-01-01 22:39 WordCount_output/part-r-00000 biadmin@bivm:~> hadoop fs -cat WordCount_output/*00 names, 1 national 1 nature 1 necessary 4 negligence 5 negligence, 4 negligence. 1 negligence; 2 neither 3 net 1 上面是用命令行方式来MapReduce，除此之外，IBM BigInsights还提供了基于Web界面的方式，打开Applications子选项，切换到Manage，可以看到预先定义的一些应用。在Test下面，有个WordCount应用，点开后选择“Deploy” 然切换到Run，可以看到已经有了WordCount这个应用，选中WordCount，输入要统计文件所在的目录及输出目录，点击Run开始运行同样地，也可以通过Web界面来操作HDFS文件系统，包括创建、删除、修改目录或者文件用浏览器打开JobTracker（http://192.168.133.135:50030/jobtracker.jsp），显示出最近运行的MapReduce任务，点开JobID能看到更多详细信息。所谓的JobTracker是一个master服务，Hadoop启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。本文转自 taojin1240 51CTO博客，原文链接：http://blog.51cto.com/taotao1240/1735420，如需转载请自行联系原作者

2017-11-21

用nifi把hdfs数据导到hive

全景图： 1. ListHDFS & FetchHDFS: ListHDFS: FetchHDFS: 2. EvaluateJsonPath: {"status": {"code":500,"message":"FAILED","detail":"DTU ID not exists"}} 如果json里有数组，需要先用SplitJson分隔： 3. RouteOnContent: 4. ReplaceText: 先在hive里创建一个表： create table tb_test( register string, register_url string ); 1 1 insert into yongli.tb_test(register, register_url)values( '${register}' , '${register_url}' ) 1 1 下面介绍一种效率更高的方式： 1 还是用ReplaceText: 1 1 再用MergeContent: 1 insert into yongli.tb_dtu(dtuid, addr, value, time)values 5. PutHiveQL: 创建一个HiveConnectionPool 设置Database Connection URL， User， Password：本文转自疯吻IT博客园博客，原文链接：http://www.cnblogs.com/fengwenit/p/5823177.html，如需转载请自行联系原作者

2017-11-21

Android 连接网络数据库的方式

以连接MS SQL（sqlserver数据库）的网络数据库为例，从当前搜集的资料来看，一共有两种方式：在Android工程中引入JDBC驱动，直接连接；通过WebService等方法的间接连接。

2017-11-20

Android 数据库升级解决方案

请考虑如下情况：在数据库升级时，不同版本的数据库，他们定义的表结构完全可能是不一样的，比如V1.0的表A有10个column，而在V1.1的表A有12个colum，在升级时，表A增加了两列，此时我们应该怎么做呢

2017-11-20

Spark Streaming 实现数据实时统计案例

上图讲解运行环境:需要linux环境下的spark环境本例用的centOS 6.5x64 因为需要使用TCP协议传输数据，所以需要安装一个nc插件。

2017-11-20

使用 MyMeta 组件获取数据库结构

MyMeta 组件是代码自动生成工具 MyGeneration 的核心模块之一，主要负责定义和获取关系数据库结构。

2017-11-20

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

精选列表

大数据信息挖掘中文分词是关键

视频网站数据平台变迁之路（一）

docker深入1-docker的数据卷

阿里云RDS迁移mysql数据库

angular架构预览(模块,组件.数据绑定等)

HBase 与Hive数据交互整合过程详解

利用Sqoop将MySQL数据导入Hive中

获取数据库中的所有表

VMWARE是如何打造数据中心平台

在Android使用Jsoup爬取网上数据

iOS开发-UIWebView加载本地和网络数据

EnterpriseDB剑指Hadoop:优化数据处理

Android基础---获取手机硬件数据（转）

Android四个存储数据的SharedPreferences

IBM大数据处理平台BigInsights（2）

用nifi把hdfs数据导到hive

Android 连接网络数据库的方式

Android 数据库升级解决方案

Spark Streaming 实现数据实时统计案例

使用 MyMeta 组件获取数据库结构

资源下载

Mario

Spring

Rocky Linux

WebStorm

欢迎您来访！