首页 文章 精选 留言 我的

精选列表

搜索[数据脱敏],共10000篇文章
优秀的个人博客,低调大师

数据信息挖掘中文分词是关键

在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。分词涉及许多方面的问题,主要包括: (1). 核心词表问题:许多分词算法都需要有一个核心的(通用、与领域无关的)词表。凡在该词表中的词,分词时就应该切分出来。但对于哪些词应当 收进核心词表,目前尚无一个标准; (2). 词的变形问题:汉语中的动词和形容词有些可以产生变形结构,如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等,对这些变形结构的切分往往缺少可操作而又合理的规范; (3). 词缀的问题:如语素“者”在现代汉语中单用是没有意义的,因此“作者”、“成功者”、“开发者”内部不能切开。 (4). 汉语自动分词规范须支持各种不同目标的应用,但不同目标的应用对词的要求是不同甚至是矛盾的。比如以词为单位的键盘输入系统为了提高输入速度,一些互现频率高的相互邻接的几个字也常作为输入单位,如“这是”、“每一”、“并不”、“不多”、“不在”、“就是”、“也就”等; NLPIR/ICTCLAS分词系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性。 汉语词法分析能对汉语语言进行拆分处理,是中文信息处理必备的核心部件,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。 词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”,采用条件随机场(Conditional Random Field,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。 在信息处理中,分词是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题。

优秀的个人博客,低调大师

Android基础---获取手机硬件数据(转)

1、IMEI(International Mobile Equipment Identity) 是国际移动设备身份码的缩写, 国际移动装备辨识码,是由15位数字组成的"电子串号",它与每台手机一一对应,而且该码是全世界唯一的。 每一只手机在组装完成后都将被赋予一个全球唯一的一组号码,这个号码从生产到交付使用都将被制造生产的厂商所记录。 2、IMSI 国际移动用户识别码(IMSI:International Mobile SubscriberIdentification Number) 是区别移动用户的标志,储存在SIM卡中,可用于区别移动用户的有效信息。其总长度不超过15位,同样使用0~9的数字。 IMSI共有15位,其结构如下: MCC+MNC+MSIN MCC:Mobile Country Code,移动国家码,MCC的资源由国际电联(ITU)统一分配和管理,唯一识别移动用户所属的国家,共3位,中国为460; MNC:Mobile Network Code,移动网络码,共2位,中国移动系统使用00、02、07,中国联通GSM系统使用01,中国电信CDMA系统使用03,一个典型的IMSI号码为460030912121001; MSIN:Mobile Subscriber Identification Number共有10位,其结构如下: EF+M0M1M2M3+ABCD 其中的M0M1M2M3和MDN号码中的H0H1H2H3可存在对应关系,ABCD四位为自由分配。 可以看出IMSI在NMSI号码前加了MCC,可以区别出每个用户的来自的国家,因此可以实现国际漫游。在同一个国家内,如果有多个移动网络运营商,可以通过MNC来进行区别. 需要权限: <uses-permission android:name= "android.permission.READ_PHONE_STATE" /> public class DeviceInfo { public static void getDeviceInfo(Context context) { TelephonyManager tm = (TelephonyManager)context.getSystemService(Context.TELEPHONY_SERVICE); String number = tm.getLine1Number(); //本机号码(多半不可取) String imei = tm.getDeviceId(); //(设备序列号全球唯一, IMEI) String businessName = tm.getNetworkOperatorName(); //运营商名字 String sim = tm.getSimSerialNumber(); //SIM卡序列号 String imsi = tm.getSubscriberId(); //IMSI String iso = tm.getNetworkCountryIso(); //设备所属国家 cn或者us 之类 String businessId = tm.getNetworkOperator(); //运营商ID System.out.println( " number : " +number + " imei " +imei + " bussnessName " +businessName + " sim " +sim + " imsi " +imsi + " iso " +iso + " businessId " +businessId ); } } 本文转自demoblog博客园博客,原文链接http://www.cnblogs.com/0616--ataozhijia/archive/2012/11/29/2795272.html如需转载请自行联系原作者 demoblog

优秀的个人博客,低调大师

IBM大数据处理平台BigInsights(2)

1,在HDFS文件系统上创建test目录 hadoop fs -mkdir /user/biadmin/test 2,将文件copy到test目录下 hadoop fs -put /var/adm/ibmvmcoc-postinstall/BIlicense_en.txt /user/biadmin/test 3,查看test目录下是否多了这个文件 biadmin@bivm:/etc/ibmvmcoc-postinstall> hadoop fs -ls /user/biadmin/test Found 1 items -rw-r--r-- 1 biadmin biadmin 62949 2016-01-01 22:34 /user/biadmin/test/BIlicense_en.txt 4,运行一个简单的MapReduce程序 WordCount是用JAVA写的针对Hadoop MapReduce的一个小程序,用于统计文本中每个单词的出现次数,关于WordCount更多内容请参考-http://wiki.apache.org/hadoop/WordCount 执行程序是hadoop-example.jar,内容是在刚刚创建的test目录下,输出到WordCount_outpt子目录中。如果没有此目录,会自动创建。 biadmin@bivm:/etc/ibmvmcoc-postinstall>hadoop jar /opt/ibm/biginsights/IHC/hadoop-example.jar wordcount /user/biadmin/test WordCount_output 16/01/01 22:36:08 INFO input.FileInputFormat: Total input paths to process : 1 16/01/01 22:36:18 INFO mapred.JobClient: Running job: job_201601012120_0001 16/01/01 22:36:19 INFO mapred.JobClient: map 0% reduce 0% 16/01/01 22:37:58 INFO mapred.JobClient: map 100% reduce 0% 16/01/01 22:39:07 INFO mapred.JobClient: map 100% reduce 100% 16/01/01 22:39:14 INFO mapred.JobClient: Job complete: job_201601012120_0001 16/01/01 22:39:15 INFO mapred.JobClient: Counters: 29 16/01/01 22:39:15 INFO mapred.JobClient: File System Counters 16/01/01 22:39:15 INFO mapred.JobClient: FILE: BYTES_READ=33219 16/01/01 22:39:15 INFO mapred.JobClient: FILE: BYTES_WRITTEN=419738 16/01/01 22:39:15 INFO mapred.JobClient: HDFS: BYTES_READ=63073 16/01/01 22:39:15 INFO mapred.JobClient: HDFS: BYTES_WRITTEN=24073 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.JobCounter 16/01/01 22:39:15 INFO mapred.JobClient: TOTAL_LAUNCHED_MAPS=1 16/01/01 22:39:15 INFO mapred.JobClient: TOTAL_LAUNCHED_REDUCES=1 16/01/01 22:39:15 INFO mapred.JobClient: DATA_LOCAL_MAPS=1 16/01/01 22:39:15 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=95300 16/01/01 22:39:15 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=50249 16/01/01 22:39:15 INFO mapred.JobClient: FALLOW_SLOTS_MILLIS_MAPS=0 16/01/01 22:39:15 INFO mapred.JobClient: FALLOW_SLOTS_MILLIS_REDUCES=0 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.TaskCounter 16/01/01 22:39:15 INFO mapred.JobClient: MAP_INPUT_RECORDS=755 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_RECORDS=9865 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_BYTES=102036 16/01/01 22:39:15 INFO mapred.JobClient: MAP_OUTPUT_MATERIALIZED_BYTES=33219 16/01/01 22:39:15 INFO mapred.JobClient: SPLIT_RAW_BYTES=124 16/01/01 22:39:15 INFO mapred.JobClient: COMBINE_INPUT_RECORDS=9865 16/01/01 22:39:15 INFO mapred.JobClient: COMBINE_OUTPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_INPUT_GROUPS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_SHUFFLE_BYTES=33219 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_INPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: REDUCE_OUTPUT_RECORDS=2322 16/01/01 22:39:15 INFO mapred.JobClient: SPILLED_RECORDS=4644 16/01/01 22:39:15 INFO mapred.JobClient: CPU_MILLISECONDS=22130 16/01/01 22:39:15 INFO mapred.JobClient: PHYSICAL_MEMORY_BYTES=538050560 16/01/01 22:39:15 INFO mapred.JobClient: VIRTUAL_MEMORY_BYTES=3549384704 16/01/01 22:39:15 INFO mapred.JobClient: COMMITTED_HEAP_BYTES=2097152000 16/01/01 22:39:15 INFO mapred.JobClient: File Input Format Counters 16/01/01 22:39:15 INFO mapred.JobClient: Bytes Read=62949 16/01/01 22:39:15 INFO mapred.JobClient: org.apache.hadoop.mapreduce.lib.output.FileOutputFormat$Counter 16/01/01 22:39:15 INFO mapred.JobClient: BYTES_WRITTEN=24073 会自动创建WordCount_output目录 biadmin@bivm:/etc/ibmvmcoc-postinstall> hadoop fs -ls WordCount_output Found 3 items -rw-r--r-- 1 biadmin biadmin 0 2016-01-01 22:39 WordCount_output/_SUCCESS drwx--x--x - biadmin biadmin 0 2016-01-01 22:36 WordCount_output/_logs -rw-r--r-- 1 biadmin biadmin 24073 2016-01-01 22:39 WordCount_output/part-r-00000 biadmin@bivm:~> hadoop fs -cat WordCount_output/*00 names, 1 national 1 nature 1 necessary 4 negligence 5 negligence, 4 negligence. 1 negligence; 2 neither 3 net 1 上面是用命令行方式来MapReduce,除此之外,IBM BigInsights还提供了基于Web界面的方式,打开Applications子选项,切换到Manage,可以看到预先定义的一些应用。在Test下面,有个WordCount应用,点开后选择“Deploy” 然切换到Run,可以看到已经有了WordCount这个应用, 选中WordCount,输入要统计文件所在的目录及输出目录,点击Run开始运行 同样地,也可以通过Web界面来操作HDFS文件系统,包括创建、删除、修改目录或者文件 用浏览器打开JobTracker(http://192.168.133.135:50030/jobtracker.jsp),显示出最近运行的MapReduce任务,点开JobID能看到更多详细信息。 所谓的JobTracker是一个master服务,Hadoop启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。 本文转自 taojin1240 51CTO博客,原文链接:http://blog.51cto.com/taotao1240/1735420,如需转载请自行联系原作者

优秀的个人博客,低调大师

用nifi把hdfs数据导到hive

全景图: 1. ListHDFS & FetchHDFS: ListHDFS: FetchHDFS: 2. EvaluateJsonPath: {"status": {"code":500,"message":"FAILED","detail":"DTU ID not exists"}} 如果json里有数组,需要先用SplitJson分隔: 3. RouteOnContent: 4. ReplaceText: 先在hive里创建一个表: create table tb_test( register string, register_url string ); 1 1 insert into yongli.tb_test(register, register_url)values( '${register}' , '${register_url}' ) 1 1 下面介绍一种效率更高的方式: 1 还是用ReplaceText: 1 1 再用MergeContent: 1 insert into yongli.tb_dtu(dtuid, addr, value, time)values 5. PutHiveQL: 创建一个HiveConnectionPool 设置Database Connection URL, User, Password: 本文转自疯吻IT博客园博客,原文链接:http://www.cnblogs.com/fengwenit/p/5823177.html,如需转载请自行联系原作者

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册