科普｜文本分析浅析——文档分类-低调大师

科普｜文本分析浅析——文档分类

2017-05-01 787

序言

自动文档分类是一个很好的例子，说明如何善用机器学习和自然语言处理，让机器更好地处理人类语言。自动分类目的，是给一个文档或一段文字指派一个或多个类别，以方便对文档进行归类和管理。特别是对于出版社、新闻网站、博客或其他需要处理大量文字内容的人和机构来说，人工对文档，并进行分组和分类是极其耗费人力和时间的工作。

大体上讲，有两类机器学习方式：监督学习和非监督学习。监督学习方法是在“以往的观察”之上建立模型，这种“以往的观察”被称为训练集。在做文档分类时，预先定义好文档类别，再人工为训练数据集中每个文档打上类别标记。建立了训练数据集之后，接着是用这个人工标记的数据集训练一个分类器。其思想是：在训练完成后，这个分类器将能够预测任何一个给定文档的类别。

非监督机器学习方式有所不同，它们不需要训练数据集。以文档分类来说，类别是事先未知的。非监督

微信关注我们

原文链接：https://yq.aliyun.com/articles/80336

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

《机器学习系统设计：Python语言实现》一1.1　人机界面

.本节书摘来自华章出版社《机器学习系统设计：Python语言实现》一书中的第1章，第1.1节，作者 [美] 戴维·朱利安（David Julian），更多章节内容可以访问云栖社区“华章计算机”公众号查看 1.1　人机界面如果你有幸用过微软Office套件的早期版本，你大概还能记得Mr Clippy办公助手。这一功能出现在Office 97中，每当你在文档开头输入“亲爱的”，它就会不请自来，从电脑屏幕的右下角蹦出来，询问“你好像在写信，需要帮助吗？”在Office的早期版本中，Mr Clippy是默认开启的，几乎被所有软件用户嘲笑过，这可以作为机器学习的第一次大败笔而载入史册。那么，为什么这个欢乐的Mr Clippy会如此遭人痛恨呢？在日常办公任务中使用自动化助手不一定是个坏主意。实际上，自动化助手的后期版本，至少是最好的那几个，可以

2017-05-01

824

我在的部门在百度叫做深度学习实验室，这是2013年的时候在百度成立的专注于深度学习的实验室，应该是全世界在工业里面第一个专注于深度学习研究的实验室。我今天要和大家分享的首先是看一下最近几年来人工智能在图像语言方面的最新的进展，以及分享一下我对人工智能目前它缺少的东西，以及以后我们未来可以去继续工作的方向。人工智能这个概念最近几年非常火，我们看到人工智能传统的一些研究方向，像计算机视觉，还有语音识别，这些方面在最近几年都有了过去几十年不可想象的巨大进展。尤其是上个月Googel的AlphaGo和李世石下的那盘棋以后，更是激起了大家对人工智能高度的热情。为什么人工智能在最近几年有快速的发展呢？一个最重要的原因就是我们通过了几十年的积累，我们现在已经有了非常可观的计算能力，同时在这个计算能力的基础上，可以在一个可接受的时间内处理大数据。我们最近几年因为深度学习的发展，给我们提供了一个非常灵活的，非常具有建模能力的学习系统，正是因为这两者的结合，它能够把我们大数据后面蕴藏各种丰富复杂的关系，能够把它提取出来。从而成为我们人工智能快速前进的巨大推动力。因为看到深度学习的巨大潜力，...

2017-05-01

721

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。