CCAI2018 | 大规模文本数据挖掘的新方向
现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。
韩家炜
2018中国人工智能大会(CCAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。
适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。
韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力,发表论文600余篇,出版多部专著。曾担任国际知名会议KDD、SDM和ICDM程序委员会主席,创办了学术期刊ACM TKDD并担任主编。曾荣获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机协会的M. Wallace McDowell奖。他的专著Data Mining: Concepts and Techniques被公认为数据挖掘领域的经典教材。
大数据挖掘,数据结构化首当其冲
大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模十分巨大,以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
我们这个时代,由于互联网的发展,产生了大量数据。这些数据中绝大部分(超过 80%)都是以文本等无结构或半结构的方式存储。所以,挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据,也就是说,要实现从Big Data 到Actionable Knowledge的转变。
韩家炜认为,要将无结构的 Big Data 变成有用的 Knowledge,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(Heterogeneous Network),另一种是多维文本立方体(Multi-dimensional Text Cube)。由结构化数据生成 Knowledge 已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network 或 Text Cube)则是非常困难的。
在 Network/Text Cube 到 Knowledge 的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果,现在仍在不断求索中。
数据挖掘三部曲
韩家炜认为,数据挖掘的研究工作可以总结为三部曲:
(1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来
(2)将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据(Network/Text Cube)
(3)挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。
此外,在研究的推进过程中,他们也曾遇到了很多困难。
一是领域限制。用一般语料获得的实体标注在特定领域、动态领域或者新兴的领域无法很好的工作。二是名称的歧义性。多个实体可能共享同一个表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球队名等)。
三是上下文稀疏。对同一个关系可能有许多种表示方法(想想中文有多少中表示体育比赛结果的方法)。
虽然数据挖掘已经有了成型的结构,但仍有重重困难需要克服。韩教授曾说:“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。这条路通宽了,将来我们就可以从大量的无结构的文本,变成大量的有用的知识。”
在即将到来的盛夏,韩家炜教授作为中国人工智能大会的特邀嘉宾,将会介绍他最近的研究:如何借助大规模文本数据自身的力量去做大规模的知识抽取?主要包括关键短语抽取,基于远监督的实体识别和关系分类,基于模式的信息提取方法,多元分类的自动发现以及多维文本数据集的构建等方法。在CCAI2018的报告中,韩家炜教授将证明数据挖掘、机器学习和自然语言处理三个技术进行融合是一个“非常重要且极有前途”的方向。
在CCAI2018,跟随开路先锋韩家炜教授,一起踏上这条非常重要且极有前途的路吧!
原文发布时间为:2018-06-24
本文来自云栖社区合作伙伴“机器学习算法与Python学习”,了解相关信息可以关注“机器学习算法与Python学习”。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
音视频技术开发周刊 55期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第55期内容,祝您阅读愉快。 策划 / LiveVideoStack 架构 展晓凯:“零经验”的我与唱吧从零到四亿 正如展晓凯总结的那样,一个技术人或团队的成功离不开业务打下的基础,业务高层的高瞻远瞩以及对技术的敬畏,以及技术人的学习与探索精神。LiveVideoStack对全民快乐研发高级总监展晓凯进行了邮件采访,他总结了在与唱吧从零成长的历程。作为一个“零”多媒体基础的技术人,展晓凯的经验也许是你成长路上的参考。 低延迟音视频传输技术在直播领域的应用 本文来自陌陌视频流媒体技术负责人吴涛在WebRTCon 2018上的分享,他详解了陌陌从传统直播过渡到1对1到多人互动模式的演进,架构的优化保证了用户体验与业务需求。 与高清卡顿说拜拜 一招根治视频云顽疾 本文介绍了英特尔新至强平台的新技术及其对媒体云计算性能提升,阐释了新型 SIMD(单一指令多数据流)AVX-512 指令集如何帮助视频、图像处理以及视频深度学习的应用提升性能。 支付宝...
- 下一篇
美颜SDK:深度结合短视频开发,玩转潮流视角
美颜SDK在研发之初就将特效包装素材多样性这一要素充分考虑,提供定制化设计服务。美颜SDK开放性的架构设计可以让包装设计师轻而易举的参与到项目中来,根据客户不同的产品定位进行针对性的动态特效、美颜滤镜、视频编辑等设计,成为各平台打造短视频APP开发生产工具差异化的利器。以滤镜为例,视频设计师不仅可以进行最基础的调色滤镜制作,也可以轻松实现画面扭曲变形、重影、延时等抖音式特效滤镜以及前景素材叠加滤镜,实现如飘雪、撒花等效果,设计过程无需研发参与,极大提高了生产效率。 专属的定制化设计之外,美颜SDK背后的设专业计团队也在持续不断的输出各类型设计素材包,根据不同的使用模块,分为主题、美颜滤镜、动态贴纸、人脸识别,粒子样式、字幕样式、转场等,目前素材库中已累计超过数百种特效包装样式供客户直接选取应用。为了更好地与年轻用户接轨,美颜SDK前瞻性地推出动态特效解决方案。 结合AI领域的面部识别、手势识别以及轨迹跟踪等技术,用户可以在手机上体验全新的趣味玩法,通过眨眼睛、张开嘴巴等面部动作即可获得精灵眼或嘴巴喷火的独特技能;也可以根据手势的移动,体验动态的追踪技术,赋予视频以魔幻效果。而美颜SDK...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker快速安装Oracle11G,搭建oracle11g学习环境