语言处理技术之中文分词在运维领域中的探索实践
什么是中文分词,其原理与方法又是如何应用在智能运维中的?本篇文章将着重讲解云智慧对中文分词的理解。 一、中文分词面临的问题 在汉语中分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。为什么需要分词呢?一般认为在中文和英文中,词是表达完整含义的的最小单位,同时中文的字和英文中的字母,由于其粒度太小,无法表达完整的含义,而句子的粒度又太大,每句话承载的信息过多导致很难复用,因此在大量的中英文自然语言处理任务中,为了取得更好的效果,就采用分词的方式。 随着深度学习和自然语言处理技术的快速发展,中文分词的准确性也得到了很大的提升,但是该问题并未得到根本的解决,这是因为在中文分词中有一些基本的问题并未很好的定义与解决,研究者们将这些问题总结为以下三类。 分词规范 汉语的文章一般有如下层级组成:汉字-词语-句子-段落-篇章。在一句话中如何标记一个一个的词是非常重要的话题,并且不同的人会有不同的方案。有一个统一的、标准的规范就非常困难。例如:"自然语言处理被称为人工智能皇冠上的明珠"这句话存在如下不同的分词方式: 自然/语言处理/被/称为/人工智能/皇冠上的/明珠 自然语言处理/被/称为/...



