基于深度学习的中文分词 | 实录·PhD Talk #5
Q 请问老师,切分文本中的数学公式没有标注样本怎么破? 陈新驰 可以人工标注一些,或者先用匹配的方法把一些模式很强的公式分出来。 Q 看起来神经网络的分词,较少考虑了时间性能,但是作为 NLP 的基础模块如果做工业产品这个时间代价会比较突出,博士怎么看这个问题? 陈新驰 神经网络的话一般来说只是训练的时候比较慢,因为它的过程会比较长一点,那么它在 test 的时候其实效率和速度还是可以的,再加上我们用 GPU 的话可以快速的矩阵运算,所以它不会在 test 的时候输于传统的方法。 Q 字标注的也有缺陷,有些分词是基于词的角度,还有一些联合模型,陈博士能发表下您的看法吗?谢谢! 陈新驰 是的,各有优缺点吧。我们做的以基于字的为主,基于词的方法鲜有使用。 Q 不管是传统方法还是 DL 的中文分词的效果已经相当好了,这个方向未来会有什么进一步发展变化吗? 陈新驰 目前在 Benchmarks 上的结果是很好了,但是换一个 Domain 就下去了,OOV 也是一个很大的问题,还有就是分词的粒度问题,能不能去更好地定义分词问题。 Q 分词实践时候,有一个观察。不管是 CRF/struct per...

