【中文分词系列】 5. 基于语言模型的无监督分词

发布时间:2017-03-16 18:22:51来源:本站原创 我要收藏 取消收藏
查词典方法和字标注各有各的好处,笔者一直在想,能不能给出一种只需要大规模语料来训练的无监督分词模型呢?也就是说,怎么切分,应该是由语料来决定的,跟语言本身没关系。说白了,只要足够多语料,就可以告诉我们怎么分词。 看上去很完美,可是怎么做到呢?《【中文分词系列】2.基于切分的新词发现》中提供了一种思路,但是不够彻底,而最近正好把这个思路补全了。因为没有查找到类似的工作,所以这算是笔者在分词方面的一点原创工作了。
公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2017   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号