使用搜狗词库制作mmseg自定义词典

2014.09.04/2015.10.01发布于笔记暂无评论#coreseek#分词#词库

总结使用搜狗词库制作mmseg词典的方法和步骤。另外,最近一直没写新博客,一方面是因为懒,另一方面是确实没什么可写的。

coreseek的介绍和安装説明可参考这里,不再赘述。以下是接下来需要注意的几点:

  • 下面的脚本需要Python2.7+,如果使用时遇到问题请先查看Python的版本(python -V)。
  • 下面假设libmmseg安装于/usr/local/mmseg3目录
  • 生成的mmseg词典文件必须为UTF-8编码。

提取搜狗字库

目前只支持搜狗词库,搜狗词库可以在这里这里下载。

继续阅读...