使用搜狗词库制作mmseg自定义词典

2014.09.04/2015.10.01发布于笔记暂无评论#coreseek#分词#词库

总结使用搜狗词库制作mmseg词典的方法和步骤。另外,最近一直没写新博客,一方面是因为懒,另一方面是确实没什么可写的。

coreseek的介绍和安装説明可参考这里,不再赘述。以下是接下来需要注意的几点:

  • 下面的脚本需要Python2.7+,如果使用时遇到问题请先查看Python的版本(python -V)。
  • 下面假设libmmseg安装于/usr/local/mmseg3目录
  • 生成的mmseg词典文件必须为UTF-8编码。

提取搜狗字库

目前只支持搜狗词库,搜狗词库可以在这里这里下载。

继续阅读...

Sphinx/Coreseek搭建全文搜索引擎二三事

2014.04.10/2014.09.18发布于笔记暂无评论#coreseek#sphinx#全文检索#总结

最近忙着做一个coreseek全文检索的项目,都没时间更新博客了。目前项目已接近尾声,这里总结下coreseek的安装,配置和项目的设计考量等,以备将来查询。

开发环境

  • 操作系统: Ubuntu 12.04 x86-64
  • Coreseek: 4.1测试版(Sphinx-2.0.1)
  • Python: 2.7

Sphinx/Coreseek简介

Sphinx是一个高性能的全文检索引擎,使用C++语言开发,采用GPL协议发布,可购买商业授权,目前的稳定版本是2.1.7。

继续阅读...