Java日文分词器之Kuromoji -

ctwen

浏览: 500534 次
性别:
来自: 广州

最近访客更多访客>>

追逐什么

longload

shenyouhai

remote_silence

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java日文分词器之Kuromoji

博客分类：

Kuromoji是一个开源的，基于java语言开发的轻量级的日文分词工具包。捐赠给了ASF之后被内置在Lucene 和 Solr中，作为默认的日文分词器（默认的中文分词器是smartcn）。但他也不依赖Lucene 或 Solr，可以单独使用。采用维特比算法（Viterbi algorithm），默认使用IPA字典。

其他有名的还有lucene-gosen ：http://code.google.com/p/lucene-gosen/ 以及Google・Amazon・楽天等日本大的搜索引擎使用的Rosette ：http://www.basistech.jp/base-linguistics/japanese/ 。Rosette是商业版的，能够适用于很多语言，比如：中文，日文，韩文，英文等等。

http://www.atilika.org/

版本：kuromoji-0.7.7.jar

（1）2行代码即可分词

Java代码  
Tokenizer tokenizer = Tokenizer.builder().build();  
List<Token> tokens = tokenizer.tokenize(word);  

分词后的Token：

Java代码  
for (Token token : tokens) {  
    System.out.println("==================================================");  
    System.out.println("allFeatures : " + token.getAllFeatures());  
    System.out.println("partOfSpeech : " + token.getPartOfSpeech());  
    System.out.println("position : " + token.getPosition());  
    System.out.println("reading : " + token.getReading());  
    System.out.println("surfaceFrom : " + token.getSurfaceForm());  
    System.out.println("allFeaturesArray : " + Arrays.asList(token.getAllFeaturesArray()));  
    System.out.println("辞書にある言葉? : " + token.isKnown());  
    System.out.println("未知語? : " + token.isUnknown());  
    System.out.println("ユーザ定義? : " + token.isUser());  
}  

（2）3中分词模式

Java代码  
String word = "日本経済新聞でモバゲーの記事を読んだ。";  
Builder builder = Tokenizer.builder();  
  
// Normal  
Tokenizer normal = builder.build();  
List<Token> tokensNormal = normal.tokenize(word);  
disp(tokensNormal);  
  
// Search  
builder.mode(Mode.SEARCH);  
Tokenizer search = builder.build();  
List<Token> tokensSearch = search.tokenize(word);  
disp(tokensSearch);  
  
// Extends  
builder.mode(Mode.EXTENDED);  
Tokenizer extended = builder.build();  
List<Token> tokensExtended = extended.tokenize(word);  
disp(tokensExtended);  

引用

日本経済新聞 | で | モバゲー | の | 記事 | を | 読ん | だ | 。 |
日本 | 経済 | 新聞 | で | モバゲー | の | 記事 | を | 読ん | だ | 。 |
日本 | 経済 | 新聞 | で | モ | バ | ゲ | ー | の | 記事 | を | 読ん | だ | 。 |

（3）自定义词典

Java代码  
// 使用自定义字典  
InputStream is = UserDictSample.class.getClassLoader().getResourceAsStream("resources/userdict_ja.txt");  
  
Builder builder = Tokenizer.builder();  
builder.userDictionary(is);  
Tokenizer userTokenizer = builder.build();  
  
List<Token> tokens2 = userTokenizer.tokenize(word);  
  
StringBuilder sb2 = new StringBuilder();  
for (Token token : tokens2) {  
    sb2.append(token.getSurfaceForm() + " | ");  
}  
System.out.println(sb2.toString());  

引用

稀 | 勢 | の | 里 | 寛 |
稀勢の里 | 寛 |

resources/userdict_ja.txt:

引用

# 単語,形態素解析後の単語（単語を分ける場合は、スペースで区切る）,読み,品詞
稀勢の里寛,稀勢の里寛,キセノサトユタカ,カスタム人名

（4）汉字转片假名

Java代码  
String word = "東京特許許可局";  
  
Builder builder = Tokenizer.builder();  
builder.mode(Mode.NORMAL);  
Tokenizer tokenizer = builder.build();  
List<Token> tokens = tokenizer.tokenize(word);  
  
StringBuilder sb = new StringBuilder();  
for (Token token : tokens) {  
    sb.append(token.getReading() + " | ");  
}  
System.out.println(sb.toString());  
 
文章出自：http://rensanning.iteye.com/blog/2008575

分享到：

ES-Hadoop学习笔记-Storm交互 | Apache POI：Java程序读写Microsoft Office ...

2017-02-27 23:19
浏览 1934
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java日文分词器之Kuromoji

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java日文分词器之Kuromoji

评论

发表评论

相关推荐

实例展示Elasticsearch集群生态,分片以及水平扩展.

ES5安装Elasticsearch-head插件

四、Elasticsearch 分布式搜索引擎 Linux平台 安装使用

二、ElasticSearch 国内外优秀案例有哪些

一、分布式 搜索引擎 ElasticSearch 前世今生

三、Elasticsearch 一些概念 你要明白

最近访客更多访客>>

四、Elasticsearch 分布式搜索引擎 Linux平台安装使用

一、分布式搜索引擎 ElasticSearch 前世今生

三、Elasticsearch 一些概念你要明白