Hatena::Groupchinese

妄言砂漠

2008-07-02

[] ICTCLAS  ICTCLAS - 妄言砂漠 を含むブックマーク はてなブックマーク -  ICTCLAS - 妄言砂漠

ICTCLAS资源にある学习文档が面白い*1。公開されているICTCLASのソースを丁寧に解説していて、内部の処理を追っかけていけます。辞書の構造が単純でちょっと意外。メモリに全部読み込んで二分探索してたりします。

*1:よそのブログの関連エントリをまるまる引っ張ってきていて豪快であります。

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20080702

2008-06-04

[] 辞書なし  辞書なし - 妄言砂漠 を含むブックマーク はてなブックマーク -  辞書なし - 妄言砂漠

昨日見つけた由字构词という辞書を使わずに中国語を分かち書きする方法が面白そうだったので試してみました。この記事では漢字の位置情報としてS、B、B2、B3、M、Eの6つを利用する方法が紹介されていますが、ちょっと端折ってS、B、M、Eの4つの情報を使うことに(手抜き)。学習用のコーパスに北大の人民日报语料库を使い、漢字が単語中のどの位置に出現しているかカウントし、位置別の頻度を計算しました。

たったこれだけの情報ですが、現在注目している字と前後の字の情報を参照して分かち書きをさせたところ、「在他夫人的帮助下他铺设了今天的好莱坞大街做为城市的主街」を「在 他 夫人 的 帮助 下 他 铺设 了 今天 的 好莱坞 大街 做 为 城市 的 主街」とすることができました*1。やるなあ。もちろんうまく行かないところもたくさんありましたが、工夫すればまだまだ精度は上がりそうです。もうちょっと勉強しよう。

*1:テキストは百度百科から引っ張って来ました。

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20080604

2008-06-03

[] 分詞 - 中国語の形態素解析(分かち書き)とか  分詞 - 中国語の形態素解析(分かち書き)とか - 妄言砂漠 を含むブックマーク はてなブックマーク -  分詞 - 中国語の形態素解析(分かち書き)とか - 妄言砂漠

以前はICTCLASしかありませんでしたが、最近またいろいろ動きがあるようなので情報収集。

  1. 超高速中日英分词的实现(10MB/S) - Minidx
  2. ShootSearch 分词组件
  3. 雨痕分词组件
  4. KTDictSeg 一种简单快速准确的中文分词方法
  5. MMSeg
  6. 由字构词—中文分词新方法[PDF]

関連:ictclas | Google グループ

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20080603

2006-04-17

[] 隐含马尔可夫模型在语言处理中的应用  隐含马尔可夫模型在语言处理中的应用 - 妄言砂漠 を含むブックマーク はてなブックマーク -  隐含马尔可夫模型在语言处理中的应用 - 妄言砂漠

そんな谷歌さんですが、Google 黑板报は頑張っています。今日は「隠れマルコフモデルの言語処理における応用」というエントリ。想定読者層がどの辺なのか全然分からないところが素敵。

関連するかも知れない:课程讲义

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20060417

2006-04-15

[] 第三代智能分词系统3GWS  第三代智能分词系统3GWS - 妄言砂漠 を含むブックマーク はてなブックマーク -  第三代智能分词系统3GWS - 妄言砂漠

中国語の切分标注(形態素解析)システム。第三世代だそうです。

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20060415