Hatena::Groupchinese

妄言砂漠

2004-10-12

[] 海量の中国語分詞  海量の中国語分詞 - 妄言砂漠 を含むブックマーク はてなブックマーク -  海量の中国語分詞 - 妄言砂漠

d:id:huixingさんのところから。

分かち書きしない上に、漢字オンリーの中国語を単語単位に分割するのはとても難しい。こちらの中文搜索引擎技术揭密:中文分词でそのへんがわかりやすく書いてあるので、興味がある人はどうぞ。

今回、紹介されていたのは、商务印书馆の辞書編集に採用されている分詞(形態素解析・単語分割)やコーパス管理システム。僕はこの「海量」という会社を全然知らなかったんですが、かなり優秀な分詞システムのようで99.5%以上の精度を誇るそうです。

未登录词(包括姓名、地名、音译词等)的识别是影响分词准确性的主要原因。例如,如何识别:“张胜利同志”中“张胜利”作为姓名应分为一个词。海量的“新词识别算法”通过对语境的分析,能够有效的识别分词词典中没有登录的“新词”。歧义的识别是影响分词准确性的另一重要因素。例如:“在野生动物园”是一个组合交叉歧义,如果做简单的词典匹配,将很容易分为“在野 生动 物 园”。海量分词技术通过歧义分析对切分方案进行优选,能够避免大部分歧义的干扰。由于海量在以上两个技术难点的突破,是海量分词的准确率达到99.5%以上,很好地满足了商务印书馆对于分词准确率的要求。

海量_商务印书馆辞书语料库及编篡系统

以下、海量のサイトからの引用です。単語分割の際に問題となる曖昧性(歧义)をどう克服しているのかとか、具体的な分詞のアルゴリズムが載っているとうれしいんですが、そこまでサービスは良くない(笑)「砌」ってなんなんだろう。

算法特点

1)采用了独特的“砌词”算法,变“切”为“砌”有效提高了分词精度和效率,对各种歧义的处理能力大幅度提高。

2)发展了受限的隐马尔科夫过程, 使知识库的冗余大幅降低。

性能指标

准:切分准确率99.5%

快:33.3万字/秒

活:系统外挂分词规范,用户可自定义

海量中文智能分词功能基础件

「隠れマルコフを発展させたもの」とありますが、これはおそらく词性标注(品詞判断)の方でしょう。分詞の方は「砌」のことを教えてくれないと想像がつかない。「砌」ってなんなんだ(悶)オンラインデモを公開して欲しいなぁ。

[] 「マイヤヒー」アレコレ (ぁゃιぃ(*゚ー゚)NEWS)  「マイヤヒー」アレコレ (ぁゃιぃ(*゚ー゚)NEWS) - 妄言砂漠 を含むブックマーク はてなブックマーク -  「マイヤヒー」アレコレ (ぁゃιぃ(*゚ー゚)NEWS) - 妄言砂漠

この曲良い。擬古猫バージョン(http://pya.cc/pyaimg/pimg.php?imgid=7653)が特に気に入っております。飲ま飲ま。*1

[] 気になったネタ  気になったネタ - 妄言砂漠 を含むブックマーク はてなブックマーク -  気になったネタ - 妄言砂漠

凸 ネットで必須のピンイン略語トップ10

これもid:huixingさんのところから。とても面白いと思う。同時にこういうことすると分詞が面倒じゃないか、とも思う。ということで、これらを略語として手元の辞書に登録させていただく。

真MF。


凸 中国与欧盟正式签署全球卫星定位技术合作协议

関連:中国の欧州「ガリレオ計画」への参加 実質的に始動


凸 Wired News - 遺伝的に「神」の位置づけを探るアーティスト - : Hotwired


凸 カーソル下の色情報をマウスカーソル追尾の小窓に表示する「からあげ」

*1:書き忘れてたけど、踏み踏みバージョンは18禁+職場禁止

トラックバック - http://chinese.g.hatena.ne.jp/Ctrans/20041012