nomuran's diary

野村直之のはてな日記(後継ブログ)です

怒涛のバージョンアップ

nomuran72008-07-30

 、、と呼んでいただけるのでは、と思っております。

http://api.emetadata.net/
の、What's Newをご覧ください。

本日の4つの改良の中で、おそらく一番目立つのはこれです:

2008-07-30:年の省略、月の省略表記に対する推定処理を追加しました。

 新聞に出てくるような日付の省略記法に対して、文脈から、もっともらしい年や月を推定して正規化(数値化)できるようになりました。毎晩、新聞1年分の全記事約11万記事を2種類のバージョンで並行して流して評価していますが、非常にがんばれている具体例が散見されます。どうぞお楽しみに。

 他の3点、「前(株)」問題の解決、「3年 vs 98年」問題の解決(3 years vs in 1998)、それから「ホゲホゲ大学教授」が となって、「これは人間ではなく大学の名前だからおかしい」という印象だったのが、複合語全体を のように出力するように仕様変更したのも、印象改善に寄与しています。

 以上4点が、データ分析とモデリング、設計、実装、評価を含めて1日半位、という開発スピードです。

 仕組みとしては、先週の、統計学習の問題点や、関連する知識ベースの問題点解消、辞書内容の改善、コードの頑健化、と、4種の全く異なるリソースを連携して改善したものの方がはるかに複雑で手間はかかりました。

2008-07-22:アルファベット未定義語の品詞推定に関する過学習を解消しました。
これにより、アルファベット未定義語がgd:whoになりがちだった問題点が解決しました。

しかし、英単語が複数ならんだ入力を含まない普通の日本語では全く出現しない現象だったので、効果のほどは、本日の改良の方が1万倍くらい高い感じです。

 7月前半に、主要な外国地名4000の緯度経度出力や、日付の絶対値変換(内部的にはEpochオブジェクト+αとして認識しそれをAtom+GDATAにシリアライズしています)を実現した機能追加もなかなか大変でした。これらの機能追加で速度が1%も低下しなかったのは設計の筋のよさを示唆していると思われます。

 同時にリリース(リプレース)した高速化バージョンは、設計、実装・評価に1ヶ月(という気の遠くなるほど長い時間を)かけています。公称10倍速ですが、実測では12倍速です。


 開発陣一同、猛暑の中、一丸となってがんばっています。

他の本来業務や、コンソーシアム活動で新規にコミュニティを立ち上げる作業をやっていて、こちらの日記を書くわずかな時間もとれなくなっていました。
http://sns.xmlconsortium.org/wg-web20/00010
の他に、メンバー向け会議室が2つ、MLが1つ、ファイル倉庫が2つある、Web 2.0のコミュニティです。 8/21にお試しで冷やかしていただき、ぜひ参加をご検討ください。



ps. 日付の正規化の具体例です。某社HPのトップページ下半分を、わざと、不統一な日付の記述にした結果、次のような出力結果となっています。










valueStringが原文中の文字列です。
startTime中の値は、Mextractrエンジンが絶対数値としてパタン認識した結果をEpochオブジェクト化し、それをさらに正規化してシリアライズした数値となっています。
(GDATAにはただのtimeが無いので単一の日時表現はこう表現)


つい技術の中身をたくさん書いてしまいました。
少しだけ反省して、ユーザ様にとって、顧客企業にとって、どんな「お役立ち」ができるかを、考え、実証評価、検証して、いろいろな場で発表してまいりたいと思います。このプロセスもユーザ様と協同するのが正しい"2.0"的なやり方ですね。押し売りにならないように、控えめにお誘いし、お待ちしてまいりたいと思います。