nomuran's diary

野村直之のはてな日記(後継ブログ)です

[mextractr] 『文章における5W1Hて何ですか』

http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1217317427

 5W1Hメタデータ自動抽出文章要約方面への応用は昔から (1998年9月から)考えていました。
当然ながら、意見優先ではなく、事実優先の抽出です。

 上記リンクのベストアンサーにこんな風に書いてあります。

ちょっと頭の体操にいかがでしょうか?
5W1H」を使い、新聞記事を抜き出すんです。
難しそうに見える新聞の文章も、
この「5W1H」で整理すれば、実に簡単な文章になります。

「いつ、どこで、誰が、何を、どのように、何故したのか」

けっこう楽しいので、時間があるときにはぜひ!

 そうです。元の原文の言い回し、表現、文体はもちろん、意見、コメントも全部捨象し、事実だけを淡々と抽出したいときには、mextractrを用い、あとはいくつかの構文のひな形から独自の文生成をしてやるのです。シソーラスや敬語ぞんざい語表現辞書をもちいて言い換えをできるようにすれば、「東スポ流 例:洞爺湖でゲリラ暴れる!」「朝日流 例:サミット、独自の成果無し」など、簡潔に生成し分けることも夢ではありません。

 なにより、事実と意見が入り組んだ難解な(悪い文章)から、必要な情報だけを素早く取り出したい、といった目的で、人間用にも、5W1Hメタデータ抽出が有用だ、という経験則は大切にしていきたいと思います。