nomuran's diary

野村直之のはてな日記(後継ブログ)です

「要約」は、作者、編集者、読者の3者ともに必要

10年前に「要約」の研究開発をしていたとき、要約summarizationの目的はバイト量の低減ではなく、情報・知識を理解するのに要する時間の短縮である、と定義付けました。

その成果の1つとして、3-pane要約のUIを発明しました。
http://www.justsystems.com/jp/km/product/cb104.html
 →右上のPDF中の図を参照。
▼情報を理解しやすい形で自動的に構造化
「目次」「要約」「強調つき原文」の3階層に構造化し、これをブラウザ上で3つのフレー ムに同時表示します。 また、各フレーム間における情報にはハイパーリンクが生成され 概要が把握できます。


この他、優れた要約の評価基準として、段階を踏んで、次がある、と考えました。(1998年)

・可読性 (語法や文法が日本語になっている)
・了解性 (意味が通る)
---
・忠実性 (原文と同じ意味になっている)
・十分性 (主要な論点が抜けていない)
・非冗長性 (その上で無用の重複記述がない)

上2つは要約結果単独で評価可能なものであり、
下3つは原文との対比で評価するものです。

さらに、同程度の要約率であっても、事実優先か意見優先か、という違いを反映することで、言語学的に妥当な範囲で、複数種類の要約を出力することができます。ヒントだけ書きますと、助動詞、副詞、副詞的小辞その他の陳述(modality) をになう機能語類を活用します。計算機でかなり十分判定できるのです。逆にいえば計算機で事実の記述、意見陳述、と振り分け困難な文章は人間が読んでも判読困難な悪文である可能性が高いです。

事実優先か意見優先か、をスライドバーで制御する行為は、「十分性」を評価するときに基準となる正解集合をシフトさせることになっています。


上記は、いずれも文章要約の基礎品質の評価基準です。
これらの基礎品質をクリアした上で初めて、カスタマイズをまともに議論することができます。

[目的]何のために読むべき(or読まざるべき)ものか 
[背景]要約結果を理解するのに必要な背景知識をどの程度読者がもっていると想定するか
[特別な興味]その上で、特別なテーマや事実情報、判断結果に興味の焦点があるか

ここまでくると、読者ごとに、全然違う要約結果が潜在的に必要なことが見えてきます。
ある層の読者群に向けて中間で様々に情報を取捨選択・集約・アレンジするのは編集者です。
この仲介者も、作者やエンド読者とは違った基準で要約を作成します。

え、作者になぜ必要ですかって?
たとえば100ページ以上の論説文を書いたときのことを思い出してみてください。
最初の頃書いた部分、数週間以上前に書いた部分が完全に頭に入っているでしょうか?
全体の論理構造にも修正が入っていくとき、その全体を見渡しながら推敲するのに、
ベタ書きテキストだけで十分でしょうか? 

やはり何らかの要約が必要でしょう。
アウトラインプロセッサなんかは、上の目的を満たすために存在していたのだと思います。
※その需要が減っているとしたら、高く聳える知識の生産が減っているのだろうか。。ちょっと心配。


以上により、標題のごとく、
「要約」は、作者、編集者、読者の3者ともに必要。

ここで「要約」とは、自身で行う要約作業(頭の中でやるのも含む)、
参照すべき「要約結果」を含みます。

さらに、「要約支援ツール」も含めましょう、是非使いましょう!というのが
前記リンク先に掲げたコンセプトの背景にある思想でした。


あれから10年。
要約の必要性は10倍以上になっている感じがします。
XML(これも2008.2.10で満10歳)や、XMLが支えるソーシャル系のインフラを駆使して、画期的なアイディアをどんどん形にしていかねばならない、という使命感をもっています。