前の記事 | 目次 | 研究所 | 次の記事 2000年5月からの訪問者数(画像)
農業と環境 No.151 (2012年11月1日)
独立行政法人農業環境技術研究所

農環研ウェブ高座「農業環境のための統計学」 第4回 「統計学的推論としてのアブダクション」

統計的データ解析といわれれば、観察されたデータを統計学的に 「説明」 することが本務であるとみなされるのがふつうでしょう。では、ここでいう 「説明」 とはいかなることなのか。それについてまずはじめに考えてみましょう。たとえば、次の 図1 のような仮想例を見てください。

(グラフ)

図1 ある化学実験での反応基質量と生成物量の観察データ(左)とモデルによる説明(右)

この図は、ある仮想的な化学実験で、反応材料である基質量を変化させたときに反応後の生成物量がどのように変化するかを考えます。複数回の実験を繰り返した結果、左図のような観察データ(●で表示)が得られました (図1左)。

この観察データのようなばらつき方をするデータがあるとき、私たちは直感的に基質量と生成物量との間には “比例関係” すなわち、基質量が増えれば生成物量も増えるという直線状の相関性をイメージします。それが 「モデル」 の認知的起源です。観察されたデータをどのように説明できれば納得できるのか。統計的なリクツを持ち出す前に私たちはデータとの 「対話」 を心のなかで繰り返します。生のデータをまずはじめにさまざまなグラフを用いて視覚化するのは、データとの「対話」をするためであると言っても過言ではありません。

図1の状況を統計学の立場から見直しましょう。私たちは基質量と生成物量というふたつの変数 (確率変数あるいは変量と呼ぶ) の間に 「直線的関係」 があることを想定し、その関係をある直線で数式表現します。具体的には、基質量(X)と生成物量(Y)に対して、Y=aX+b(aとbは定数)という回帰直線モデルを当てはめます(図1右)。このような式は 「線形モデル(linear model)」 と呼ばれ、統計モデリングのなかではもっともよく用いられるタイプのモデルです。次回以降に説明するように、この線形モデルの係数パラメーターaとbをデータから数値的に推定することにより、私たちは最適なパラメーターの値を計算できます。一見して観察データにもっともよく適合した直線を計算できるわけです。

では、データに対して上の線形モデルを当てはめることにより、私たちはいったい何を 「説明」 しようとするのでしょうか? 観察されたデータ点は有限個です。しかし、直線的なモデルを仮定するとき、私たちはある信念を発動しています。それは、観察データの背後には不可視の一般的な関係性・規則性(本質)が潜んでいて、それが現実世界に可視化された結果すなわち観察データの生起を支配しているという信念です。

この例でいえば、直線によって表現された線形モデルは、基質量と生成物量との間には比例関係があるという “本質的” な規則性があって、個々の観察データ点はこの本質によって生み出されたという信念を支持しています。もちろん、図を見ればすぐにわかるように、ある基質量のもとでモデルから期待される生成物量と実際に観察された生成物量との間にはちがいがあります。しかし、そのちがいはモデルがまちがっていることを含意するのではなく、むしろ現実のデータはばらつき(誤差)をともなって出現しているからだと解釈されます。「実現値=期待値+誤差」 という統計学的思考の根源はここにあります。

可視的なデータの背後には不可視の 「本質(essence)」 があるという信念は 「心理学的本質主義」 と呼ばれています。統計モデルがその心理的本質を明示化しているとみなすならば、心理的本質主義の観点から統計学における 「説明」 の意味がすっきりと理解できます。私たちはもともとばらつきをもったデータ点を別々に理解することはありません。むしろ、データの集まり(データセット)の全体を一挙に説明できる共通要因 (心理的本質) を仮定し、それによってより単純な 「説明」 を試みるわけです。統計モデルとはまさにヒトのこの要求に応えているといえるでしょう。複雑な現実を単純なモデルによって 「説明」 するのはヒト側の事情であって、現実世界がそうであるからとはいえません。むしろ、ヒトの認知的特性と整合的なタイプのモデルによる「説明」を私たちは妥当なものとして受け入れていると考えるべきでしょう。

ここでは、仮説やモデルによるデータの 「説明」 は 「アブダクション(abduction)」 という推論形式にしたがっているとの立場を取ります。次回あらためて説明しますが、推論様式としてのアブダクションは、データを説明するために立てられた仮説やモデルの真偽を問いません。むしろ、同一のデータを説明しようと競合する複数の対立仮説や対立モデルの間で、データを証拠とする相対的なランキングを与え、それを踏まえてもっともよい仮説・モデルを選び出します。

ここでいう 「アブダクション」 とは多くの読者にとって初めて耳にする言葉と思われるので、少し説明しておきましょう。かつて、歴史学者カルロ・ギンズブルグはデータがもつ情報的価値について次のように述べました:「資料は実証主義者たちが信じているように開かれた窓でもなければ、懐疑論者たちが主張するような視界をさまたげる壁でもない。いってみれば、それらは歪んだガラスにたとえることができるのだ」(ギンズブルグ[上村忠男訳]2001『歴史・レトリック・立証』みすず書房、p. 48)。ギンズブルグはデータを鵜呑み(うのみ)にしたり頭から拒否したりすることなく目の前のデータ(資料)を批判的に検討する態度が必要だと強調しました。

データが仮説に対してもつ証拠として価値を認める彼の結論は、吟味する価値があります:「ひとは証拠を逆撫でしながら、それをつくりだした者たちの意図にさからって、読むすべを学ばなければならない」(同,p. 46)。データという “歪んだガラス” を通して見るということは、データと仮説のいずれに対しても 「真偽」 を問うことなく、もっと弱い論理的関係を両者の間に置くことです。それはまた、観察データが個々の対立仮説に対してさまざまな程度で与える経験的支持の大きさによって仮説の相対的ランキングをするという意味でもあります。証拠としてのデータが仮説に与える経験的支持は、演繹(えんえき)や帰納が含意する論理的真偽に比べればはるかに弱い関係ですが、それでもなおデータによる仮説の選択力は失われてはいません。われわれは証拠によってより強く支持される仮説を選ぶという基準を置くことができるからです。

データと理論の間に想定されるこの弱い関係は、演繹(deduction)でも帰納(induction)でもない第三の推論様式とみなすことができます。それは、アリストテレスのいう 「エンテュメーマ」 すなわち 「最善の説明に向けての推理」(同,p. 67) に始まり、19世紀の哲学者チャールズ・S・パースの提唱する 「アブダクション(abduction)」 に連なる推論様式の系譜に属しています。要するに、理論や仮説の真偽を問うのではなく、観察されたデータのもとでいずれが 「より良い説明」 を与えるかを相互比較するということです。

このアブダクションの推論様式は次のように定式化できます:

前提1)観察データDがある。

前提2)ある仮説HはデータDを説明できる。

前提3)H以外のすべての対立仮説H'はHほどうまくDを説明できない。

結論) したがって、仮説Hを受け入れる。

このようにアブダクションの手順を定義すると、対立する他の仮説との相対的比較が決定的に重要であることがわかります。さらに重要な点は、演繹や帰納のような他の推論様式では真偽が判定された時点で推論が 「終わり」 を迎えるのに対し、相対的ランキングに基づくアブダクションには推論の終わりはありません。新しいデータが加わったり、あるいは想定しなかった新しい対立仮説との比較が行われたりすることにより、その推測が覆される可能性はいつでもあるからです。したがって、アブダクションとは果てしない推測の連鎖であるといえます。

しかし、ここでひとつ問題が残ります。アブダクションにおいて仮説がデータを “うまく説明する” とはどういうことかという点です。演繹あるいは帰納は手順こそちがっていても、最終的には仮説の 「真偽」 をよりどころとしています。しかし、アブダクションは 「真偽」 以外の別の基準で、データに照らした仮説の 「良否」 を判定しなければなりません。しかし、仮説の 「真偽」 を前提としない 「良否」 の判定基準を一意的に定めることはたいへん難しい問題です。この点については次回あらためて論じましょう。

一変量統計学・多変量解析のいかんを問わず、そこで用いられる数学は 「言葉」 です。統計学者が数式を多用するのは、それが便利な言葉であるからにほかなりません。しかし、統計学ユーザーはその学問的慣習に必ずしもなじむ必要はないのです。統計学の科学哲学的ルーツは経験主義であり、その認知的ルーツはわれわれ自身がもっている素朴確率論あるいは素朴統計学を踏まえた思考と推論です。したがって、現在利用されている統計理論の根幹はすべて直感的に理解できるはずだし、それをまず目指すべきでしょう。

統計学とは、生身のヒトならば誰もがもって生まれてきた 「内なる科学」 であり、天上のイデアの世界から降臨してくる 「数学的体系」 は後知恵にすぎません。内在的な認知心理に整合しないような統計手法があるとしたら、それは単にヒトにとって 「説得的ではない」 がゆえに顧みられることはないでしょう。上で論じてきたように、ヒトがもって生まれてきた認知的属性 (心理的本質主義とアブダクション) は、科学としての確率論と統計学に先行するものと考えられます。統計学を学ぶとき、つねにヒトとしての 「内なる思考」 をふりかえりつつ自らと対話する状況が繰り返しあらわれます。その対話を大事にしていただきたいと思います。

身の丈サイズの統計学はそこからはじまります。

三中 信宏(生態系計測研究領域)

農環研ウェブ高座「農業環境のための統計学」 掲載リスト

第1回 前口上−統計学の世界を鳥瞰するために (2012年8月)

第2回 統計学のロジックとフィーリング (2012年9月)

第3回 直感的な素朴統計学からはじまる道 (2012年10月)

第4回 統計学的推論としてのアブダクション (2012年11月)

第5回 データを観る・見る・診る (2013年1月)

第6回 情報可視化と統計グラフィックス (2013年2月)

第7回 データのふるまいを数値化する:平均と分散 (2013年3月)

第8回 記述統計学と推測統計学:世界観のちがい (2013年4月)

第9回 統計モデルとは何か:既知から未知へ (2013年5月)

第10回 確率変数と確率分布:確率分布曼荼羅をたどる (2013年6月)

第11回 正規分布帝国とその臣下たち (2013年7月)

第12回 パラメトリック統計学の世界を眺める (2013年8月)

前の記事 ページの先頭へ 次の記事