Copyright(C)長谷川芳典 |
|
10月1日となり、年度単位としては2021年度が半分過ぎたことになる。ウォーキングコース沿いの田んぼでは稲の穂が垂れてきた。 10年程前には通常のウォーキングコース沿いには5箇所ほどの田んぼがあったが、その後宅地化されたり、長期間耕作放棄地となったりして、現役の田んぼはとうとうこの1箇所のみとなってしまった。 |
【連載】ヒューマニエンス「“快楽” ドーパミンという天使と悪魔」その2 ドーパミンとAI評価値と強化随伴性 昨日に続いて、9月9日に初回放送された表記の話題についての感想と考察。 番組では線虫のドーパミン神経細胞が反応することと、快楽との関係について興味深い指摘があった。坂上先生は、 そもそも、快楽とか快感というものが本当に存在するものなのか、自分のことは分かるが、他の人が自分と同じ快感を持つかどうかは想像はできても証明はできない。まして線虫が私と同じ快感を感じているのかどうかは分からない。また、いとうせいこう氏は、「快楽物質と言わざるを得ないので何かイメージを持つが、快か不快か、「いいか」「悪いか」というデジタルの信号のようなもので、それが快楽かどうかは別の話で文学的な表現だ」とも論じられた【いずれも、長谷川の聞き取りによる要約】。 ここで少々脇道に逸れるが、私が学生・大学院生だった1970年代、心理学の入門書では、ヤング(Young, P. T.)の感情喚起理論というのが紹介されており、快感情や不快感情が接近や回避行動をひき起こすと主張されていた。しかし、この場合、快や不快という状態をどうやって測定するのかという問題がありトートロジーに陥る問題があった。これに対してスキナーの強化随伴性の概念は、行動(オペラント行動)とその結果(環境変化)との関係だけで記述される。もちろん、行動が(正の)強化されている時には何らかの快感が生じる可能性はあるが、それは結果として生じるものであって、快感が生じたから強化されたわけではない。オペラント行動の変容を快・不快の問題と切り離して体系化したことがスキナーの成功に繋がったと思われるのだが、ここにきてドーパミンの役割に関係して、再び快・不快の議論が登場してきたということはまことに興味深い。もっとも坂上先生は「ドーパミンが一瞬だけ放出され、脳の他の部位が引き継いでいって学習に繋がる。この一瞬の放出は「この場所には餌がある」というように記憶を定着させる働きをする。但し、脳は勝手に学習し、その結果を快感としてそのシグナルを感じているだけだ。」とも指摘されており、快・不快は強化の結果として生じたものと考えておられるようにも思えた。 番組では続いて、「ドーパミンが“学び”の原動力」と学習との話題が取り上げられた。銅谷(どうや)賢治先生(沖縄科学技術大学院大学)の研究室で行われている、スマートフォンに車輪をつけたロボットが、みずから移動しながら充電(動物で言えば餌)することを学習するという実験が紹介されていた。概要は、
この実験でロボットは当初、(行動の結果が)いい状態なのか悪い状態なのかは知らない。何らかの行動をとることでより報酬に近づけたというということで、その手前の行動も「いい状態」として評価が上がっていくというプログラムになっているようだ。 坂上先生によれば、ドーパミンは 学習すべきものは何かということをシグナルしている。何かをやっていいことがあるとドーパミンがドバッと出る。そうすると嬉しいから、今やったことを繰り返しなさいというように脳に書き換えをさせる。複雑な学習は一発ではできないが、試行錯誤を少しずつ繰り返し、少しずつ到達レベルを上げながら学習していく。というように説明された。 ここからは、私の感想・考察になるが、私には、上掲のロボットの実験は必ずしも「ドーパミンが“学び”の原動力」であることを実証しているようには思えないところがあった。実験の詳細は全く分からないが、将棋のAI評価値の仕組みなどから連想してみると、おそらくこのロボット実験では、
行動分析学で言うところの強化の随伴性(「行動随伴性」、「三項随伴性」)というもの、おそらく脳の神経細胞のレベルで捉えるならば、AIの評価値と同じような仕組みが働いているものとは思われる。しかし、いちいち脳の中を覗かなくても、行動に対してどういう環境変化が起こったのか、あるいは、その行動がどのような環境・文脈のもとで生じたのかを把握すれば、その行動の増減を予測したり影響を与えたりすることができるはずだ。ドーパミンが重要であることは百も承知だが、その知識が無いと行動が説明できないというわけでもないように思う。 次回に続く。 |