じぶん更新日記・隠居の日々
1997年5月6日開設
Copyright(C)長谷川芳典



10月のインデックスへ戻る
最新版へ戻る



 10月1日となり、年度単位としては2021年度が半分過ぎたことになる。ウォーキングコース沿いの田んぼでは稲の穂が垂れてきた。
 10年程前には通常のウォーキングコース沿いには5箇所ほどの田んぼがあったが、その後宅地化されたり、長期間耕作放棄地となったりして、現役の田んぼはとうとうこの1箇所のみとなってしまった。


2021年10月1日(金)



【連載】ヒューマニエンス「“快楽” ドーパミンという天使と悪魔」その2 ドーパミンとAI評価値と強化随伴性

昨日に続いて、9月9日に初回放送された表記の話題についての感想と考察。

 番組では線虫のドーパミン神経細胞が反応することと、快楽との関係について興味深い指摘があった。坂上先生は、
そもそも、快楽とか快感というものが本当に存在するものなのか、自分のことは分かるが、他の人が自分と同じ快感を持つかどうかは想像はできても証明はできない。まして線虫が私と同じ快感を感じているのかどうかは分からない。
 また、いとうせいこう氏は、「快楽物質と言わざるを得ないので何かイメージを持つが、快か不快か、「いいか」「悪いか」というデジタルの信号のようなもので、それが快楽かどうかは別の話で文学的な表現だ」とも論じられた【いずれも、長谷川の聞き取りによる要約】。

 ここで少々脇道に逸れるが、私が学生・大学院生だった1970年代、心理学の入門書では、ヤング(Young, P. T.)の感情喚起理論というのが紹介されており、快感情や不快感情が接近や回避行動をひき起こすと主張されていた。しかし、この場合、快や不快という状態をどうやって測定するのかという問題がありトートロジーに陥る問題があった。これに対してスキナーの強化随伴性の概念は、行動(オペラント行動)とその結果(環境変化)との関係だけで記述される。もちろん、行動が(正の)強化されている時には何らかの快感が生じる可能性はあるが、それは結果として生じるものであって、快感が生じたから強化されたわけではない。オペラント行動の変容を快・不快の問題と切り離して体系化したことがスキナーの成功に繋がったと思われるのだが、ここにきてドーパミンの役割に関係して、再び快・不快の議論が登場してきたということはまことに興味深い。もっとも坂上先生は「ドーパミンが一瞬だけ放出され、脳の他の部位が引き継いでいって学習に繋がる。この一瞬の放出は「この場所には餌がある」というように記憶を定着させる働きをする。但し、脳は勝手に学習し、その結果を快感としてそのシグナルを感じているだけだ。」とも指摘されており、快・不快は強化の結果として生じたものと考えておられるようにも思えた。

 番組では続いて、「ドーパミンが“学び”の原動力」と学習との話題が取り上げられた。銅谷(どうや)賢治先生(沖縄科学技術大学院大学)の研究室で行われている、スマートフォンに車輪をつけたロボットが、みずから移動しながら充電(動物で言えば餌)することを学習するという実験が紹介されていた。概要は、
  1. ロボット(スマートフォン大の大きさ)は内臓カメラにより色や形を認識でき、前後左右に動くことができる。
  2. 床面にはいくつか充電器があり、ロボットがその上に乗ると充電される。充電されるとあたかもドーパミンが出たのと同じような信号が送られるようにプログラミングされている。
  3. 一度充電されると、同じ充電器に再び乗っても次からは充電されない。
 実験開始直後はロボットは何の目的もなく床面を動き回っているが、何時間もするとロボットはたまたま充電器に乗る。すると、充電器の上に乗る「行動」が増える。そして、一週間後には、充電器から充電器へと最短距離で効率よく移動しながら充電をするようになるという。
 この実験でロボットは当初、(行動の結果が)いい状態なのか悪い状態なのかは知らない。何らかの行動をとることでより報酬に近づけたというということで、その手前の行動も「いい状態」として評価が上がっていくというプログラムになっているようだ。

 坂上先生によれば、ドーパミンは
学習すべきものは何かということをシグナルしている。何かをやっていいことがあるとドーパミンがドバッと出る。そうすると嬉しいから、今やったことを繰り返しなさいというように脳に書き換えをさせる。複雑な学習は一発ではできないが、試行錯誤を少しずつ繰り返し、少しずつ到達レベルを上げながら学習していく。
というように説明された。

 ここからは、私の感想・考察になるが、私には、上掲のロボットの実験は必ずしも「ドーパミンが“学び”の原動力」であることを実証しているようには思えないところがあった。実験の詳細は全く分からないが、将棋のAI評価値の仕組みなどから連想してみると、おそらくこのロボット実験では、
  • ロボットが次にどういう方向に移動するのかについてはいくつかの候補が挙げられ、その中で最も評価値の高い選択肢が選ばれる。
  • 当初はどの移動方向も同じ評価値であるが、充電器に偶然たどり着いて充電されると、「充電器が見えているという風景のもとで充電器に近づく」という選択肢の評価値が高くなる。
  • また、充電を完了した後では、「充電器から離れる」という選択肢の評価値が高くなる。
  • 一度充電した充電器が見えている風景のもとでは、その充電器の方向に移動するという選択肢の評価値は低くなる。
  • これらを繰り返し「体験」することで、ロボットは、配置された充電器を移動しながら効率よく充電するという移動方略を獲得する。
というような学習がなされているものと思われるのだが、ここでは単に、選択肢の評価値を増減させるという機能が学習を進展させているだけであって、ドーパミンのような快楽物質はアナロジーに過ぎない。

 行動分析学で言うところの強化の随伴性(「行動随伴性」、「三項随伴性」)というもの、おそらく脳の神経細胞のレベルで捉えるならば、AIの評価値と同じような仕組みが働いているものとは思われる。しかし、いちいち脳の中を覗かなくても、行動に対してどういう環境変化が起こったのか、あるいは、その行動がどのような環境・文脈のもとで生じたのかを把握すれば、その行動の増減を予測したり影響を与えたりすることができるはずだ。ドーパミンが重要であることは百も承知だが、その知識が無いと行動が説明できないというわけでもないように思う。

 次回に続く。