読む毒の配布場所

品質管理(QC)について深く考えていたら脳科学や社会システム、社会問題なんかが侵食してきたのでそれを吐き出していきます。

脳って「バグ」だらけじゃね?② 〜どうして「夏休みの宿題を進めよう」が「明日からがんばる」に変わりやすいのか〜

これまでのお話

そんな「脳バグ」をまとめてみたら、あまりにバグが多すぎてPlanステージだけで6,000字超えたやん!←今ここ

Doステージの脳バグ

Planステージで作られた計画(行動の優先順位リスト)と、実際にどの行動が選択されるかは別の話なので、ここにはPlanステージとは違う脳バグが存在する。

ここでDoステージの特徴として忘れてはならないのが次の3点だ。

  • 行動選択の際には計画された行動の価値から、行動に必要なコストが差し引かれる。
  • 繰り返し「解禁」された行動は、より解禁されやすくなる。
  • 行動の単位は「チャンク:意味を持った動作の集まり」になっていて、動作に習熟する(解禁を繰り返す)とチャンクは複雑に、長くなっていく。

習慣的行動の優越「いつもと違うことをしようとすると失敗する」

習慣的に行われている行動(癖)と競合する行動は、強く意識しないと選択されにくい。いつも右足から靴をはく人(そのような習慣がある人)が左足から靴をはくには、それなりに強い集中力(トップダウンによる行動選択の制御)が必要だ。チャンク化した一連の行動が「オートマチック」で行われるのに対し、そうでない行動は常に注意を向け続ける「コスト」が必要なため、選択されにくくなる。

また、私たちは長く複雑になったチャンクを「アレンジ」することが苦手だ。チャンクの一部をアレンジするには、チャンクとして成立している一連の行動を、脳の「緊急停止スイッチ」を押して途中で停止させるしかない。このスイッチによる行動停止には多大なエネルギーが必要(極めて高コスト)なため、少しでも油断すれば「いつものように」チャンクが完遂されてしまう。

この文脈で特に深刻なのは「悪癖」だ。喫煙はその代表例で、たばこを取り出し火を着けて咥える動作がチャンク化し、しかもそれがニコチンによるドーパミン増加をもたらす。喫煙を繰り返すごとにチャンクは固定化して行動のコストが下がり、しかも大きな報酬(ドーパミン)が得られるものだから「解禁スイッチがバカになっている」状態になりやすい。そうなると、集中力が途切れた途端、計画にないチャンクが解禁されてしまう。禁煙しようとした人が「いつの間にか」たばこを咥えてしまうのはそのためだ。

先延ばし「『明日からがんばる』の繰り返し」

行動選択のプロセスでは、計画された行動の「価値」からその行動に必要なコスト(消費されるブドウ糖と筋肉の疲労)が差し引かれ、残った価値が最も高い行動が解禁され、それ以外の行動が抑制される。この際のコストの見積もりに、重大な脳バグがある。それは、すぐに必要なコストを高く、遅れて得られる報酬を低く見積もるという行動選択プロセスの性質で、資源(ブドウ糖)を節約することと即座に利益を確定することで生存可能性を高める原始からの戦略だ。だが、この戦略は現代社会では「今この瞬間の怠惰」に高い確定利益を見出す不適応の原因になりやすい。

この脳バグは、高い価値が見込まれる合理的な行動の「先延ばし」を引き起こす。

  • 「夏休みの宿題を進めよう」が実行されず「明日からがんばる」に変わる。
  • 「今期の業務改善」が実行されず「まだ検討不足」に変わる。

これらの行動は、前半部分が行動選択プロセスによる先延ばし、後半部分が後述するCheckプロセスでの「モデルの事後変更」となっている。

パニック「避難訓練って意味あるの?」

行動選択プロセスは「計画」がなければ機能しない。だが、想定外の事態に対し、計画を立案するPlanステージが正常に機能することは期待できない。なぜなら、想定外の対象には既存のモデルがなく、緊急で構築した不確実なモデルではあらゆる行動に対する結果を最大限に悪く見積もる必要が生じて、まともな計画ができないからだ。一方、脳はこのような場合への適応として「不安」という情動を実装している。不安は行動解禁のコストを下げ、とにかく何でもいいから行動を選択するようにさせる。その結果引き起こされるのがパニック的不適応だ。

  • 退行的行動泣き叫ぶ、耳を塞ぎうずくまるなど、生存に繋がらない感情の表出(プリミティブなチャンクの解禁)。
  • パニック走り回る、ドアを押すなど、逃走・退避に関係した低レベルなチャンクの解禁。開かないドアを押し続けるなど不合理な行動になりやすい。
  • パニック・フリーズ立ち尽くす、黙り込むなど、結局チャンクが選択できずどの行動も解禁されない状態。

避難訓練や心肺蘇生訓練の主な目的は、このような場合に解禁しやすいチャンクをあらかじめ形成しておくことだ。訓練において説明や解説だけでなく実際の避難行動が行われるのは、実際の行動を通して行動の解禁を経験し、チャンクとして成立させる必要があるからといえる。

マルチタスクの幻想「しごでき人間はメールに即レスしない」

行動選択プロセスは1度に1つのチャンクしか解禁できない。これは脳バグではなく仕様だ。私たちが2つのことを同時に行っているとき、行動選択プロセスは2種類のチャンクを短い間隔で交互に解禁するしかない。このチャンクの切り替えはエネルギー(ブドウ糖)を多量に消費するため、マルチタスクは極めてコストパフォーマンスが低く、1つのことを完了させることを逐次続ける方が結果として全体が早く終わる。しかし、脳のPlanステージでは外界からの刺激からの「割り込み」が行われるため、元々行っていた行動の利益が高いと割り込んできた行動とのマルチタスクが起きやすい。これは脳バグの1つといえるだろう。仕事中に来たメールに即座に反応せず、仕事の合間にまとめて処理するのが「しごでき」の1つの秘訣となるのだ。

ノルアドレナリンの奴隷「カッとしてやってしまった」

行動選択プロセスにおけるコスト評価には、ノルアドレナリンのような情動系物質も影響する。ノルアドレナリンレベルの変動(ストレス・覚醒による上昇、疲労抑うつによる低下や不安定)は攻撃的チャンクの価値を引き上げたり、合理的行動のコストを引き上げることで、長期的価値とは無関係な非合理的・衝動的行動選択を促す。その結果起きるのが以下のような事態だ。

  • 部下が生意気を言ったので、反射的にどなりつけてしまった。(怒り→攻撃的チャンクの解禁コスト引き下げ、攻撃的チャンクの価値の爆上げ)
  • 残業続きだったある日、出勤中にフラリと途中駅で下車してしまった。疲労→「出社する」チャンクのコスト爆上げ、回避的チャンクの価値の相対的引上げ)

Checkステージの脳バグ

Checkステージは、予測モデルを現実に照合し、誤差を次の行動に還元する唯一の工程だ。具体的には、事前に予測された利益と実際に観測された利益との差=RPE(報酬予測誤差)が計算され、その値に応じたドーパミンの加減が行われ、Actステージにつながっている。このステージでの脳バグこそが、脳PDCAに関係する最大の問題だ。

予測モデルの事後修正「失敗したのは私のせいじゃない」

ドーパミンレベルの低下は脳にとって「良くない」状態なので、それを感知した脳は失敗したモデルを修正し、次のサイクルでのRPE改善を図る。しかし、次のような場合はどうだろうか。

  • モデルの改善を繰り返してもRPEがなかなか正にならない
  • 行動選択プロセスで計画通りの行動が選択されないことが続く
  • モデルが自分の中核的価値と結びついている(失敗が自分の人格や価値観の否定を意味する)

これらの場合、負のRPEは資源の浪費や人格の荒廃を招くだろう。そこで脳は結果を観測した後に予測モデルを「観測した結果と同じか、悪い出力が得られるように」修正し、「検算」により非負のRPEを得る場合がある。これは本来は、制御不可能なことに対するムダな学習を停止させ、アイデンティティを守るための適応だ。しかし、本来Checkステージは「モデル誤差を次のPlanステージに送る」ための段階なのに、この段階自体が報酬の最適化を行うと、モデルの更新ができなくなる。次のように目標設定に問題(検証可能性の低さ)があると、Checkステージの「おせっかい」によるモデル更新の停止という、重大な脳バグが顕在化しやすい。

  • 不必要に高すぎる目標:レベルに合わない目標を設定すれば「課題が難しすぎるのが悪い」という後付けモデルが生成されやすい。
  • 曖昧で検証困難な目標:目標がはっきりしないと「行動結果は『真に』期待された目標を達成している」という後付けモデルが生成されやすい。
  • 不必要に人格と結びついた目標:目標が自分の人格評価と結びつくと、負のRPEはノルアドレナリンレベルの上昇をももたらし、防衛的・他責的な後付けモデルの生成につながりやすい。

脳は「真実」よりも「心の平安(ドーパミン安定)」を優先する。**モデルの事後修正(自己正当化、歪んだ認知)が完了し、私たちが「納得」という名の偽りの報酬を手にしたとき、その分野での成長はすっかり停止してしまう。

過剰ドーパミンへの依存「いいね!の数が気になって眠れない」

予想外の大きな正のRPEは爆発的にドーパミンレベルを上昇させることが分かっている。これは、モデルが局所最適に陥ることを避け、探索的なモデル最適化(従来と全く違ったアプローチをすることでより良い結果が得られる可能性を追求する)をするために発達した機能だ。しかし、この仕組みは対人関係などにおいて深刻な脳バグとしてはたらきやすい。他人というのはモデル化が難しいくせに関りを無くすことができない対象だ。そのため、人から得られる社会的承認というのはいつも予想外で、期待値が低いせいで相対的に大きな正のRPEとして評価されやすい。これは「褒められたのがうれしくてがんばる」という健全な循環を生むこともあるが、次のような不適応の原因になることも多い。

  • SNSのいいね!の数が常に気になり一喜一憂する。
  • 掘り出し物を求めて骨とう品を収集し、生活費を使い込む。
  • 配偶者からの安定した承認より、他人の承認に反応して不倫に走る。
  • DVやモラハラの加害者からの不定期の承認に縋り、離れられなくなる。

さらに問題なのは、人工的に「予想外の大きな正のRPE」を作り出す誘惑が、社会には溢れていることだ。ギャンブルやガチャはその典型だが、SNSのいいね!もその一つといえる。また、ショート動画は「新奇性」により意外な正のRPEを供給しようとする。これらのはたらきは、後述する薬物のそれにさえ近いといえる。

番外編:薬物(DoとCheckの関係性の完全破壊)

一部の薬物は、RPEとは無関係にドーパミンレベルを急上昇させる。学習も行動もしていないのにドーパミンレベルが上昇するのだから、薬物以外のことがどうでもよくなるのは当然だ。薬物は人間を、学習も行動もせずクスリがなくなれば入手のためにどんなことでもする獣に変える。ダメ、絶対。

Actステージの脳バグ

Actステージで脳バグとして書けることは実はあまりない。一般のPDCAサイクルではActステージで原因の追究と対処が行われるが、PDCAのActステージには「原因の追究」がないからだ。脳PDCAでは負のRPEの原因はモデルの精度不足と行動選択の失敗の2通りしかない。そういうわけなので脳PDCAのActステージは

  • ドーパミンレベルが上昇すれば、それをもたらした行動を強化する
  • ドーパミンレベルが低下すれば、正しく報酬を予測できるようモデルを更新する

と非常に簡単だ。そのため、「ステージの脳バグ」を説明することは難しい。それでも、以下の2点については指摘しておくことにしよう。

強化の過剰な一般化

行動の強化をするとき、どの変数が寄与してドーパミンレベルが上がったかを行動プロセスに保存しておくことはできない(行動プロセスにそれを保存しておく機能自体がない)。モデルが未熟だと変数と行動の対応がガバガバになり、強化の対象が広がりすぎて本来は条件付きで有効な行動が、常に正解の行動として固定化される場合がある。

  • たまたまうまくいった戦術を、状況に関係なく常用する。
  • 一度評価された発言スタイルを、文脈を無視して繰り返す。

これらは成功体験が原因の学習歪みで、失敗より気づきにくいのが厄介だ。

負のRPE回避による行動縮退

ドーパミンレベルが下がる可能性があることを理由に「行動そのものをしない」という選択が行われる場合がある。行動自体が行われなければPDCAは回らず、学習は停止してしまう。典型的には以下のような状況だ。

  • 失敗しそうな行動を最初から選ばない。
  • 評価される場面に出ていかない。

人格のフィードバックによるモデルの複雑化

失敗を自分の人格に帰属してしまうと、その失敗を受けてモデル更新(自分の人格はより悪い)をしようとした途端にモデルに自己の人格が混入する。そうなると、モデルが複雑になりすぎて取り扱いが困難になったり、負のRPEがノルアドレナリンレベルの上昇を促してモデルの事後変更が起きやすくなったりする。「自分を責めないで」というのは慰めではなく、人格とモデルとを分離することを促す言葉といえるかもしれない。

まとめのようなもの

Plan: 最初から「ノイズ(他人の目、人格)」が混じった雑な設計図。

Do: 現場がコストをケチり、レガシーな習慣に逃げる。

Check: 不快な赤字(負のRPE)を消すために、監査役が帳簿を改ざんする。

Act: 改ざんされたデータに基づき、「人格」という巨大なゴミ変数をいじくり回して終了。

地獄かよ。


注意事項(責任逃れ)

私は脳科学神経科学の専門家どころか、体系的な勉強もしたことがありません。デタラメを書こうとはしていませんが、エビデンスや基礎理解の不足は否定できません。

また、脳は複数の領域がネットワークとして協調して機能を実現しているという立場から、脳の部位について、極力言及しないようにしています。