読む毒の配布場所

品質管理(QC)について深く考えていたら脳科学や社会システム、社会問題なんかが侵食してきたのでそれを吐き出していきます。

PDCAって脳内にもあるんじゃね?〜脳PDCAモデルの提案〜

この記事は一体なんだ

PDCAサイクルって最近は時代おくれだなんて言われがちだけど、実際には形だけPDCAが蔓延していて効果がないってだけのことも多いみたいだ。

PDCAサイクルが形骸化しやすいのは人間の脳の特性のせいなのでは……と思って脳科学を調べたら、何と脳自体がPDCAサイクルを持っているっぽい。

ということでまとめたのがこの記事です。

PDCAの概要

脳は注意→計画→行動選択→誤差評価→学習というメインループを短いサイクルで繰り返すことで外界に適応するシステムだ。

  • その時々に何をテーマとするかを決め(注目し)、対象を解析して計画を立てるPlan

  • Planを元に実際に行動(行動選択)するDo
  • 事前の予測と行動結果を比較(誤差評価)するCheck
  • Checkの結果を受けて再発防止(学習)をするAct

Planステージ(注目と計画)〜なぜ、遊びが終わったあとに蚊にさされていることに気づくのか?〜

注意と計画は、その時々で何に注目するか(何をテーマとするか)を決定し、因果関係を明らかにして(モデル構築)、行動を計画するPlanステージに相当する。

注意プロセスの概要

注意とはその時々に脳が何を処理するか、という脳への入力の選別だ。

注意プロセスは①内的思考によるものと②外的刺激によるもの、さらに③その切り替え機構から構成される。

①内的思考に基づく注意

内的資源(記憶・思考・想像)に基づいて、何に注目するかを決める。

例:探し物をするとき、対象物への興味を維持する。

②外的刺激に基づく注意

刺激への反応として、注目対象を決める。

例:視界の端で動いたものに反応する。

③切り替え機構

「異常」「危険」「新奇性」により、外的刺激の重要性を評価する。この切り替えは、外的刺激の「重要度」を瞬時に評価する仕組みで、 内的思考を中断してでも注意を奪うかどうかを決めている。

  • 上の階から響く生活音が気になって勉強できない
  • 蚊に刺されまくっているのに構わず遊び続ける

などはこの切り替え機構の「さじ加減」によるものだ。

注意することにより何が起きるか?

注意対象への資源の配分が起きる。対象からの感覚入力が強化され、不要な情報は抑制される。

例:カクテルパーティー効果

結果として思考も注意対象に集中する。

複数の対象に同時に注意を向けることもできるが、脳の持つ資源は有限なので、集中の程度は低くなる。

このような選別は、その後の意思決定の処理効率にも影響する。

計画プロセスの概要

脳は注意対象についての「モデル」を構築、または既存のモデルを再利用し、可能な入力(行動)と予測される出力の一覧を作成する。

可能な行動は理論的には無限に存在するが、実際に生成される行動候補は有限個にとどまる。行動候補には過去の経験や学習によって「生成されやすいもの」と「生成されにくいもの」があり、無意味・無価値な行動や、未知の行動は生成されにくいからだ。

そして、可能な行動を価値が高い順に並べ直す。この、順位付けされた行動リストが計画だ。

目標候補の生成

目標とは「今何をし、何を達成すべきか」という出力(行動)の方向性の設定だ。

脳は外界の状況と内部の状態(欲求、記憶:社会規範や長期的計画など)を統合して目標候補を生成する。

目標候補は、階層的に整理され、ワーキングメモリに保存される。

例:健康になる→運動をする→ジムに行く

短期的・具体的な行動目標ほど思考の中で「前景化」され、長期目標は「背景」として維持される。

目標の価値評価

目標の価値は、

  • 得られる報酬の大きさ
  • コスト(努力)の大きさ
  • 時間的距離(即座↔長期的)
  • リスク
  • 達成可能性
  • 社会適合性
  • 感情や快楽
  • 習慣

などを統合し、異なる性質の目標(例えば「映画を見に行く」と「勉強する」など)を共通の価値尺度に翻訳して計算される。

このとき、価値が低すぎると評価された目標は、リストから除外されていく。

価値の比較と目標のフィルタリング

目標の価値の差が計算され、順位付けが行われる。

同時にルール、長期的目標、社会規範との適合性がチェックされ、不適切な目標はリストから削除される。

競合の検出

価値が近い目標同士を比較する。必要ならば、注意や努力を増強して評価の解像度を上げる(葛藤)。

このとき、価値差の大きい低価値の目標は切り捨てられる。

こうして、計画が完成する。

Doステージ(行動選択)〜どうして、つい〇〇してしまうのか〜

計画とは価値により順位付けした行動(目標)のリストだが、計画と実際の行動選択は別のプロセスなので、必ずしも順位が最高位の行動が選択されるとは限らない。

計画が作られても、それが自動的に実行されるわけではなく、実行には別の「選択スイッチ」が必要なのだ。

これは、Doステージに相当する。

行動選択メカニズムの概要

計画の上位になっている行動は、前述した通り階層化されている。

例:映画を見に行く(出掛ける、移動する、電車に乗る……)、出掛ける(靴をはく、鍵をとる、玄関ドアを開ける、施錠する……)

この階層構造の最下位は行動の意味を持った最小単位(チャンク)だ。

行動選択プロセスに計画リスト(より正確にはチャンクのリスト)が入力されると、チャンク実行に必要なコスト(努力)との比較が行われ、最もコストに見合った価値があると判断されたチャンクが「解禁」され、それと競合する行動が強く抑制される。その結果として行動が選択される、というのが行動選択プロセスの基本だ。ただし、これには後述するような例外がある

行動選択プロセスでは、チャンクの解禁をいつからいつまで行うかという時間の制御も行われる。

チャンクが解禁されると、それを実現するための筋肉の制御信号が生成され、動作が実行される。

行動選択の学習

行動選択プロセスには学習機能があり、繰り返し解禁された行動は選択されやすくなる。

また、チャンクのセットを繰り返し解禁すると、一連の動作がひとまとまりとなりチャンクが「長く」なる。

例)車の車庫入れは複雑な動作だが、熟練した運転手はいちいち細かな判断をしなくても車庫入れを自然に行うことができる。これは「車庫入れ」がチャンク化した状態といえる。

また、過去にうまくいった行動は選択されやすいという学習も行われる。とりわけ、予測よりも大幅に良い結果が起きた行動は選択されやすくなる。

技能の習得などにおいては、脳は学習モードに切り替わり、将来得られる報酬を最大限に評価し、失敗した行動でも繰り返し選択し続けることができる。この仕組みにより、最初は不完全でも「改善し続ける」行動パターンが選択されやすくなる。

これらのはたらきは、計画と行動選択の食い違いの原因となる。チャンクにより選択されやすさが異なるため、計画リストの最上位とは異なる行動が選択される場合があるのだ。

行動選択の緊急停止

開始した、または開始しかけた行動が危険、強く不合理と考えられる場合、トップダウン的に行動選択を緊急停止させるメカニズムもある。

「やっぱりやめる」という判断がなされると、起動しかけていた行動パターンは一斉に抑制され、行動は選択されなくなる。

この緊急停止は脳のリソースを大量に消費する「疲れる」システムだ。そのため、疲労などの要因で危険・不合理な行動が実行される場合があり、人はそれを「つい……してしまった」と表現する。

Checkステージ(予測誤差の評価)〜勉強していたはずなのにSNSをチェックしているのはなぜか〜

脳は計画を立てる際に、興味対象のモデルを用いて行動により得られる結果を予測していた。これと行動を実行して観測された実際の結果との差異が報酬予測誤差(Reward Prediction Error: RPE)だ。つまり

RPE =(観測された結果)-(予測された結果)

と表現できる。

脳は、全体としてこの予測誤差をゼロに近付けることを目的とした学習装置といえる。

事前の予測と観測された結果を比較することはCheckステージに相当する。

予測誤差とドーパミン

​脳内では、予測誤差の状態によってドーパミンの放出が制御され、行動が最適化される。

  • 正のRPE(期待以上)ドーパミンが増加し、その行動が「強化」される(次回以降、より選択されやすくなる)。
  • 負のRPE(期待外れ)ドーパミンが増加せず、予測モデルの更新(期待値の下方修正)が促される。

以上が基本だが、より正確にはドーパミンの増減は以下のように文脈依存的になっている。

いつもうまくいくとき

予測モデルの精度がよく、いつも正のRPEとなる場合、ドーパミンは徐々に増加しにくくなる。これは「成功」が「当たり前」に変わった、安定状態だ。脳はこの対象を少ないリソースで「楽に」処理でき、快適と感じる。

失敗続きのとき

実行方法が拙くて失敗が続く場合は、負のRPEであっても以前より損失が小さければ(RPEがゼロに近付けば)ドーパミンが増加する。これは「改善」を評価軸に据えている状態といえ、先に触れた脳の「学習モード」の正体だ。

予想外に大きなRPE

不均等な間隔での予想外に大きなRPEは大量のドーパミン放出を引き起こし、その行動の優先順位を爆発的に引き上げる。これは、行動選択が局所最適に陥る(マンネリ化する)のを防ぎ、新しい可能性を探索するための仕掛けと考えられている。

しかし、時にこの仕組みが仇となり、成功確率が低い行動に執着したり、繰り返される失敗によりモデルが過剰に更新された結果、人を極端・過激な行動に走らせたりする場合がある。

予測可能性と予測誤差評価

脳は予測可能性が高いモデルを好み、計画においては上位に位置づけやすい。しかし、実際には様々な理由により予測可能性が低いモデルに基づく行動が選択される場合もある。

モデルの予測可能性が低いと結果が安定せず、不均等な間隔で予想外に大きなRPEとなりやすい。その典型例が社会的評価だ。他者のことは予測しにくいため、社会的承認は大量のドーパミン放出に繋がりやすい。だから、承認欲求は暴走しやすいのだ。

この仕組みにより、「合理的な計画」よりも「予測不能な承認」が優先され、「勉強しよう」という理性が「SNSをチェックしよう」という衝動に負ける、という現代人の典型的なジレンマが生じる。

Actステージ(学習)

RPEの評価が行われると、脳はそれに基づいて学習を行う。

脳とPDCAの違いとして、PDCAのActにおいては再発防止が強調されるのに対し、脳は「学習」において再発防止(外界モデルの更新)をする一方で正の予測誤差に対して行動選択の強化を行う。この行動の強化は、PDCAを回してプロセスが安定するとPに替えてS(標準化とその保守)を行うSDCAに移行するのに対応しているといえるだろう。

再発防止学習

主にRPEが負だった場合、予測の正確性を向上させるためにモデルの更新が行われる。つまり、RPEが負となった原因は予測が正確でなかったからだと考えて、その再発防止をするわけだ。

行動強化システム

主にRPEが正だった場合、同種の行動が選択されやすいように行動選択の優先順位が更新される。つまり、適した行動が標準的に行われるようにするわけだ。

QCと脳の関係を考える

PDCAは品質管理(QC)から生まれた概念だ。それに深く関わったデミング氏や当時の日科技連の方々は脳科学についての知識は無かっただろうに、生産現場の観察から帰納的に脳の機能を一般化することに成功したと評価できるだろう。

そして、PDCAはQCの中核的概念の一つということで間違いない。だから、QC全体を人の脳のはたらきをベースとした体系的活動と捉えてみるのも面白いだろう。

また、PDCAは改善のループなのだから、改善というのは人間の脳が本質的に持っている方向性、さらに踏み込めば人類普遍の価値といえそうだ。

PDCAの「バグ」

PDCAのループにはいくつかの、適応的進化の結果が状況により不適応的となるタイプの「バグ」が潜んでいる。その代表が、Checkステージにおける「モデルの事後変更」だ。

脳は予測誤差を最小化することを志向しているから、予測誤差が負の方向に大きいことを不快(我々はその状況を「うまくいかない」「こんなはずではなかった」と認識する)に感じる。そのストレスに対する適応として、脳は事後的に外界予測モデルを変更する場合がある。

例えばダイエット中の人の体重が増えてしまったとき、様々な言い訳が行われることがある。

体重を減らすための計画(運動をすれば体重は減る)があったにもかかわらず行動選択が適切になされなかった(運動しない)結果、負の予測誤差(体重が減ると予測したのに、逆に増えた)が生じたとき、脳はその結果が生じるような予測モデルの変更(気温が低いのだから、運動したがる人はいない)を行って辻褄をあわせよう(寒かったのだから、運動せず体重が増えても仕方ない)とすることがある。

PDCAの形骸化と脳のはたらき

PDCAにおける「モデルの事後変更」は、QCなどでのPDCAでもしばしば見られる。例えばCheckステージで計画通りにDoができなかった場合に「Plan時とは状況が変わったため、正しく評価することができない」などの分析が行われるのがそれだ。

このようなQCの形骸化は、脳PDCAの「バグ」に起因するのかもしれない。だとすれば、脳PDCAにある「バグ」を知ることで合理的に「形だけで実効性がない、面倒くさいだけのPDCA」を真のプロセス改善の道具に変えられる可能性がある。

注意事項(責任逃れ)

私は脳科学神経科学の専門家どころか、体系的な勉強もしたことがありません。デタラメを書こうとはしていませんが、エビデンスや基礎理解の不足は否定できません。

また、脳は複数の領域がネットワークとして協調して機能を実現しているという立場から、脳の部位について、極力言及しないようにしています。