オペラント条件づけ

2019年06月30日日曜日

オペラント条件づけについてです。
古典的条件づけとセットにして覚えておくと良いでしょう。
例によって、赤字は公認心理師試験で出たところです。


基本的理解

生体は様々な行動を自発し、その行動の結果によって次の行動が変化します。
オペラント=自発するという意味です。
自発していた行動(オペラント行動)に続いて刺激を提示もしくは除去することで、そのオペラント行動がその後に自発する頻度が変化(増加or減少)します。

つまり、元々なにかしらの反応があって、その後に刺激を与えるというのがオペラント条件づけの特徴と言えます。
これに対して、レスポンデント条件づけは、まず刺激を与えて出現する反応に対して操作を行っていきます。

この「反応→刺激」がオペラント、「刺激→反応」がレスポンデントという、単純な見分けではありますが基本として覚えておくことが大切です。
もちろん実際の見分けはもう少し複雑なので、臨床心理士資格試験などの過去問を参照に見分ける訓練をしておきましょう。

オペラント条件づけの歴史についてみていきます。
まず、Thorndike(ソーンダイク)が、迷路ボックスと空腹猫を使って実験し、「試行錯誤学習」を見出しました。
「ソーンダイク=損な大工」と考えて「作っては壊し、作っては壊し(試行錯誤、ですね)の損な大工」と覚えておくと良いでしょう。

試行錯誤学習は満足をもたらした反応(R)と刺激(S)が結合するS-Rの連合学習で、効果の法則に従うと考えました。
効果の法則とは、以下の法則を指します。
  1. 満足の法則:満足な結果で生じやすくなる
  2. 不満足の法則:不満足な結果で生じにくくなる
  3. 強度の法則:満足や不快の程度が強いほど、連合の変化が大きい
その後、Skinner(スキナー)がスキナー箱を作成し、フリーオペラント手続き(ソーンダイクは実験者がいちいち猫を入れるので「フリー」ではない)を考案しました。

【2018-5】



スキナーのオペラント学習に関する基本的用語

ここではオペラント条件づけ、オペラント学習を語る上で当たり前のように使われる用語について解説します。
  • 強化:
    反応に随伴してエサなどの刺激を与える手続き。
  • オペラント水準:
    オペラント条件づけでは、自発的に生じた行動を「オペラント行動」といい、この頻度のことを「オペラント水準」と呼ぶ。
    強化を与えない時の反応率。
    オペラント条件づけでは、すでに示されている「反応」を「強化」することによって学習を成立させる。
    よって、強化を与える前に、その反応がどの程度の頻度で生じているかを把握することが重要となる(すなわち、オペラント水準を知っておくことが重要となる)。
  • 消去:
    強化を止めること。
    一般に強化回数が多いほど生じにくく、消去回数が多いほど消去されやすい。
    消去抵抗とは、消去されるまでに要した反応数や時間などで示される消去されにくさを指す。
    一般に連続強化で訓練された行動は、消去抵抗が低く、容易に消去されるが、間歇強化で訓練された行動は消去抵抗が高く、消去されにくいと言われる。
    これはハンフリーズ効果、部分強化効果、強化矛盾と呼ばれる現象である。
これらは基本的な事柄ですので忘れないように。

オペラント条件づけでは、強化と罰の関係やその意味をしっかりと理解することが重要です。
刺激を提示することを「正の○○」と言い、除去することを「負の○○」と呼びます。
あくまでも提示・除去で「正の」「負の」という呼び方になることを理解しましょう。

そして上記の「○○」の部分には、「強化」か「罰」が入ります。
刺激の提示or除去によって、オペラント行動の反応頻度が増大することを「強化」と呼び、逆に反応頻度が減少することを「罰」と呼びます。
※近年は、訳語の印象から誤解を招かないよう、「罰」→「弱化」、「罰子」→「弱化子」という訳語への置き換えが進んでいます。

すなわち、「刺激を提示or除去」+「反応頻度の増加or減少」の4パターンが生じるわけです。
以下の通りです。
  1. 刺激の提示+反応頻度の増大=正の強化
  2. 刺激の提示+反応頻度の減少=正の罰(正の弱化)
  3. 刺激の除去+反応頻度の増大=負の強化
  4. 刺激の除去+反応頻度の減少=負の罰(負の弱化)(オミッション)
ちなみに正の強化と負の罰を生じさせる刺激は、理論的には「快刺激」であり、正の罰と負の強化を生じさせる刺激は「不快刺激」になります(なぜ「理論的には」という言葉を使ったかは、コメント欄をご覧ください。試験には関係ないのですけど…)。
考えてみれば当然かもしれませんが、しっかりと押さえておきましょう。

特に、負の強化(不快刺激を除去すると、反応が増加する)は、「逃避学習」と「回避学習」に分けることができます。
不快刺激を経験している状況から逃れることを「逃避」といい、これから経験するであろう不快刺激を事前に避けることを「回避」と呼びます。

逃避学習とは、「経験によって、不快刺激が呈示されてから逃避反応がなされるまでの反応時間が短縮されていく学習過程」を指します。
例えば、頭痛がひどいときに薬を飲むという行動を採って頭痛が治まれば、次に頭痛が生じたときに薬を飲むという行動がすぐに採られるようになります。

すなわち頭痛の除去(不快刺激の除去)によって、薬を飲むという行動の増加(反応頻度の増大)が生じたということになり、このことを上記の4パターンで判断すれば「負の強化」ということになるのがわかります。

回避学習とは、「不快刺激を予告する刺激が呈示され、刺激呈示中に特定の反応をすれば不快刺激は来ないという学習」を指します(当然、反応は増大します)。
代表的な実験として、往復箱(シャトルボックス)の実験があります。
仕切られた2つの部屋があり、ラットを入れた一方の部屋に電流を流すと、もう一方の部屋に逃避します。
電流前に警告音を呈示することで、次第に電流呈示前に移動するようになります。
これが、「回避学習」が完成した姿になります。

こちらは移動するという行動を採ることによって電流という不快刺激が回避され(刺激の除去)、その結果として回避行動の増大(反応頻度の増大)が生じたということになり、やはり「負の強化」であることがわかりますね。

回避学習の形成過程をたどってみると、最初の数試行では被験体は警告刺激 (条件刺激) が提示されても所定の反応を行わず、有害刺激 (無条件刺激) を与えられるが、試行が進むに従って警告刺激が提示されるとただちに反応し、有害刺激を回避できるようになります。

これは以下の段階を踏むとされています。
  1. 第1段階として最初の数試行で警告刺激が古典的条件づけによって有害刺激と結合され、条件性の情動反応 (恐れ) を引起すようになる。
  2. 第2段階としてこの恐れの動因に基づいて特定の道具的反応が学習されると考えられる。
このような考え方を「回避学習の2要因説」と呼びます。

【2018-7③④、2018追加-39】



教科のスケジュール

スキナーは「いつ強化するか」という環境側から見た規則を「強化のスケジュール」と呼びました。
以下のような分類が一般的です。
  • 定比率スケジュール:
    反応を一定数繰り返すと強化が与えられる。時間には関係が無いので、反応の出現が遅れればそれだけ時間がかかる。給料みたいなもの。
  • 変動比率スケジュール:
    何回か反応を繰り返すと強化が与えられるが、次に強化を与えられるのが何回目の反応かという強化までに必要な反応回数が随時変化する。その強化に必要な反応数の平均値や中央値は一定にしてある。パチンコ。要求される反応数が不規則。
  • 定間隔スケジュール:
    前の強化から一定時間後の最初の反応に強化を与える。何回反応したかは関係が無い。
  • 変動間隔スケジュール:前に強化を受けた反応の出現からある時間を経過した後の最初の反応が強化されるが、強化されるために必要な経過時間は随時変化する。その強化に必要な経過時間の平均値や中央値は一定にしてある。反応が安定し、強化時も消去時も滑らかな累積記録になる。メールチェック動作がこれ。
オペラント条件付けでは、1つの行動を「先行条件-行動-結果」の枠組み(三項随伴性)で捉え、特定の行動に対して、当人にとって望ましい結果や望ましくない結果を伴わせることで、その行動の生起頻度を変化させます。

Share /

10 件のコメント

  1. 毎日拝見させて頂いております。分かりやすく書かれているので、とても参考になります。
    どうしても分からないことがあり、教えて頂きたく初めてコメントをいたします。

    今回の解説で、
    『頭痛の除去(強化子の除去)によって、薬を飲むという行動の増加(反応頻度の増大)が生じたということになり、このことを上記の4パターンで判断すれば「負の強化」ということになる』
    と書かれておりますが、
    「薬を飲む(強化子の提示)によって、頭痛がなくなる(反応頻度の減少)となり、正の罰」という考えもありでしょうか?
    全くトンチンカンなことを書いていたらすみません。
    お時間があるときでかまいませんので、教えていただけるとありがたいです。

    返信削除
    返信
    1. コメントありがとうございます。

      まずオペラント条件づけは行動主義の基本理論の一つになります。
      行動主義では「心理学は自然科学の一分野であり、その目標は行動の予測と統制にある」とワトソンが宣言しています。
      こうした考えを背景にしていますので、あくまでも目標は「行動」にあると考えることができます。

      また、オペラント条件づけにおける行動とは、生活体が環境に対して働きかける行動であり、生活体が自発する行動を指します。
      ラーメン店に入る、ラーメンを注文する、店主と会話をするなどのように、自発的にその周囲の状況に働きかける行動を指しているのです。
      (古典的条件づけでは、ラーメンと唾液分泌などをしましたが、オペラントでは違うということですね)
      このようにオペラント条件づけにおける行動の定義を理解しておくと、先ほどの答えにもつながるかもしれないです。

      これらの点を踏まえてご質問について答えていきたいと思います。
      「薬を飲む(強化子の提示)によって、頭痛がなくなる(反応頻度の減少)となり、正の罰」は一見大丈夫そうです。
      しかし頭痛を対象とすると、それは「客観的に観察可能ではない」ということ、「自発的行動ではない」ということが言えます。
      すなわち、ご提示の内容だとオペラント条件づけという枠組みで捉えるには不適切になると考えることができます。

      また気がかりな点などございましたら、お知らせいただけると幸いです。

      削除
  2. お忙しい中、早速の返信をありがとうございます。

    『頭痛を対象とすると、それは「客観的に観察可能ではない」ということ、「自発的行動ではない」ということ』
    そういうことなんですね。なんか、“行動”も“気持ち”もごっちゃにしていたようです。納得しました。
    “頭痛の程度”では、痛さを客観的に観察できないので、オペラント水準も把握できないというのも、よく分かりました。
    4つのパターンがしっくりこなかったのも、基本的なことを理解できていなかったからなんですね。

    こうして返信をいただけた事で、自分の中で文字の羅列だったオペラント条件付けが、生きたものとして鮮明に体感できたように思います。
    これからもここで勉強を続けさせて頂こうと思います。
    ありがとうございました。

    返信削除
    返信
    1. おはようございます。

      近年のCBTなどの考え方は、より広く行動を捉えています。
      スキナーのオペラント条件づけの考え方(徹底的行動主義)と比べると、かなり行動の範囲が異なっています。

      ですから現代で臨床を行っている我々は「行動」と「気持ち」をそれほど分けて考える必要が無いことが多いはずです。
      その点で理解の難しさや混乱が生じる可能性はあるのかもしれません。
      あくまでも理屈上はそうである、と考えておいて良いだろうと思います。

      >自分の中で文字の羅列だったオペラント条件付けが、生きたものとして鮮明に体感できたように思います。
      そう言っていただけると、こちらとしても嬉しい限りです。

      またお気づきの点、気がかりな点などございましたら、コメント頂けると幸いです。

      削除
  3. 昨年度の受験時より、いつも有難く・楽しんで勉強させていただいております。

    今回は、用語について気づいたことがありましたのでコメントいたします。

    私は仕事柄、行動分析の文献をよく読むのですが、強化・罰の説明で「報酬刺激」という4文字表現はあまり聞かないように思います。
    「報酬」ならばあるのですが。少なくとも、比較的最新の網羅的な書籍『行動分析学事典』(丸善出版, 2019)と『応用行動分析学』(明石書店, 2013)のインデックスには載っていなかったです。
    研究者によっては用いる方もいらっしゃるのかもしれませんが。
    「嫌悪刺激」と対にすると、字数的には収まりがよく感じられますし、分かりやすくはあるのですけれど。

    また、
    強化と罰の2×2パターンについては、

    1. (快)刺激の提示+反応頻度の増大=正の強化
    2.(不快)刺激の提示+反応頻度の減少=正の罰
    3.(不快)刺激の除去+反応頻度の増大=負の強化
    4. (快)刺激の除去+反応頻度の減少=負の罰

    という表記の方が適切かと思います。

    また、行動に後続した結果、将来の行動を増加させるような刺激変化が強化子(減少させるような刺激変化は罰子)ですから、
    「正の罰」「負の罰」の説明に強化子という用語を用いると混乱を招くので、
    単純に「刺激」とするか、もしくは報酬(刺激)・快刺激/嫌悪刺激・不快刺激という言葉を便宜上用いて説明されるのが良いのではないかと思います。

    「頭痛の除去」「電流の回避」も「強化子の除去」ではなく「嫌悪刺激の除去」=「負の強化子」になると思います。

    ちなみに、近年は、訳語の印象から誤解を招かないよう、「罰」→「弱化」、「罰子」→「弱化子」という訳語への置き換えが進んでいるようです。

    返信削除
    返信
    1. コメントありがとうございます。

      用語の使用について、Naokiさまのご指摘の通りだと思います。
      私が参考にしたのは「グラフィック学習心理学」で、実はそちらに「報酬刺激」「嫌悪刺激」という表記がございます。
      そちらを参考にした用語使用が中途半端に残っていたのでしょう。
      修正させていただきます。

      また弱化、弱化子への置き換えは複数の書籍ですでに行われていますね。
      どうしようかとは思いましたが、今回の公認心理師試験ではその辺の出題が無かったので、かつてのままにしておきました。
      注釈を追加する形にしておこうと思います。

      強化と罰のパターンについても、強化子ではなく「刺激」の方が適切だと思いますので修正いたします。
      これを「強化子」としたのも、実は「グラフィック学習心理学」からなのです…。
      と言っても刺激を呈示する時点では、それが「強化子」であるかどうかは判断できないというのが正しい考え方だと思います。
      それが強化子と認定されるかどうかは、反応頻度の増減を見てからになるはずですから。

      >「正の罰」「負の罰」の説明に強化子という用語を用いると混乱を招くので、単純に「刺激」とするか、もしくは報酬(刺激)・快刺激/嫌悪刺激・不快刺激という言葉を便宜上用いて説明されるのが良いのではないかと思います。
      実は「報酬」「快刺激」「嫌悪刺激」「不快刺激」と表記するのは、私が大学生の頃から意識的に避けていました。
      もちろん、そのように表記している資料も多く見ますし、理論的には正しいだろうと思います。

      一方で、単に「刺激」と表記している資料もございます。
      この点について「刺激の種類を限定してある資料としてない資料があるのだから、とりあえずは広い方の概念で覚えておこう」と大学生の私は考え、そのまま現在まできております。
      よって「強化子」という表記になりました(「刺激」の方が良いという意見には同意です)。

      また、臨床実践をしていれば経験されていると思いますが、「不快刺激のはずなのに、それが呈示されたら反応頻度が増大する」という状況もあります。
      例えば、「いじめられているのに、よりいじめを誘発するようなことをする」など。
      もちろんこれには注目欲求の存在といった別の要因が絡んでいることが多く(その場合、社会的には不快刺激が、本人にとっては快刺激となっていると見なせるのだろうか)、また、オペラント条件づけの枠組みで考えるのが適切でない場合も多くあるでしょう。

      ただこういう経験をするたびに「単に刺激を快不快と限定してしまってよいのか、社会的な快不快と当人にとっての快不快は異なるのではないか、やはり単に「刺激」と中性的な表現をしておいた方が良いのではないか」と思うようになりました。
      そのようなこだわりもあり、正の強化等の説明では単に「強化子」という表記を使った次第です(繰り返しますが「刺激」の方が良いですね)。

      ということで、私のこだわりもあって、その辺のご指摘を頂いた形になったのかなと理解しております。
      私としても、こういう経緯があってこういう表記をしているのだとお伝えできる機会になって良かったです。
      またお気づきの点などございましたら、コメント頂けると幸いです。

      削除
  4. お忙しい中、丁寧にご回答いただきありがとうございました。

    『グラフィック学習心理学』は読んだことがありませんでした。
    確認してみようと思います。ありがとうございます。

    行動分析学を学び始めの頃、訳語の表記の違いがとても気になって読み漁り、腑に落ちる体験をしましたが、私も自身のこだわりがあるのだと改めて自覚しました…。

    JABA(http://www.j-aba.jp/)が、現在進行形(2019.6.28)で改めて訳語検討(第3期)をしているので、まだまだこれからなのだと思いました。(こういった訳語統一は、他の学派・学会でも、少しずつなされていくものでしょうか。)

    >「単に刺激を快不快と限定してしまってよいのか、社会的な快不快と当人にとっての快不快は異なるのではないか、やはり単に「刺激」と中性的な表現をしておいた方が良いのではないか」と思うようになりました。

    仰る通りだと思います。

    先の『行動分析学事典』(p.55)には、
    「また一般的に,正の強化子および負の弱化子は,個体にとって快をもたらす刺激であることが多く,負の強化子および正の弱化子は,個体にとって不快をもたらす刺激であることが多い(そのため負の強化子と正の弱化子は,嫌悪刺激とも呼ばれる)。しかし、強化子・弱化子としての機能と快・不快といった刺激の性質に一義的な対応関係があるわけではないので,注意が必要である.」
    とありました。

    私も、人に教える際は常に「その刺激がその人にとってどう機能しているか、人それぞれの行動随伴性を常に見ましょう」と伝えます。

    また改めて色々と勉強し直したい気持ちになってきました。
    ありがとうございました。

    返信削除
    返信
    1. お返事ありがとうございます。

      >JABA(http://www.j-aba.jp/)が、現在進行形(2019.6.28)で改めて訳語検討(第3期)をしている
      試験を受ける立場の人たちからすると、あまり訳語が違うのも困りものです。
      どのような訳語が適切だと感じるかはその人の理論に対する考え方や経験なども影響しそうで、なかなか統一は難しそうでもあります。
      私個人はどの訳語にしようか決めきれずにいるという時間も、それなりに好ましく思っておりますが(試験的には「勘弁してよ」ですけど)。

      >しかし、強化子・弱化子としての機能と快・不快といった刺激の性質に一義的な対応関係があるわけではないので,注意が必要である
      こういう文章があるのですね!
      大学時代からのぼんやりとした考えに正解が与えられたようで嬉しいです。
      オペラント条件づけの枠組みで言えば、S-O-RのOの要因をしっかりと考えよ、ということになるでしょうか。

      言葉の使い方一つで理論をきちんと理解しているか否かが問われると改めて感じます。
      またお気づきの点がございましたら、コメント頂けると嬉しいです。
      こちらこそありがとうございました。

      削除
  5. お返事ありがとうございます。
    何度もコメントしてしまってすみません。


    〉私個人はどの訳語にしようか決めきれずにいるという時間も、それなりに好ましく思っております

    そうか、そういう感じ方もあるのですね!何かちょっと楽になりました。


    >オペラント条件づけの枠組みで言えば、S-O-RのOの要因をしっかりと考えよ、ということになるでしょうか。

    オペラント条件づけですと、認知や思考も、体の動きも、等しくオペラント行動(R)として扱うので、S-O-RでなくS-R-S(三項随伴性A-B-C)で考えるのだと思います。

    人それぞれの今に至る行動履歴で、ある刺激は、その人のある行動(B)にとって、
    強化子としての機能を得ているかもしれないし、弱化子としての機能を得ているかもしれないし、どちらでもないかもしれない。(C)
    あるいは、強化子/弱化子の有無を知らせる弁別刺激かもしれないし、強化子/弱化子の有効性(価値)を変える動機づけ操作として機能しているかもしれない。(A)
    一般的な快・不快が成立する随伴性とは異なる随伴性を経験してきた人の行動パターンは、変わって見える。

    注目を得ることが強化子になり、相手も場面の適切さも関係なく、相手の注意を引きやすい行動をとってしまう、という事例は、私の現場でもあります。
    先に挙げていらしたいじめの例は、もう少し複雑な随伴性である気もします。
    いじめられること(C)は、不快でないわけではないのだけれど、何らかの理由で、注意引き行動を減らすほどの弱化子になっていない。
    相手や場面の弁別が成立していない、行動(B)の直後に起こるわけではないため弱化子になっていない、
    あるいは、いじめる相手とのやり取りの中に、何らかの強化子も含まれている?等と想像してみました。


    試験勉強を経てから、食わず嫌いしなくなりました。
    貴サイトで、自分の疎い用語を検索しては、楽しく知識を更新しております。
    ありがとうございます。

    返信削除
    返信
    1. おはようございます。

      >オペラント条件づけですと、認知や思考も、体の動きも、等しくオペラント行動(R)として扱うので、S-O-RでなくS-R-S(三項随伴性A-B-C)で考えるのだと思います。
      あ、そうでした、トールマンとごっちゃにしていました。

      >いじめの例
      私はいじめの例に関しては、別の捉え方で考えることが多くなっています。
      人は自分の頭の中にある自分のイメージに合わせて周囲を解釈、行動しています。

      例えば、「浮気されるかもしれない」と思っていると、相手のちょっとした行動が気になって問い詰めてしまったり。
      その繰り返しによって、相手がうんざりして実際に浮気をしてしまったり。
      そして、そういう人が実際に浮気をされたときに感じるのは、怒りや悲しみといったネガティブな感情だけでなく、「やっぱりね」という自分の頭の中にあるイメージが損なわれなかった感覚もあるように思います。

      私は、人にはこういう「自分の頭の中にある自分のイメージ」を維持しようとする傾向があると思っていて、ある精神状況や環境が整うと、この傾向が強まると感じています。
      いじめでも、どこかそういう傾向を感じることがあったり。

      こういう考え方の背景には、たぶん投影性同一視やナラティブも少し入っているかもしれません。
      もちろんそれだけで捉えられないことも多く見受けられます。

      とある現象を様々な理論で捉えることは、どこか山登りに似ているような気がしています。
      1つの山を登る場合でも、色んなルートがあり、その困難度も異なります。
      どれが正しい、間違っているということではないな、と感じつつ理解するようにしています。

      とコメントから連想が湧いたので、つらつらと述べました。
      またやり取りできると嬉しいです。

      削除

About Me

小学校~大学までの教育領域で臨床活動をしています。また10年以上、臨床心理士資格試験対策の勉強会に携わってきました。
このブログでは公認心理師および臨床心理士の資格試験に向けた内容をアップしていきます。時々、コラムや読書録なども。

Followers

CONTACT

名前

メール *

メッセージ *

© 公認心理師・臨床心理士の勉強会
designed by templatesZoo