یادگیری و بهبود سیاست‌ها

علیرضا نفیسی

همان‌طور که تاکنون گفته شد، هر فرایند سیاستی باید با ارزیابی همراه باشد. تا اینجا به‌طور مفصل به این آسیب پرداخته شد که متأسفانه در بسیاری از اسناد سیاستی در کشور ما، به دلالت‌های ارزیابی (مانند شاخص‌ها، مسئولان، نحوه، منابع و زمان‌های جمع‌آوری داده، تعاریف عملیاتی شاخص‌ها و اهداف عددی شاخص‌ها) توجه نشده است. گاهی نیز ارزیابی با روش‌های صحیحی انجام نمی‌پذیرد و از روایی لازم برخوردار نیست. نوع دیگر آسیب‌های ارزیابی که در این قسمت به آن خواهیم پرداخت، عدم توجه به حلقه بازخورد و یادگیری پس از انجام ارزیابی است. هر ارزیابی باید با هدفی انجام گیرد که اگر به آن هدف نرسد، عملاً اتلاف منابع صورت گرفته است.

سه هدف عمده برای ارزیابی و یادگیری عبارتند از: ارزیابی با هدف بهبود سیاست مورد ارزیابی، ارزیابی با هدف رشد و گسترش سیاست به سایر مناطق و شرایط[۱] و ارزیابی با هدف تسرّی آموزه‌ها به سایر سیاست‌ها[۲]. برای اینکه بتوان از نتایج ارزیابی یاد گرفت، ابتدا باید از اعتبار این نتایج اطمینان حاصل نمود. در ادامه به این موضوع می‌پردازیم.

روایی و پایایی ارزیابی

در سنجش کیفیت یک ارزیابی (مانند هر تحقیق دیگری)، می‌توان از دو مفهوم روایی و پایایی استفاده نمود. پایایی (Reliability) به این معناست که آیا تکرار تحقیق (به‌طور خاص ابزارهای سنجش) در شرایط کاملاً مشابه، نتایج مشابهی را در پی خواهد داشت یا خیر؟ یعنی آیا نتایج متفاوت، حتماً به خاطر وضعیت متفاوت در واقعیت است یا ناشی از خطاهای ابزار سنجش است؟ مفهوم پایایی معمولاً برای روش‌های کمّی استفاده می‌شود.

در متون روش تحقیق، انواع مختلفی از روایی (Validity) تحقیق ذکر شده است. اما دست کم دو نوع روایی مهم را می‌توان در فرایند ارزیابی بررسی نمود. یکی روایی درونی که به این معناست که آیا ارزیابی به‌درستی انجام شده و واقعاً نتایج، بازتاب مداخله ما هستند (روابط علّی نشان داده شده، معتبر هستند)؟ پیرامون این موضوع در قسمت مربوط به ارزیابی تأثیر، به‌طور مفصل بحث شد. روایی درونی، با استفاده صحیح از ابزارهای اندازه‌گیری و آماری و در نظر داشتن فروض آنها (مثلاً فرض همسان بودن و…)، تأمین می‌شود[۳]. برخی از تهدیدکننده‌های روایی درونی عبارتند از[۴]:

ممکن است رویدادهایی در فاصله میان پیاده‌سازی سیاست و زمان اندازه‌گیری شاخص‌ها اتفاق افتاده باشد که ما از آنها چشم‌پوشی کرده‌ایم.
ممکن است نوع بلوغ و تغییرات طبیعی در خودِ جامعه هدف روی داده باشد. مثلاً با گذر زمان نگرش‌های افراد تغییر کند یا یادگیری در آنها اتفاق بیفتد.
نفس انجام آزمایش و جمع‌آوری داده، ممکن است افراد را گروه آزمایش یا کنترل را نسبت به اهداف و انتظارات آزمایش حساس کند. لذا نتایج حاصل معنایی است که جامعه از سیاست برداشت کرده است نه خودِ اقدامات.
ممکن است برخی از افراد یا گروه‌ها پیش از اتمام آزمایش از آن خارج شوند.
در حالتی که اعضای گروه‌های مداخله و کنترل بر اساس یک خصوصیت حدی (extreme characteristic) انتخاب شده باشند، ممکن است تغییراتی مصنوعی به‌سوی میانگین جامعه اتفاق بیفتد (پدیده regression toward the mean) که ناشی از مداخله ما نبوده است. مثلاً اگر بچه‌های فقیر برای یک برنامه سوادآموزی انتخاب شده باشند، احتمالاً بیش از حد عادی برنامه برای آنها اثربخش خواهد بود.

اما روایی بیرونی، به ما نشان می‌دهد که آیا تأثیراتی که در پایلوت یا یک مداخله خاص مشاهده و ارزیابی شد، قابل تعمیم به فضای بزرگتر یا سایر مداخلات هم هست و می‌توان مثلاً از ارزیابی موفقیت پایلوت، به موفقیت اجرای گسترده هم مطمئن بود؟ برخی از مواردی که روایی بیرونی را به خطر می‌اندازند، عبارتند از:

داده‌های پایلوت، به خوبی جمعیت گسترده را نمایندگی نمی‌کند.
اجرای گسترده یک سیاست، اثرات جانبی نامطلوب جدیدی را به همراه داشته باشد.
منابع کافی برای اجرای گسترده‌تر یک سیاست وجود ندارد؛ مانند منابع مالی و انسانی.
پایلوت تحت تأثیر اثر هاثورن[۵] قرار گرفته باشد؛ پایلوت اولیه بیشتر به این دلیل موفق بوده که بیشتر مورد توجه واقع شده.

در مورد سنجش کیفیت ارزیابی فرایند، به خاطر ماهیت عمدتاً کیفی آن، بیشتر از سنجش روایی نتایج، باید به فرایند و روش کار و نحوه نتیجه‌گیری و بررسی شواهد توجه نمود. همچنین می‌توان به‌صورت فعالانه به دنبال شواهد مختلف و نقد آنها بود^[۶]. می‌توان برای بررسی کیفیت این تحقیقات، به پرسش‌های زیر توجه کرد^[۷]:

هنگام مقایسه یافته‌های مختلف، آیا از روش‌ها و رویکردهای مشابهی در آنها استفاده شده است؟
اگر تعدادی از افراد در تحقیق مشارکت داشته‌اند، آیا در مورد نتایج و یافته‌ها، توافق نظر دارند؟
آیا تناسب خوبی میان یافته‌های مشاهده شده و نتایج وجود دارد؟
داده کافی وجود دارد که به خوانندگان امکان بررسی این را بدهد که آیا یافته‌ها، قابل تعمیم به شرایط و زمان‌های دیگر هم هست؟
آیا روش‌ها و رویکردهای استفاده شده، به‌طور شفاف گزارش شده‌اند؟
آیا دیدگاه‌های همه شرکت‌کنندگان در فرایند مداخله، به‌صورت شفاف و منصفانه ارائه شده است؟
آیا تحقیق طبق روش‌های تحقیق مناسب انجام شده و «زاویه‌بندی» صورت گرفته است؟

تکنیک «زاویه‌بندی»[۸]، در ارزیابی فرایند می‌تواند بسیار کاربردی باشد. در علوم اجتماعی، «زاویه‌بندی» یعنی به‌منظور چک کردن نتایج، از دو یا چند روش به‌صورت ترکیبی در تحقیق استفاده شود. ایده اصلی پشت این تکنیک این است که اگر روش‌های مختلف، نتیجه مشابهی داشته باشند، می‌توان از آن نتیجه مطمئن‌تر بود. می‌توان از این تکنیک برای افزایش روایی تحقیق استفاده نمود. در هر ارزیابی، باید سعی کنیم شواهد متعددی از بخش‌های مختلف سیاست را جمع‌آوری و یکپارچه کنیم و در مورد تعارض‌های آنها تصمیم‌گیری نماییم؛ مثلاً آیا نتایج ارزیابی فرایند، با ارزیابی تأثیر، هماهنگ است؟

می‌توان به چهار نوع زاویه‌بندی اشاره کرد[۹]:

زاویه‌بندی روشی: ترکیب روش‌های تحقیق مختلف: از چند طریق سؤال پرسیدن، استفاده از مشاهده و پیمایش، استفاده از روش کمی و کیفی و… .
زاویه‌بندی داده‌ای: ترکیب داده‌ها از چند منبع؛ مثلاً در شرایط مختلف، زمان‌های مختلف یا زاویه دیدهای مختلف.
زاویه‌بندی پژوهشگر یا تحلیلگری: بیش از یک محقق در جمع‌آوری و تفسیر داده‌ها حضور داشته باشند.
زاویه‌بندی تئوریک: نگاه کردن به داده‌ها از منظرهای تئوریک مختلف و کشف تناسب نظریه‌های مختلف با داده‌ها؛ چگونه نگاه کردن به داده‌ها با فروض مختلف، بر نحوه تفسیر آنها مؤثر است؟

جلسات یادگیری و بهبود سیاست

همان‌طور که بارها در این یادداشت‌ها گفته شده است، یک سیاست خوب، در عمل و با کسب تجربه و دانش صورت می‌پذیرد. لذا باید به صورت مرتب به مرور سیاست پرداخته شود. کاپلان و نورتن در کتاب «پاداش اجرا»[۱۰]، سه نوع جلسه مرور استراتژی را برای سازمان‌ها ضروری می‌دانند. این سه جلسه، اشاره به سه حلقه یادگیری دارند که باید در سازمان‌ها فعال شوند:

جلسات مرور عملیاتی که در آن عملیات (شیوه‌های اجرا) بررسی می‌شود و از حیث انطباق با برنامه‌ها و شاخص‌ها مرور می‌شوند. اینکه مرتب باید به اهداف عددی شاخص‌های مندرج در برنامه‌ها دقت کرد و اجرا را طوری بهبود داد که به آن شاخص‌ها برسیم.
جلسات مرور برنامه‌ها؛ گاه مشکلات موجود، نه به خاطر بد عمل کردن، بلکه به خاطر برنامه‌های نامناسب است. لذا باید برنامه‌های اقدام و اهداف عددی هم مرتباً مورد مرور و بازبینی قرار گیرند.
جلسات مرور استراتژی؛ گاه نگاه به بیرون به ما می‌گوید که اشکال نه از عملیات و نه از برنامه‌ها، که از جهت‌گیری‌های کلی ماست. در این حالت، باید برنامه استراتژیک و اهداف کلان را مورد نقد قرار داد. آیا فرض‌ها و روش‌های اساسی ما، باید تغییر کنند؟ مثلاً آیا این فرض کلان که دولت باید عمدتاً از رویکردهای اقتصادی در حل یک مشکل خاص استفاده کند، صحیح است؟

ایده اصلی پشت این جلسات، این است که باید این بررسی‌ها از هم تفکیک شوند و در دستور جلسات جداگانه قرار بگیرند تا این فرصت به وجود آید که به همه آنها پرداخته شود و مثلاً سنگینی عملیات، مانع تفکر استراتژیک و کلان نشود. همیشه باید ضمن تلاش برای رسیدن به اهداف، خودِ اهداف و برنامه‌ها و استراتژی‌ها هم در بوته نقد و بررسی قرار گیرند. هیچ گاه ما از یک برنامه یا سیاست به‌طور کامل مطمئن نیستیم و باید فرصت بازبینی را برای خودمان فراهم کنیم.

با جمع‌آوری داده‌های حاصل از ارزیابی، در حالت ایده‌آل، برنامه همان‌طور که مدنظر داشتیم اجرا شده، جامعه هدف رفتار خود را بر اساس پیش‌بینی ما تغییر داده و نتایج مطلوب بدست می‌آید. در این حالت، اطمینان ما نسبت به نظریه‌های پشتیبان افزایش می‌یابد؛ اما نتایج، همیشه اینقدر رضایت‌بخش نیست و ممکن است مدل منطقی یا نظریه پشتیبان زیرسؤال برود. مثلاً یک برنامه آموزشی برای توانمندسازی افراد بیکار را فرض کنید که ارزیابی آن، حاکی از تأثیر ناچیز است و اینکه تعداد زیادی از شرکت‌کنندگان در این دوره‌ها، آن را نیمه‌کاره رها می‌کنند. ما باید به دنبال شواهدی باشیم که چرا این اتفاق افتاده و مثلاً از طریق مصاحبه با شرکت‌کنندگان تحقیق کنیم که چرا دوره را به اتمام نرساندند. گاه شکست در مدل منطقی، نه در فرایند، که در نتایج و تأثیرات است؛ یک سیاست به‌نحو مطلوب و به‌طور کامل اجرا شده، اما تأثیرات مطلوب واقع نشده. در مثال قبل فرض کنید که به‌خوبی دوره به انجام رسیده و انتظار داشتیم نرخ بیکاری کاهش یابد، اما تأثیری در نرخ اشتغال مشاهده نشود. در این حالت نیز باید به دنبال شواهد بیشتر باشیم؛ آیا وضعیت بازار کار موجب این شده؟ آیا این برنامه فقط برای برخی گروه‌ها خوب کار کرده؟ معمولاً این یافته‌ها، فرضیات جدیدی را می‌سازند که باید در میدان عمل بیشتر محک بخورند.

آیا شما در مورد مطالب این یادداشت، تجربه سیاستی دیگری (در داخل یا خارج از کشور) را سراغ دارید؟ درصورت تمایل، این تجربه‎ها را در قسمت دیدگاه‎ با ما در میان بگذارید تا با نام خودتان منتشر شود.

[۱] در بسیاری از مواقع، مداخلات ابتدا در یک سطح محدود (مثلاً به لحاظ زمانی و جغرافیایی) اجرا می‌شوند تا در عمل، شواهد و تجربیات پخته‌تری برای طراحی سیاست بدست آید و یا راجع به اینکه اصلاً اجرای سیاست به‌صورت گسترده انجام شود یا نه، تصمیم‌گیری شود. ارزیابی به ما این امکان را می‌دهد که به بررسی این سؤال بپردازیم که آیا از اجرای پایلوت به‌سوی یک سیاست گسترده (ملی) حرکت کنیم یا خیر.

[۲] در این زمینه در یادداشت‌های قبلی، نکاتی مطرح شد که چگونه از نظریه‌های قبلی، شواهد جمع‌آوری شده از سایر سیاست‌ها و مطالعات تطبیقی باید در عمل استفاده نماییم. همچنین در آینده اشاره خواهیم کرد که یک زیرساخت بسیار مهم برای این مقصود، ایجاد بانک‌های اطلاعاتی و سیستم‌های مدیریت دانش قوی برای ذخیره و ایجاد جریان اطلاعات و آرشیو تجربیات از سیاست‌های قبلی است.

[۳] مثلاً در پیمایش، بحث‌های فراوانی در مورد اینکه سوالات پرسشنامه چگونه طراحی شود، در چه شرایطی پرسیده شود، چگونه نمونه‌گیری انجام شود و…، به نحوی که روایی تحقیق بالا برود وجود دارد. به‌طور خاص، به خطاهای حاصل از ابزار اندازه‌گیری، common method variance گفته می‌شود که باید به پیشگیری از آنها فکر کرد. در این زمینه به کتاب‌های روش تحقیق مراجعه کنید.

[۴] برگرفته از: Dunn, W. N. (2014). Public policy analysis. Harlow: Pearson, p. 262

[۵] Hawthorne effect

[۶] در تحقیقات کیفی، به خاطر ماهیت تفسیری و ذهنی، کمتر از مفاهیم روایی و پایایی استفاده می‌شود. یک چارچوب جایگزین برای سنجش کیفیت این تحقیقات، شامل چهار بخش است: credibility, dependability, confirmability and authenticity.

[۷] از Magenta Book به نقل از: Social Research Methods. Bryman. 2001. Oxford: Oxford University Press.

[۸] زاویه‌بندی ترجمه Triangulation است که مثلث‌بندی، مثلث‌سازی و سه‌سوسازی هم ترجمه شده است (ظاهراً سومی از همه متداول‌تر است). این کلمه از هندسه قرض گرفته شده است که در آن با استفاده از اندازه‌گیری زاویه یک نقطه نسبت به دو نقطه معین، مکان و مختصات آن نقطه قابل محاسبه می‌شود. در واقع، شما با نگاه کردن به یک نقطه از دو منظر، می‌توانید آن را به‌طور دقیق مکان‌یابی کنید.

[۹] Denzin, 1989

[۱۰] Executive Premium

ایران‌ تلنگر Nudge

مطالعات موردی سیاست‌های تغییر رفتار در ایران و جهان

روایی و پایایی ارزیابی

جلسات یادگیری و بهبود سیاست

دیدگاهتان را بنویسید لغو پاسخ