علیرضا نفیسی
همانطور که تاکنون گفته شد، هر فرایند سیاستی باید با ارزیابی همراه باشد. تا اینجا بهطور مفصل به این آسیب پرداخته شد که متأسفانه در بسیاری از اسناد سیاستی در کشور ما، به دلالتهای ارزیابی (مانند شاخصها، مسئولان، نحوه، منابع و زمانهای جمعآوری داده، تعاریف عملیاتی شاخصها و اهداف عددی شاخصها) توجه نشده است. گاهی نیز ارزیابی با روشهای صحیحی انجام نمیپذیرد و از روایی لازم برخوردار نیست. نوع دیگر آسیبهای ارزیابی که در این قسمت به آن خواهیم پرداخت، عدم توجه به حلقه بازخورد و یادگیری پس از انجام ارزیابی است. هر ارزیابی باید با هدفی انجام گیرد که اگر به آن هدف نرسد، عملاً اتلاف منابع صورت گرفته است.
سه هدف عمده برای ارزیابی و یادگیری عبارتند از: ارزیابی با هدف بهبود سیاست مورد ارزیابی، ارزیابی با هدف رشد و گسترش سیاست به سایر مناطق و شرایط[۱] و ارزیابی با هدف تسرّی آموزهها به سایر سیاستها[۲]. برای اینکه بتوان از نتایج ارزیابی یاد گرفت، ابتدا باید از اعتبار این نتایج اطمینان حاصل نمود. در ادامه به این موضوع میپردازیم.
روایی و پایایی ارزیابی
در سنجش کیفیت یک ارزیابی (مانند هر تحقیق دیگری)، میتوان از دو مفهوم روایی و پایایی استفاده نمود. پایایی (Reliability) به این معناست که آیا تکرار تحقیق (بهطور خاص ابزارهای سنجش) در شرایط کاملاً مشابه، نتایج مشابهی را در پی خواهد داشت یا خیر؟ یعنی آیا نتایج متفاوت، حتماً به خاطر وضعیت متفاوت در واقعیت است یا ناشی از خطاهای ابزار سنجش است؟ مفهوم پایایی معمولاً برای روشهای کمّی استفاده میشود.
در متون روش تحقیق، انواع مختلفی از روایی (Validity) تحقیق ذکر شده است. اما دست کم دو نوع روایی مهم را میتوان در فرایند ارزیابی بررسی نمود. یکی روایی درونی که به این معناست که آیا ارزیابی بهدرستی انجام شده و واقعاً نتایج، بازتاب مداخله ما هستند (روابط علّی نشان داده شده، معتبر هستند)؟ پیرامون این موضوع در قسمت مربوط به ارزیابی تأثیر، بهطور مفصل بحث شد. روایی درونی، با استفاده صحیح از ابزارهای اندازهگیری و آماری و در نظر داشتن فروض آنها (مثلاً فرض همسان بودن و…)، تأمین میشود[۳]. برخی از تهدیدکنندههای روایی درونی عبارتند از[۴]:
- ممکن است رویدادهایی در فاصله میان پیادهسازی سیاست و زمان اندازهگیری شاخصها اتفاق افتاده باشد که ما از آنها چشمپوشی کردهایم.
- ممکن است نوع بلوغ و تغییرات طبیعی در خودِ جامعه هدف روی داده باشد. مثلاً با گذر زمان نگرشهای افراد تغییر کند یا یادگیری در آنها اتفاق بیفتد.
- نفس انجام آزمایش و جمعآوری داده، ممکن است افراد را گروه آزمایش یا کنترل را نسبت به اهداف و انتظارات آزمایش حساس کند. لذا نتایج حاصل معنایی است که جامعه از سیاست برداشت کرده است نه خودِ اقدامات.
- ممکن است برخی از افراد یا گروهها پیش از اتمام آزمایش از آن خارج شوند.
- در حالتی که اعضای گروههای مداخله و کنترل بر اساس یک خصوصیت حدی (extreme characteristic) انتخاب شده باشند، ممکن است تغییراتی مصنوعی بهسوی میانگین جامعه اتفاق بیفتد (پدیده regression toward the mean) که ناشی از مداخله ما نبوده است. مثلاً اگر بچههای فقیر برای یک برنامه سوادآموزی انتخاب شده باشند، احتمالاً بیش از حد عادی برنامه برای آنها اثربخش خواهد بود.
اما روایی بیرونی، به ما نشان میدهد که آیا تأثیراتی که در پایلوت یا یک مداخله خاص مشاهده و ارزیابی شد، قابل تعمیم به فضای بزرگتر یا سایر مداخلات هم هست و میتوان مثلاً از ارزیابی موفقیت پایلوت، به موفقیت اجرای گسترده هم مطمئن بود؟ برخی از مواردی که روایی بیرونی را به خطر میاندازند، عبارتند از:
- دادههای پایلوت، به خوبی جمعیت گسترده را نمایندگی نمیکند.
- اجرای گسترده یک سیاست، اثرات جانبی نامطلوب جدیدی را به همراه داشته باشد.
- منابع کافی برای اجرای گستردهتر یک سیاست وجود ندارد؛ مانند منابع مالی و انسانی.
- پایلوت تحت تأثیر اثر هاثورن[۵] قرار گرفته باشد؛ پایلوت اولیه بیشتر به این دلیل موفق بوده که بیشتر مورد توجه واقع شده.
در مورد سنجش کیفیت ارزیابی فرایند، به خاطر ماهیت عمدتاً کیفی آن، بیشتر از سنجش روایی نتایج، باید به فرایند و روش کار و نحوه نتیجهگیری و بررسی شواهد توجه نمود. همچنین میتوان بهصورت فعالانه به دنبال شواهد مختلف و نقد آنها بود[۶]. میتوان برای بررسی کیفیت این تحقیقات، به پرسشهای زیر توجه کرد[۷]:
- هنگام مقایسه یافتههای مختلف، آیا از روشها و رویکردهای مشابهی در آنها استفاده شده است؟
- اگر تعدادی از افراد در تحقیق مشارکت داشتهاند، آیا در مورد نتایج و یافتهها، توافق نظر دارند؟
- آیا تناسب خوبی میان یافتههای مشاهده شده و نتایج وجود دارد؟
- داده کافی وجود دارد که به خوانندگان امکان بررسی این را بدهد که آیا یافتهها، قابل تعمیم به شرایط و زمانهای دیگر هم هست؟
- آیا روشها و رویکردهای استفاده شده، بهطور شفاف گزارش شدهاند؟
- آیا دیدگاههای همه شرکتکنندگان در فرایند مداخله، بهصورت شفاف و منصفانه ارائه شده است؟
- آیا تحقیق طبق روشهای تحقیق مناسب انجام شده و «زاویهبندی» صورت گرفته است؟
تکنیک «زاویهبندی»[۸]، در ارزیابی فرایند میتواند بسیار کاربردی باشد. در علوم اجتماعی، «زاویهبندی» یعنی بهمنظور چک کردن نتایج، از دو یا چند روش بهصورت ترکیبی در تحقیق استفاده شود. ایده اصلی پشت این تکنیک این است که اگر روشهای مختلف، نتیجه مشابهی داشته باشند، میتوان از آن نتیجه مطمئنتر بود. میتوان از این تکنیک برای افزایش روایی تحقیق استفاده نمود. در هر ارزیابی، باید سعی کنیم شواهد متعددی از بخشهای مختلف سیاست را جمعآوری و یکپارچه کنیم و در مورد تعارضهای آنها تصمیمگیری نماییم؛ مثلاً آیا نتایج ارزیابی فرایند، با ارزیابی تأثیر، هماهنگ است؟
میتوان به چهار نوع زاویهبندی اشاره کرد[۹]:
- زاویهبندی روشی: ترکیب روشهای تحقیق مختلف: از چند طریق سؤال پرسیدن، استفاده از مشاهده و پیمایش، استفاده از روش کمی و کیفی و… .
- زاویهبندی دادهای: ترکیب دادهها از چند منبع؛ مثلاً در شرایط مختلف، زمانهای مختلف یا زاویه دیدهای مختلف.
- زاویهبندی پژوهشگر یا تحلیلگری: بیش از یک محقق در جمعآوری و تفسیر دادهها حضور داشته باشند.
- زاویهبندی تئوریک: نگاه کردن به دادهها از منظرهای تئوریک مختلف و کشف تناسب نظریههای مختلف با دادهها؛ چگونه نگاه کردن به دادهها با فروض مختلف، بر نحوه تفسیر آنها مؤثر است؟
جلسات یادگیری و بهبود سیاست
همانطور که بارها در این یادداشتها گفته شده است، یک سیاست خوب، در عمل و با کسب تجربه و دانش صورت میپذیرد. لذا باید به صورت مرتب به مرور سیاست پرداخته شود. کاپلان و نورتن در کتاب «پاداش اجرا»[۱۰]، سه نوع جلسه مرور استراتژی را برای سازمانها ضروری میدانند. این سه جلسه، اشاره به سه حلقه یادگیری دارند که باید در سازمانها فعال شوند:
- جلسات مرور عملیاتی که در آن عملیات (شیوههای اجرا) بررسی میشود و از حیث انطباق با برنامهها و شاخصها مرور میشوند. اینکه مرتب باید به اهداف عددی شاخصهای مندرج در برنامهها دقت کرد و اجرا را طوری بهبود داد که به آن شاخصها برسیم.
- جلسات مرور برنامهها؛ گاه مشکلات موجود، نه به خاطر بد عمل کردن، بلکه به خاطر برنامههای نامناسب است. لذا باید برنامههای اقدام و اهداف عددی هم مرتباً مورد مرور و بازبینی قرار گیرند.
- جلسات مرور استراتژی؛ گاه نگاه به بیرون به ما میگوید که اشکال نه از عملیات و نه از برنامهها، که از جهتگیریهای کلی ماست. در این حالت، باید برنامه استراتژیک و اهداف کلان را مورد نقد قرار داد. آیا فرضها و روشهای اساسی ما، باید تغییر کنند؟ مثلاً آیا این فرض کلان که دولت باید عمدتاً از رویکردهای اقتصادی در حل یک مشکل خاص استفاده کند، صحیح است؟
ایده اصلی پشت این جلسات، این است که باید این بررسیها از هم تفکیک شوند و در دستور جلسات جداگانه قرار بگیرند تا این فرصت به وجود آید که به همه آنها پرداخته شود و مثلاً سنگینی عملیات، مانع تفکر استراتژیک و کلان نشود. همیشه باید ضمن تلاش برای رسیدن به اهداف، خودِ اهداف و برنامهها و استراتژیها هم در بوته نقد و بررسی قرار گیرند. هیچ گاه ما از یک برنامه یا سیاست بهطور کامل مطمئن نیستیم و باید فرصت بازبینی را برای خودمان فراهم کنیم.
با جمعآوری دادههای حاصل از ارزیابی، در حالت ایدهآل، برنامه همانطور که مدنظر داشتیم اجرا شده، جامعه هدف رفتار خود را بر اساس پیشبینی ما تغییر داده و نتایج مطلوب بدست میآید. در این حالت، اطمینان ما نسبت به نظریههای پشتیبان افزایش مییابد؛ اما نتایج، همیشه اینقدر رضایتبخش نیست و ممکن است مدل منطقی یا نظریه پشتیبان زیرسؤال برود. مثلاً یک برنامه آموزشی برای توانمندسازی افراد بیکار را فرض کنید که ارزیابی آن، حاکی از تأثیر ناچیز است و اینکه تعداد زیادی از شرکتکنندگان در این دورهها، آن را نیمهکاره رها میکنند. ما باید به دنبال شواهدی باشیم که چرا این اتفاق افتاده و مثلاً از طریق مصاحبه با شرکتکنندگان تحقیق کنیم که چرا دوره را به اتمام نرساندند. گاه شکست در مدل منطقی، نه در فرایند، که در نتایج و تأثیرات است؛ یک سیاست بهنحو مطلوب و بهطور کامل اجرا شده، اما تأثیرات مطلوب واقع نشده. در مثال قبل فرض کنید که بهخوبی دوره به انجام رسیده و انتظار داشتیم نرخ بیکاری کاهش یابد، اما تأثیری در نرخ اشتغال مشاهده نشود. در این حالت نیز باید به دنبال شواهد بیشتر باشیم؛ آیا وضعیت بازار کار موجب این شده؟ آیا این برنامه فقط برای برخی گروهها خوب کار کرده؟ معمولاً این یافتهها، فرضیات جدیدی را میسازند که باید در میدان عمل بیشتر محک بخورند.
آیا شما در مورد مطالب این یادداشت، تجربه سیاستی دیگری (در داخل یا خارج از کشور) را سراغ دارید؟ درصورت تمایل، این تجربهها را در قسمت دیدگاه با ما در میان بگذارید تا با نام خودتان منتشر شود.
[۱] در بسیاری از مواقع، مداخلات ابتدا در یک سطح محدود (مثلاً به لحاظ زمانی و جغرافیایی) اجرا میشوند تا در عمل، شواهد و تجربیات پختهتری برای طراحی سیاست بدست آید و یا راجع به اینکه اصلاً اجرای سیاست بهصورت گسترده انجام شود یا نه، تصمیمگیری شود. ارزیابی به ما این امکان را میدهد که به بررسی این سؤال بپردازیم که آیا از اجرای پایلوت بهسوی یک سیاست گسترده (ملی) حرکت کنیم یا خیر.
[۲] در این زمینه در یادداشتهای قبلی، نکاتی مطرح شد که چگونه از نظریههای قبلی، شواهد جمعآوری شده از سایر سیاستها و مطالعات تطبیقی باید در عمل استفاده نماییم. همچنین در آینده اشاره خواهیم کرد که یک زیرساخت بسیار مهم برای این مقصود، ایجاد بانکهای اطلاعاتی و سیستمهای مدیریت دانش قوی برای ذخیره و ایجاد جریان اطلاعات و آرشیو تجربیات از سیاستهای قبلی است.
[۳] مثلاً در پیمایش، بحثهای فراوانی در مورد اینکه سوالات پرسشنامه چگونه طراحی شود، در چه شرایطی پرسیده شود، چگونه نمونهگیری انجام شود و…، به نحوی که روایی تحقیق بالا برود وجود دارد. بهطور خاص، به خطاهای حاصل از ابزار اندازهگیری، common method variance گفته میشود که باید به پیشگیری از آنها فکر کرد. در این زمینه به کتابهای روش تحقیق مراجعه کنید.
[۴] برگرفته از: Dunn, W. N. (2014). Public policy analysis. Harlow: Pearson, p. 262
[۵] Hawthorne effect
[۶] در تحقیقات کیفی، به خاطر ماهیت تفسیری و ذهنی، کمتر از مفاهیم روایی و پایایی استفاده میشود. یک چارچوب جایگزین برای سنجش کیفیت این تحقیقات، شامل چهار بخش است: credibility, dependability, confirmability and authenticity.
[۷] از Magenta Book به نقل از: Social Research Methods. Bryman. 2001. Oxford: Oxford University Press.
[۸] زاویهبندی ترجمه Triangulation است که مثلثبندی، مثلثسازی و سهسوسازی هم ترجمه شده است (ظاهراً سومی از همه متداولتر است). این کلمه از هندسه قرض گرفته شده است که در آن با استفاده از اندازهگیری زاویه یک نقطه نسبت به دو نقطه معین، مکان و مختصات آن نقطه قابل محاسبه میشود. در واقع، شما با نگاه کردن به یک نقطه از دو منظر، میتوانید آن را بهطور دقیق مکانیابی کنید.
[۹] Denzin, 1989
[۱۰] Executive Premium