کد خبر: 3044

تاریخ بروزرسانی : 1401/12/02

سرفصل های درس روان سنجی و نظریه های اندازه گیری

منابع آزمون دکتری

درس روان سنجی و نظریه های اندازه گیری

نام بسته : سرفصل های درس روان سنجی و نظریه های اندازه گیری

————————————————————————————————-

فهرست 

فصل اول: اصول نظریه سوال پاسخ : چند مقابله و مقایسه

فصل دوم: نظریه سوال پاسخ به عنوان اندازه گیری بر پایه مدل

فصل سوم:مدل های دو ارزشی نظریه سوال پاسخ

فصل چهارم:مقیاس اندازه گیری سطح صف : معنا ، تفسیرها و ویژگی های مقیاس اندازه گیری

فصل پنجم:اندازه گیری افراد : نمره گذاری آزمودنی ها بر اساس مدل های نظریه سوال پاسخ

فصل ششم: مدرج کردن سوال ها: برآورد کردن

فصل هفتم:سنجش برازش مدل های نظریه سوال پاسخ

فصل هشتم:کاربردهای نظریه سوال پاسخ در اندازه گیری شخصیت و نگرش

فصل نهم : نظریه کلاسیک آزمون – چکیده و چشم‌انداز

فصل دهم: نظریه سؤال- پاسخ: مقدمه و چشم‌انداز

فصل یازدهم:کارایی نسبی دو آزمون

فصل دوازدهم:آزمون‌های فلکسی لول

فصل سیزدهم:روش‌های دو مرحله‌ای و آزمون‌های چند سطحی

فصل چهاردهم:سنجش تیلورد (انطباقی)

فصل پانزدهم:سنجش مهارت (چیرگی)

فصل شانزدهم:برآورد کردن توزیع‌های نمره واقعی

فصل هفدهم:توزیع نمره واقعی برآورد شده برای دو آزمون

منابع این بسته درسی

بخش هایی از بسته درسی روان سنجی و نظریه های اندازه گیری

فصل اول: اصول نظریه سوال پاسخ : چند مقابله و مقایسه

قواعد جدید اندازه گیری

نظریه کلاسیک آزمون (CTT) در بخش عمده سال های قرن بیستم پایگاه اصلی پرورش آزمون های روانی بوده است . کتاب کلاسیک گالیکستن (1950) که هنوز هم تجدید چاپ می شود ، اغلب به عنوان منبع اصلی و معرف به شمار می رود . اما باید دانست نظریه روان سنجی کلاسیک بسیار قدیمی تر است . بسیاری از رویه های روان سنجی توسط پیشگامانی چون اسپیرمن  (1907،1913) به کار بسته شده است . نظریه کلاسیک روان سنجی به عنوان معیار آزمون سازی شناخته شده است که آغازگر انفجار اولیه آزمون سازی در سال های دهه 1930 به شمار می رود .

اما ، از وقتی که لردوناویک (1968) درکتاب کلاسیک خود اندازه گیری مبتنی بر مدل را معرفی کردند ، یک انقلاب آرام درنظریه آزمون سازی رخ داد . نظریه سوال پاسخ (IRT) به سرعت به صورت زیربنا و خط سیر اصلی اندازه گیری های روان شناختی درآمد . نظریه سوال پاسخ که به عنوان نظریه صفت مکنون  نیز معروف است ، اندازه گیری بر پایه مدل است که بر اساس آن برآورد سطح صفت هم به پاسخ های شخصی و هم به ویژگی های سوال های اجرا شده بستگی دارد . بسیاری از آزمون های جدید یا تجدید نظر شده ، به ویژه آزمون های توانایی ، بر اساس اصول نظریه سوال پاسخ تدوین شده اند. با وجود این ، چون بسیاری از کاربران آزمون ها با این نظریه آشنا نیستند ، در راهنمای آزمون تنها به صورت گذرا و اغلب در بخش پیوست فنی به کاربرد آن اشاره می شود . بدین سان ، بیشتر مصرف کنندگان آزمون ها از اینکه پایه های روان سنجی آزمون ها تغییر یافته است بی خبر مانده اند .

(برای تهیه این بسته درسی تماس بگیرید 09306406058)

در آغاز ، نظریه سوال پاسخ مورد توجه تولید کنندگان آمریکایی آزمون های قرار گرفت . زیرا بسیاری ازمسایل عملی سنجش مانند همتراز سازی فرم های مختلف آزمون ها را حل می کرد .در سال های اخیر نوید نظریه سوال پاسخ در مورد موضوع های پراهمیت روان شناسی آشکار شده است . اکنون تفسیر نمره ها را می توان از راه ویژگی های اندازه گیری یک پارچه نظریه سوال پاسخ به مهارت های زیر بنایی یا زمینه ساز ارتباط داد. افزون بر این ، ویژگی های مقیاس اندازه گیری توجیه پذیر نظریه سوال پاسخ می تواند استنباط آماری در باره تفاوت های گروهی  و همچنین مقایسه درون فردی و بین فردی نمره های ازمون را به طور قابل ملاحظه ای تحت تاثیر قرار دهد .

دانش بیشتر روان شناسان از« قواعد اندازه گیری» بر روان سنجی کلاسیک استوار است . نظریه آزمون های روانی در برنامه های درسی روان شناسان کاربردی و بیشتر روان شناسان با گرایش نظری گنجانیده شده است. در برنامه های بعضی از رشته های کارشناسی ارشد و دکتری ، روان سنجی کلاسیک به عنوان واحد درسی جداگانه ارایه می شود که برای رشته روان شناسی کاربردی اجباری وبرای سایررشته ها اختیاری است . در برنامه های درسی سایر رشته ها مانند روان شناسی بالینی ، مشاوره ، روان شناسی صنعتی و روان شناسی مدرسه ، نظریه روان سنجی همراه با روان آزمایی تدریس می شود .

لردوناویک (1968) برای برقراری پیوستگی بین نظریه جدید و قدیم روان سنجی ، بسیاری از اصول نظریه کاسیک را از نظریه سوال پاسخ استخراج کردند . این امر برای روان شناسان پر مشغله ای که روان سنجی کلاسیک را می دانند اما در باره نظریه سوال پاسخ آگاهی ندارند به ظاهر نوید بخش تر است وجود اشتقاق ها  به ظاهر نشان می دهد که هر چند قواعد اندازه گیری در یک ساختار بدیهی  و خردمندانه  ریشه دارند ، ولی بدون تغییر مانده اند .

باوجود این ، در نسخه یا ویرایش  بر پایه مدل  نظریه سنجش یعنی سوال پاسخ ، بعضی از قواعد شناخته شده اندازه گیری کاربرد خود را از دست داده است . به واقع ، قواعد جدید اندازه گیری در اساس با قواعد قدیمی تفاوت دارند . بسیاری از قواعد قدیمی باید مورد تجدید نظر قرار گیرند . تعمیم داده شوند و یا به کلی کنار گذاشته شوند .

در این فصل ، بعضی از قواعد قدیمی اندازه گیری با قواعد متناظرشان در اندازه گیری جدید مقایسه می شوند تا عمق تفاوت های بین روان سنجی کلاسیک و سوال پاسخ روشن گردد .

مقایسه قواعد اندازه گیری

چند مورد از قواعد قدیمی اندازه گیری ممکن است از اصول روان سنجی کلاسیک یا در بسط رایج آن مشاهده شود . سایر قواعد قدیمی به طور ضمنی در رویه های تدوین آزمون های کاربردی دیده می شود.  به نظر  این قواعد قدیمی ، دانش و روش های متداول بین روان شناسان رانشان می دهد . بیشتر آزمون های روانشناختی منتشر شده ، اما نه همه آنها ، بر مبنای این قواعد ساخته شده اند . بدیهی است برخی موارد استثنا مانند آزمون های تدوین شده توسط شرکت های بزرگ آزمون سازی و یا ارتش که برای گزینش و پذیرش به کار می روند نیز وجود دارند . در این گونه موارد ، برخی رویه های متفاوت با نظریه سوال پاسخ به کار می روند نیز وجود دارند . در این گونه موارد ، برخی رویه های متفاوت بانظریه سوال پاسخ به کار بسته شده است تا بدین وسیله محدودیت های بعضی از قواعد قدیمی را بپوشانند . برای مثال ، همترازسازی غیر خطی  است .برای حل محدودیت قاعده شماره 3 تدوین شد . همچنین شاخص های  سوال مستقل از جامعه مانند شاخص دلتا توسط مؤسسه آزمون های تحصیلی یا ETS تدوین شده است تا قاعده شماره 4 راجبران کند. اما طبق درس روان سنجی و نظریه های اندازه گیری سرانجام ، جهت مقابله با قاعده قدیمی شماره 1 رویه هایی برای برآورد خطاهای اندازه گیری در سطوح خاص نمره ها تدوین شده است . اما ، این فنون در خارج از برنامه های آزمون سازی در مقیاس بزرگ شناخته شده نیستند ، بنابراین به طور معمول در تدوین آزمون های روان شناختی به کار بسته نمی شوند . بدین سان ، قواعد قدیمی در تدوین آزمون ها نقش عمده ای را ایفا می کنند .

قواعد قدیم
⭐ قاعده 1. خطای معیار   اندازه گیری در باره همه نمره های یک جامعه خاص صدق می کند .

⭐ قاعده 2. اعتبار  آزمون های بلند بیشتر از اعتبار آزمون های کوتاه تر است .

⭐ قاعده 3 . مقایسه نمره های آزمون ها در فرم های چند گانه  زمانی بهینه  است که آزمون ها موازی یا همتا باشند .

⭐ قاعده 4 . برآورد بدون تورش یا بدو سوگیری  ویژگی های سوال به معرّف بودن نمونه ها بستگی دارد .

⭐ قاعده 5. نمره های آزمون زمانی معنا پیدا می کنند که موقعیت آنها با گروه نرم یا هنجارها مقایسه شود .

⭐ قاعده 6. ویژگی های مقیاس فاصله ای وقتی که توزیع نمره های آزمون بهنجار باشد تحقق می یابند .

⭐ قاعده 7. چارچوب مرکب  سوال ها در مجموع نمره های آزمون تاثیر ناهمسان   برای می گذارند .

⭐ قاعده 8. هنگامی که سطوح نمره های اولیه متفاوت باشند ، نمره های تغییر رانمی توان به طورمعنی دار مقایسه کرد .

⭐ قاعده 9. تحلیل عامل در مورد سوال های دو ارزشی  ، به جای تولید عامل واقعی به تولید عامل های ساختگی منجر می شود.

⭐ قاعده 10. ویژگی های محرک سوال ها در مقایسه با خصایص روان سنجی آنها بی اهمیت اند .

قواعد جدید
🌟 قاعده 1. خطای میار انداگیری در سرتاسر نمره ها ( یا الگوهای  پاسخ ) تغییر می کند ، اما در طول جامعه تعمیم پذیر است.

🌟 قاعده 2. اعتبار ازمون های کوتاه ممکن است از اعتبار آزمون های بلند تر بیشتر باشد.

🌟 قاعده 3. مقایسه نمره های آزمون ها در فرم های چندگانه هنگامی بهینه است که سطوح دشواری آزمون برای ازمودنی ها متفاوت باشد .

🌟 قاعده 4. برآورد بدون تورش یا بدون سوگیری ویژگی های سوال را  می توان در مورد نمونه های نامعرف نیز به دست آورد .

🌟 قاعده 5. نمره های آزمون زمانی معنا پیدا می کنند که فاصله آنها از ماده ها یا سوال ها   مقایسه شود .

🌟 قاعده 6. ویژگی های مقیاس فاصله ای زمانی تحقق می یابد که روش های اندازه گیری توجیه پذیر به کار بسته شود .

🌟 قاعده 7. چارچوب مرکب سوال ها ممکن است به نمره های بهینه آزمون بیانجامد .

🌟 قاعده 8. هنگامی که سطوح نمره های اولیه  متفاوت باشند. نمره های تغییر را می توان به گونه معنی دار مقایسه کرد .

🌟 قاعده 9.تحلیل عاملی در مورد داده های خام سوال ها به اطلاعات کاملی در مورد تحلیل عاملی منجر می شود .

🌟 قاعده 10.ویژگی های محرک سوال ها می تواند به طور مستقیم به خصایص روان سنجی آنها ارتباط پیدا کند .

 قانون 1.خطای معیار اندازه گیری

قاعده قدیم 1.خطای معیار اندازه گیری در باره همه نمره های یک جامعه خاص صدق می کند .

قاعده جدید 1 . خطای معیار اندازه گیری در سرتاسر نمره ها ( یا الگو های پاسخ ) تغییر می کند . اما در طول جامعه تعمیم پذیر است .

این دو قاعده به ویژگی خطای معیار اندازه گیری مربوط است . خطای معیار اندازه گیری ، نوسان های مورد انتظار نمره ها را که ازخطا ناشی می شود توصیف می کند . خطای معیار اندازه گیری نه تنها در توصیف کیفیت روان سنجی آزمون، بلکه در تفسیر هر یک از نمره ها امری اساسی است. فواصل اطمینان  نمره ها که به وسیله خطای معیار تعریف می شود از چند جهت برای تفسیر نمره ها راهنمایی کننده است . برای مثال ، اگر فاصله اطمینان بین دو نمره با یکدیگر همپوشی  باشند ، در تفسیر آنها می توان گفت که تفاوت معنی دار با هم ندارند.

قاعده جدید 1 از دو نظر با قاعده قدیم 1 تفاوت دارد . نخست ، این دو قاعده از این نظر که آیا خطای معیار اندازه گیری نمره ها در یک جامعه ثابت یا متغیر است  متفاوتند. قاعده قدیم به یکسانی و قاعده جدید به پراکندگی خطای معیار اندازه گیری دلالت دارد .دوم ، این دو قاعده از این لحاظ که آیا خطای معیار اندازه گیری در سرتاسر جامعه اختصاصی یا کلی است متفاوتند.قاعده قدیم شماره 1 به اختصاصی بودن و قاعده جدید شماره 1 به تعمیم پذیری آن در جامعه دلالت دارد .

برای هر نمره فاصله اطمینان بر اساس این پیش فرض برآورد می شود که خطای معیار اندازه گیری در همه سطوح نمره ها برابر و دارای توزیع بهنجار است .

برای نمایش قاعده قدیم ، داده های  سوال پاسخ یک آزمون 30 سوالی با دامنه سطح دشواری بهنجارکه مورد 3000 نفر جرا شده بود شبیه سازی شد .آزمودنی ها از جامعه ای که نمره های صفت در مورد افراد آن بهنجار بود نمونه گیری شد . در بخش بالایی شکل 1-1 ، رگرسیون نمره های واقعی کلاسیک که به صورت نمره های تراز شده یا استاندارد نشان داده شده اند روی نمره های خام نمایش داده شده است . با استفاده از خطای معیار اندازه گیری 32/0 ( براساس شاخص آلفای کرانباخ به عنوان همسانی درونی ) . فاصله  اطمینان نمره ها در سطح 68 درصد به صورت خطوط نقطه چین نشان داده شده است .

دو نکته مهم در باره قاعده قدیم را می توان ملاحظه کرد .نخست ، نمره واقعی برآورد شده ، نمره استانداردی است که به صورت تبدیل خطی ازنمره خام مشتق  شده است و به صورت رگرسیون خطی دیده می شود . دوم ، فواصل اطمینان نیز برای همه نمره ها به صورت خطوط مستقیم نشان داده شده است ، زیرا فاصله اطمینان در مورد همه نمره ها یکسان است . در روان سنجی کلاسیک تبدیل نمره خام به نمره واقعی و خطای معیار هردو در مورد یک جامعه خاص صدق می کنند ، زیرا برآورد آنها بــــــــــــه شاخص های آماری جامه بستگی دارد . به عبارت دیگر ، تبدیل نمره استاندارد مستلزم محاسبه میانگین و انحراف معیار نمره خام جامعه است . در حالی که خطای معیار اندازه گیری به برآورد واریانس و ضریب اعتبار نیاز دارد .

(برای تهیه این بسته درسی تماس بگیرید 09306406058)

برای نمایش قاعده جدید ، نمره های صفت با استفاده از مدل راش در مورد داده های شبیه سازی شده مثال بالا برآورد شد . در بخش پایینی شکل 1-1 ، رگرسیون نمره های سطح صفت سوال پاسخ روی نمره های خام نشان داده شده است . بخش زیرین شکل 1-1 از دو جهت مهم با بخش بالایی آن تفاوت دارد : نخست ، رابطه بین نمره صفت و نمره خام غیر خطی  است ، دوم ، خط نوار فاصله اطمینان در مورد نمره های انتهایی توزیع به گونه فزاینده ای ازنمره مشاهده شده [خط وسط ممتد شکل ] دور می شود . بر خلاف روان سنجی کلاسیک برآوردهای نمره صفت و خطای معیار متناظر آنها هر دو از توزیع جامعه مستقل اند .در مدل های سوال پاسخ ، نمره های صفت برای  هر نمره یا الگوی پاسخ جداگانه برآورد می شود و بدین ترتیب خصایص    ( مثلاً سطح دشواری ) سوال های اجرا شده کنترل می شود . هر گاه پرسش ها یا سوال های آزمون برای سطح نمره صفت خاص در حد بهینه و ضریب تشخیص یا قوه تمیز سوال  بالا باشد ، خطای معیار اندازه گیری به حداقل می رسد . براساس درس روان سنجی و نظریه های اندازه گیری از روی میانگین خطاهای معیار سوال پاسخ می توان یک شاخص متوسط برای جامعه به دست آورد .

در این فرمول  متوسط مجذور خطاهای و  واریانس نمره های صفت  ضریب اعتبار مرکب گروه است . پیداست هر اندازه خطای معیار سطح نمره های هر صفت کوچکتر باشد،ضریب اعبار بالاتر خواهد بود . در  مورد جامعه بزرگ و بهنجار آزمودنی های شبیه سازی شده ، با اجرای آزمونی که برای سطح صفت جامعه مناسب بود ، خطای معیار متوسط برای جامعه آزمودنی ها 32/0 به دست آمد که با خطای معیار به دست آمده از روش روان سنجی کلاسیک تجزیه و تحیل اول یکسان بود. اما باید دانست این خطاهای معیار تنها در شرایط محدودی همسان خواهند بود . برای مثال ، اگر سطح دشواری آزمون با صفت مورد انداه گیری گروه نمونه تناسب نمی داشت . یا اگر توزیع صفت مذکور بهنجار نمی برد . انتظار می رفت که بین خطاهای معیار تفاوت هایی وجود داشته باشد .

قاعده 2: طول تست و اعتبار

قاعده قدیم 2 : اعتبار آزمون های بلند بیشتر از اعتبار آزمون های کوتاه است .

قاعده جدید 2: اعتبار آزمون های کوتاه ممکن است از اعتبار آزمون های بلند بیشتر باشد .

این دو قاعده با یکدیگر به طور مستقیم در تضادند . پیداست که در نظریه کلاسیک آزمون های طولانی تر اعتبار بالاتری دارند. به واقع ، این اصل در روش کلاسیک با فرمول پیش بینی کننده  اسپسرمن –براون  مشخص می شود . به طور اخص ، اگر با افزودن سوال های موازی یاهمتاطول آزمون nبرابر شود. واریانس حقیقی سریع تر از واریانس خطا افزایش می یابد .اگر ru اعتبار تست اولیه باشد ، اعتبار تستی که تعداد سوال های آن n برابر شده است یعنی nn را می توان از فرمول زیر پیش بینی کرد :

برای مثال ، اگر ضریب اعتبار آزمونی 86/0 باشد و تعداد سوال های آن را به دو سوم کاهش دهیم (667/0=n) ، اعتبار پیش بینی شده از 80/0 خواهد بود. تاثیر دو برابر ، سه برابر وچند برابر کردن طول آزمونی را که ضریب اعتبار اولیه آن 70/0 بوده است نشان می دهد . قاعده جدید با  تأکید  برای این نکته که ضریب اعتبار آزمون کوتاه ممکن است بالاتر از آزمون بلندتر باشد ، با قاعده در تضاد است خطای معیار اندازه گیری نمره سطوح مختلف صفت در مورد دو نوع آزمون با تعداد سوال های متفاوت بر اساس داده های شبیه سازی شده رانشان می دهد .

در همه تحلیل ضرایب تشخیص سوال ها ثابت نگاه داشته شده اند. همه نتایج در بخش زیرین شکل درس روان سنجی و نظریه های اندازه گیری بر نظریه سوال پاسخ استوار است .دو آزمون 20 و 30 سوالی بامحتوای ثابت  نشان می دهد که خطای معیار اندازه گیری برای نمره های کناری یا انتهای  در الگوی ویژگی  سوال پاسخ بالاتر است . همچنین ملاحظه می شود که خطاهای معیار اندازه گیری آزمون 30 سوالی از خطاهای معیار اندازه گیری آزمون 20 سوالی در همه سطوح صفت مورد اندازه گیری کوچک تر است . این الگو با قاعده قدیم همخوانی دارد .

خطای معیار اندازه گیری دو آزمون انطباقی  هم نشان داده شده است . در آزمون های انطباقی ، سوال ها برای هر آزمودنی به گونه ای انتخاب شده اند  که برای سطح توانایی آنان مناسب ترین باشد . بدینسان ، آزمودنی هایی که در سطوح مختلف توانایی قرار دارند به سوال های متفاوت پاسخ می دهند در صورتی که سوال ها با سطوح دشواری مناسب و کافی از بانک یا خزانه سوال انتخاب شده باشند ، برای هر یک از سطوح توانایی خطاهای معیار برابر به دست می آید .درمطالعه شبیه سازی شده  که در سرتاسر سطوح مختلف توانایی خطاهای معیار برابر به دست آمده است  .

بامقایسه خطاهای معیار بین آزمون های سنتی بامحتوای ثابت و آزمون های انطباقی ، قاعده جدید روشن می شود. ملاحظه کنید که خطای اندازه گیری حاصل از آزمون  انطباقی 20 سوالی برای بیشتر سطوح صفت مورد سنجش پایین تر از آزمون 30 سوالی با محتوای ثابت با تاکید بر رویکردهای درس روان سنجی و نظریه های اندازه گیری است . این یک الگوی نوعی پاسخی برای سنجش انطباقی است . البته این بدان معناست که خطای اندازه گیری در آزمون های کوتاه تر کمتر از آزمون های بلندتر است . بنابراین ، در ازمون  کوتاه تر و باکیفیت یکسان سوال ها ( یعنی با ثابت نگاهداشتن ضرایب تشخیص سوال ها ) ، « آزمونی » با اعتبار بالاتر خواهیم داشت . بدین سان ، اعتبارمرکب  در طول سطوح مختلف توانایی مانند آنچه که دیده می شود ، نشان می دهد که آزمون ( انطباقی ) کوتاه تر در مقایسه با آزمون معمولی بلندتر از اعتبار بالاتری برخوردار است .

اگر در باره روان سنجی کلاسیک منصفانه قضاوت کنیم ، باید توجه داشته باشیم که پیش فرض زیر بنایی فرمول پیش بینی اسپیرمن –براون آن است که آزمون با افزایش سوال های موازی طولانی تر شود . آزمون انطباقی به سبب ماهیتی که دارد نمی تواند این پیش فرض رامحقق سازد ، زیرا در آزمون انطباقی سطح دشواری سوال ها به گونه قابل ملاحظه ای متفاوتند . اما نکته ای که بایددر اینجا به آن توجه داشت این است که قاعده قدیم از نظر رابطه طول آزمون با اعتبار آن به شیوه های ظریف با کاربردهای موجود آزمون های انطباقی مبتنی بر قاعده جدید سوال پاسخ درتضاد است .

مشاوره برای آزمون دکتری

برای مشاوره اینجا بزنید

خدمات کنکور دکتری 
معرفی موسسات آموزشی آزمون دکتری
1 1 رای
امتیاز بدهید
guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
0
افکار شما را دوست داریم، لطفا با ما در میان بگذارید.x