آزمونهای معناداری و اندازه ی اثر
آزمونهای معناداری و اندازه ی اثر
نکتهی مهم در کشف DIF این است که: "آیا تفاوت میان میانگینها به اندازهی کافی بزرگ هست که بتوان از موجود DIF در یک سوال صحبتی میان آورد." روشهای اولیه کشف DIF وسیلهای برای چک کردن این موضوع نداشتند، در حالی که روشهای کنونی مانند روشهای مبتنی بر IRT، روش MH و روش استاندارد شده برای بررسی این موضوع از ارزش Pو آمارهی x^2استفاده میکنند. استفاده از آزمون آماری معناداری از عدم کاربرد آن بهتر است ولی بیشتر محققان (هیوبرتی، 2002) بیان میکنند که آزمونهای آماری از طریق حجم نمونه کنترل میشوند. علاوه بر این، کاربرد آزمونهای آماری معناداری بخاطر ماهیت ذاتی مطالعات DIF که نیازمند نمونههایی با حجم بالا است، خطای نوع اول را بشدت افزایش میدهد.
در دهههای اخیر نیاز به یک روش جایگزین و یا مکمل آزمونهای آماری بشدت احساس شده است(فیدلر، 2002). علیرغم کاربردهای عملی آزمونهای آماری معناداری، انتقادات زیادی به این آزمونها وارد شده است.
هارلو (1997) در مقاله ای تحت عنوان"چه میشد اگر آزمونهای معناداری نبودند " هدف واقعی آزمونهای معناداری را بیان کرده است. هارلو خاطرنشان ساخته که باید از زمان پیدایش این آزمونها برای آنها مکملی نیز بوجود می آمده است:
"NHST یا همان فرض آزمایی معناداری قصد دارد تا روشی را برای قانونمند کردن شانس مهیا کند، بنابراین بیشتر سعی میکند تا فرضیه یا فرضیات خلاف را اثبات کند."
کیرک(1996) انتقادات وارده بر فرض آزمایی معناداری را برشمرده است وی بیان میکند آزمونهای معناداری آماری نشان نمیدهند که محقق بدنبال چیست. پژوهشگر می خواهد احتمال درستی فرض صفر در جامعه را بداند، اما در عوض آزمونها، معناداری فرض صفر را از طریق نمونه و با فرض درستی آن در جامعه ارائه میدهند. تامپسون و کیفر (2000) آزمونهای معناداری آماری را تکالیف کم مایه می دانند. آنها می گویند همیشه درجهای از تفاوت بین گروهها وجود دارد، با افزایش حجم نمونه میتوان به معناداری این تفاوت دست یافت. هر چه حجم نمونه بیشتر باشد احتمال معناداری تفاوت بیشتر است(کرامول، 2001). بنابراین پژوهشگران بدنبال راهی بودند تا بتوانند از طریق آن خطای نوع اول را کنترل کنند. اندازهی اثر یکی از این راهها بود.
“اندازه اثر”
“اندازه اثر” عنوانی است که به مجموعهای از شاخصها که بزرگی اثر آزمایش را می سنجد اطلاق میشود. برخلاف آزمونهای معناداری، این شاخص مستقل از حجم نمونه است. حوزهی وسیعی از فرمولهای محاسبه “اندازهی اثر” موجود است. به طورکلی”اندازهی اثر” به دو طریق به دست میآید:
الف) به عنوان تفاوت استاندارد شده بین دو میانگین و ب) به صورت همبستگی بین متغیر طبقه ای مستقل و نمرات او در متغیر وابسته. این همبستگی ها به عنوان "همبستگی اندازه اثر " نامیده میشوند (روزنو و روزنتال، 1996).
“اندازهی اثر” در آمار، مقداری است که رابطهی بین دو متغیر را بیان میکند. در آزمایشات علمی علاوه براین که ما باید از معناداری آماری باخبر باشیم؛ باید از اثرات مشاهده شده نیز مقداری کمی داشته باشیم. برای تصمیم گیری در موقعیت های عملی”اندازهی اثر”، شاخص بسیار مناسبی است(گریسوم و کیم، 2005). “اندازه اثر” همچنین در مطالعات فراتحلیلی گسترش یافته است که یافته های یک حوزهی خاص مطالعاتی را خلاصه میکند(گریسوم و کیم، 2005).
معنی و مفهوم “اندازهی اثر” در زبان عامیانه روزانه و در بین مردم استفاده میشود. در نظر بگیرید یک برنامهی لاغری مدعی است به طور میانگین حدود 30 پوند از وزن افراد را کاهش میدهد؛ در اینجا 30 پوند شاخصی است که “اندازهی اثر” نامیده میشود. یا معلمی که به طور خصوصی تدریس میکند مدعی است که میانگین نمرات فرد را 2 نمره افزایش میدهد، این افزایش نمره “اندازهی اثر” نامیده میشود. یک مثال عالی از “اندازهی اثر” در زیر ارائه میشود: اگر فردی هیچ آشنایی قبلی از انگلستان نداشته باشد، این فرد باید چند نفر انگلیسی ببیند تا متوجه شود که به طور متوسط قد مردان در این کشور بلندتر از قد زنان است. پاسخ به این سوال “اندازهی اثر” تفاوت میانگین قد بین مردان و زنان است. هرچه “اندازه اثر” بزرگ تر باشد، بیانگر قد بلندتر مردان است. اگر “اندازهی اثر” کوچک باشد، لازم است که قد بسیاری از زنان و مردان را داشته باشیم تا بتوانیم دریابیم که مردان بلندتر از زنان اند. در آمار استنباطی، “اندازهی اثر” تعیین میکند که آیا تفاوت معنادار آماری با تفاوتهای موقعیت های عملی مربوط است. “اندازهی اثر”، حجم نمونه، سطح بحران معناداری(ά) و توان فرض آزمایی آماری به هم مربوطاند و با تعیین یکی از آنها بقیه تا حدودی مشخص میشوند. در مطالعات فراتحلیل “اندازهی اثر” معمولا به عنوان مقداری در نظر گرفته میشود که برای مطالعات مختلف محاسبه میشود و سپس در تحلیل نهایی وارد میشود. ارائهی”اندازهی اثر” و فاصلهی اطمینان با هم، در مجلات زیست شناسی به شدت توصیه شده است. زیست شناسان به اهمیت “اندازهی اثر” پی بردند. استفادهی ترکیبی و همزمان “اندازهی اثر” در کنار فاصلهی اطمینان منجر به سنجش موثرتر رابطهی دادهها نسبت به زمانی میشود که تنها از فاصلهی اطمینان استفاده میشود(گریسوم و کیم، 2005).
انواع “اندازهی اثر”
همبستگی r پیرسون
همبستگی r پیرسون که توسط کارل پیرسون معرفی شد یکی از اندازه های اثری است که به طور گسترده مورد استفاده قرار میگیرد. این همبستگی زمانی استفاده میشود که دادهها پیوسته و یا دوتاییاند. بنابراین همبستگی r پیرسون یک “اندازهی اثر” همه کاره است. اولین “اندازهی اثر” گسترش یافته در آمار همبستگی r پیرسون است. بزرگی این همبستگی از 1- تا 1+ است؛ که 1- اشاره به یک رابطهی خطی کامل منفی و 1+ اشاره به یک رابطهی خطی کامل مثبت دارد و صفر بیانگر عدم وجود رابطهی خطی بین متغیرها است. کوهن(1990) برای علوم انسانی این ”اندازهی اثر” را به صورت زیر طبقهبندی کرد:
0/ “اندازهی اثر” کوچک، /3:”اندازهی اثر” متوسط، /5:”اندازهی اثر” بزرگ
یکی دیگر از اندازه هایی که قدرت رابطهی بین دو متغیر را نشان میدهد؛ ضریب تعیین(مجذورr) است.
اندازه های اثر مبتنی بر میانگینها
“اندازهی اثر” θ مبتنی بر میانگینها معمولا تفاوت میانگین استاندارد شده بین دو جامعه را مدنظر قرار میدهد.
1µ میانگین جامعهی اول، 2µ میانگین جامعهی دوم، σ انحراف استاندارد مربوط به جامعهی ثانوی و یا انحراف یا انحراف استاندارد مشترک دو گروه است.
در موقعیت های عملی ارزشهای جامعه ناشناختهاند و باید از طریق آمارههای نمونه برآورده شوند. “اندازهی اثر” بر مبنای میانگین، با توجه به آمارهی استفاده شده در آن به چند نوع تقسیم میشوند.
d کوهن
d کوهن به این صورت تعریف میشود: تفاوت بین دو میانگین تقسیم بر انحراف استاندارد دادهها
کوهن به جای σ، s قرار داده است ولی فرض میشود s با σ حدودا برابر است. دیگر متخصصان محاسبهی انحراف استاندارد را براساس انحراف استاندارد مشترک تعریف کردهاند.
هدگس و الکین d کوهن را برآوردکنندهی بیشینهی درستنمایی تعریف میکنند که با g هدگس ارتباط دارد.
∆ گلاس
در 1976 جین گلاس برآوردی را برای ”اندازهی اثر” ارائه داد که فقط از انحراف استاندارد گروه ثانوی استفاده می کرد.
گروه ثانوی ممکن است گروه کنترل باشد. جین گلاس بیان کرد زمانی که چند گروه آزمایشی با یک گروه کنترل مقایسه میشود؛ بهتر است تنها از انحراف استاندارد گروه کنترل استفاده شود. بنابراین “اندازهی اثر” گروههایی که میانگین برابر و واریانس های نا برابر دارند؛ یکی میشود. با فرض واریانسهای برابر برای جامعه، براورد مشترک برای σ دقیق تر است.
g هدگس
g هدگس توسط لاری هدگس در سال 1981 ارائه شد. این مقدار مانند سایر اندازه ها بر مبنای یک تفاوت استاندارد شده است.
با این تفاوت که انحراف استاندارد مشترک s قدری با d کوهن متفاوت است.
به عنوان یک برآورد از “اندازهی اثر” جامعه θ این مقدار دچار سوگیری است ولی میتوان از طریق عامل زیر آن را تصحیح کرد.
در کتاب سال 1985 هدگس و اولکین این g به عنوان d مطرح شد ولی با d کوهن متفاوت بود. تصحیح دقیق در برگیرندهی تابع گاما است:
F2 کوهن
F2 کوهن “اندازهی اثر” مناسبی برای کاربرد در زمینهی آزمون F(تحلیل واریانس) یا رگرسیون چندگانه است. “اندازهی اثر” F2 برای رگرسیون چندگانه به صورت زیر تعریف میشود:
R2 مجذور همبستگی چندگانه است
“اندازهی اثر” f2 برای رگرسیون چندگانهی سلسله مراتبی به صورت زیر تعریف میشود:
که در آن، واریانس محاسبه شده برای مجموعهای از متغیرهای مستقل A است و واریانس ترکیبی محاسبه شده برای مجموعه متغیرهای مستقل A و متغیرهای مستقل B است.
اندازه های اثر f2 02/0، 15/0 و 35/0 به ترتیب مقادیر کوچک، متوسط و بزرگاند(کوهن، 1990).
f2 کوهن برای تحلیل واریانس(آنووا) نیز به کار میرود.
در یک طرح متعادل آنووا که حجم نمونهها برابر است، پارامترf2 منطبق بر آن، برابر است با
-، - کرامر یا ∆ کرامر
بهترین اندازهی مربوط به آزمون خی دو، فی(فی کرامر یا V کرامر) است. فی با ضریب همبستگی دو رشتهای و d کوهن در ارتباط است و درجهی رابطهی بین دو متغیر(2×2) را نشان میدهد. فی کرامر میتواند با متغیرهایی که بیشتر از دو سطح دارند، نیز استفاده شود. فی از طریق تقسیم جذر خی دو بر حجم نمونه بدست میآید. به طور مشابه فی کرامر از طریق تقسیم جذر خی دو بر حجم نمونه و طول بعد کوچکتر (k مقدار سطح(r) یا ستون(c) کوچک تر میباشد) بدست میآید.
c- همبستگی درونی دو متغیر گسسته است و ممکن است از طریق ارزشهای r یاc برآورد شود. هر چه تفاوت بین rو cافزایش یابد، احتمال اینکه c- به یک نزدیک شود بیشتر است؛ بدون اینکه مقدار همبستگی واقعی تغییری کند. فی کرامر ممکن است همچنین برای نیکویی برازش مدل های خی دو به کار رود. در این شرایط فی کرامر به عنوان تابعی از اندازهی گرایش به نتایج واحد شمرده میشود.
نسبت شانس
یکی دیگر از شاخص های اندازه اثر مناسب، نسبت شانس است. این شاخص زمانی مناسب است که متغیرهای ما هر دو به صورت باینری یا دو حالتی هستند. به عنوان مثال به یک امتحان املاء دقت کنید. در گروه کنترل در برابر هر دو نفر که در آزمون موفق میشوند؛ یک نفر شکست می خورد. یعنی شانس 2 به 1 است(/2). در گروه آزمایشی در برابر هر 6 نفر که در آزمون موفق میشوند یک نفر شکست می خورد. یعنی شانس 6 به 1(/6) است. اندازه اثر میتواند از طریق محاسبهی شانس موفقیت گروه آزمایش نسبت به گروه کنترل بدست آید که این مقدار برابر 3 (/6) است. بنابراین نسبت شانس 3 میشود. مقیاس نسبت شانس با مقیاس d کوهن یکی نیست؛ بنابراین 3 بدست آمده در اینجا قابل مقایسه با 3 d کوهن نیست.
خطر نسبی
خطر نسبی که نسبت خطر نیز نامیده میشود؛ به عنوان خطر(احتمال) روی دادن یک اتفاق در کنار متغیرهای مستقل است. این اندازه اثر از آنجایی که به جای استفاده از شانس از احتمال استفاده میکند؛ با اندازهی اثرنسبت شانس متفاوت است. اگر مثال مطرح شده در نسبت شانس را در نظر بگیریم داریم: احتمال این که گروه کنترل در آزمون املاء موفق شود 3/2 یا 67 درصد است و احتمال موفقیت گروه آزمایش 7/6 یا 86 درصد است. بنابراین خطر نسبی برابر 28/1 است. در مییابیم که مقادیر به دست آمده از این دو روش متفاوت است. کاربردهای آماری این دو روش نیز متفاوت است. به عنوان مثال در پژوهشهای پزشکی، کاربرد نسبت شانس برای مطالعات کنترل موردی و مطالعات معطوف به اسبق مورد استفاده قرار میگیرد. در حالی که خطر نسبی در آزمایش های کنترل شدهی تصادفی و مطالعات پیرو استفاده میشود(گریسوم و کیم، 2005).
مقادیر اندازهی اثر
در زمینههایی که اندازهی اثراستفاده میشود به مقادیر کوچک، متوسط و بزرگ آن اشاره میشود. این مقادیر وابسته به زمینه و تعریف عملیاتی آن موقعیت است. مقادیر کوچک، متوسط و بزرگ کوهن(1990) تقریبا در همهی حوزه ها استفاده میشود. تحلیل توان و طرح ویژهی حجم نمونه نیازمند برآوردی از پارامتر اندازهی اثر میباشد. بسیاری از پژوهشگران استانداردهای کوهن را به عنوان پیشفرض در فرضیات خلاف می پذیرند.
راسل لنت () به آنها انتقاد کرده و بیان میکند:
"این روش که در گذشته در مطالعات علوم اجتماعی بکار می رفته با اندازهی اثر کوچک، متوسط و بزرگ به حجم نمونه یکسان منتهی میشود. در این روش یک اندازهی اثر استاندارد شده به عنوان هدف در نظر گرفته میشود. به عنوان مثال برای اندازهی اثر"متوسط" بدون توجه به درستی پایایی ابزار، کوچکی یا تنوع آزمودنیها، حجم نمونه انتخاب میشود. در اینجا عوامل مهمی فراموش میشوند. بنابراین متوسط بودن اندازهی اثر چیزی را تعیین نمیکند."
برای d کوهن اندازهی اثر 2/0 تا 3/0 کوچک در نظر گرفته میشود، اندازهای در حدود 5/0 متوسط است و اندازهی اثر 8/0 تا بی نهایت بزرگ تلقی میشود. کوهن(1988) انتقاد لنت را پیشبینی کرده بود:
Mj میانگین جامعهی j ام از بین k گروه است و δ انحراف استاندارد برابر درون هر گروه است. ss مجموع مجذورات در آنووا است.
- لینک منبع
تاریخ: چهارشنبه , 22 آذر 1402 (21:19)
- گزارش تخلف مطلب