آموزش آمار: آموزش SPSS و آموزش SAS و آموزش STATA و آموزش نرم افزار R


مدلسازی Hierarchical log-linear analysis برای تحلیل داده های طبقه ای در نرم افزار SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

یکی از موانعی که در توسعه تحقیقات پرسشنامه ای وجود دارد، ترتیبی و کیفی بودن غالب طیف های مورد استفاده در آن است. از اینرو به اعتقاد غالب آمار دانان اطلاعات پرسشنامه ای از آنجا که عموما در قالب طیف هایی چون لیکرت به دست می آید، بهتر است که با روش های کیفی و طبقه ای مورد تحلیل قرار گرفته و تا حد ممکن از روش های کمی کمتر و با احتیاط استفاده شود. یکی از روش های بسیار مطرح برای تحلیل این دسته از داده ها روش HILOG یا تحلیل سلسله مراتبی مدل لگاریتم خطی است. General Loglinear Modeling، Logit Regression ، Tobit و Poisson regression نیز در این ارتباط مورد توجه هستند.
این روش را می توان تحلیل جداول توافقی چند طرفه دانست. برای برازش مجموعه ای از مدل های ممکنه لگاریتمی خطی سلسله مراتبی بر روی جداول توافقی مذکور با استفاده از الگوریتم برازش توزیع آماری به واسطه از سر گیری های متعدد، این روش داده پردازی طبقه ای کاربرد فراوانی دارد. این مدل ها در واقع روابط بین متغیر های طبقه ای را مشخص می کنند. در این روش هر دو نوع ورود متغیر؛ پسرونده و پیشرونده در مدل مورد توجه هستند. به طور کلی تحلیل های لگاریتمی خطی که دارای انواع مختلفی هستند، برای شناسایی مدل هایی که به شناسایی روابط بین متغیر های ترتیبی یا کیفی می پردازند استفاده می شود. این کار از طریق شمارش سلول های جداول توافقی چند راهه و بر روی متغیر های مورد مطالعه انجام می شود. به عنوان مثال در یک تحقیق، محقق علاقه مند است تا بداند بعد از تبلیغات محیطی در یک نمایشگاه، در تمایل مصرف کنندگان به استفاده از پودر شوینده شرکت و همچنین محصولات شرکت رقیب، متغیر های طبقه ای چون سختی آب(ملایم، متوسط و سخت)، تجربه قبلی استفاده از این دو نوع محصول و دمای آب(سرد و گرم) و همچنین تمایل به برند چه نقشی دارند؟
در این آموزش سعی می شود تا با ارائه این مثال واقعی، ابعاد این تکنیک آماری تشریح شوند. برای این منظور نرم افزار های SPSS و SAS بیشتر از سایر نرم افزار های داده پردازی مورد توجه هستند که در این آموزش از SPSS استفاده شده است.
به عنوان مثال در نظر بگیرید یک شرکت ارائه اشتراکات مجلات مختلف، با ارسال ماهیانه ایمیل به آدرس الکترونیکی افراد موجود در دیتا بیس خریداری شده، اشتراک های موجود را اطلاع رسانی می کند. ولی نرخ پاسخ و ثبت بسیار کم است. از آنجا که این کار برای شرکت هزینه زیادی را به دنبال داشته است، این شرکت به دنبال این است تا مطالعه کند اگر ایمیل را فقط برای کسانیکه ثبت اشتراک روزنامه را داشته اند و احتمال ثبت اشتراک مجله برای این گروه نیز بیشتر است ارسال کند، می تواند پاسخ هایی بهتری را دریافت کند. یا وضعیت درآمدی پاسخ دهندگان کنونی چگونه است؟ در صورتیکه این دو متغیر که به عنوان دو راه حل مطرح هستند در پیش بینی وضعیت میزان ثبت اشتراکات مشخص شود، آنگاه شرکت می تواند با اطمینان نسبت به تغییر دیتابیس خود عمل نماید. لذا در این مثال طبقات درآمدی، وضعیت اشتراک روزنامه و وضعیت ثبت اشتراک مجله را در بین 6400 نفر از افراد دیتا بیس موجود مورد توجه قرار دادند.
داده ها به این شکل وارد نرم افزار می شوند:



از منوی آنالیز مدل لگاریتمی را مانند تصویر زیرین انتخاب می نمائیم.


در این مرحله هر سه متغیر موجود یعنی، طبقات درآمدی، وضعیت اشتراک روزنامه و وضعیت ثبت اشتراک مجلات را وارد کادر Factor وارد کرده و سپس متغیر درآمد را انتخاب نمود و کلید Define Range را انتخاب می کنیم تا طبقات این متغیر را برای نرم افزار معرفی کنیم.


برای متغیر میزان درآمد چهار سطح را در نظر گرفته ایم لذا خواهیم داشت:


برای متغیر وضعیت ثبت اشتراک روزنامه نیز، آنرا انتخاب و کلید Define Range را انتخاب و دو مقدار صفر و یک را تعریف می کنیم زیرا این متغیر دارای دو سطح بلی و خیر است.



برای متغیر وضعیت ثبت اشتراک مجلات نیز، آنرا انتخاب و کلید Define Range را انتخاب و دو مقدار صفر و یک را تعریف می کنیم زیرا این متغیر نیز دارای دو سطح بلی و خیر است. سپس کلید OK را انتخاب کنید تا مدل Run شود.
برای انجام مراحل بالا در قالب دستورات کد نویسی نرم افزار کافی است کد زیر را در ادیتور وارد کنید:


HILOGLINEAR
inccat(1 4) news(0 1) response(0 1) /METHOD=BACKWARD
/CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5)
/PRINT=FREQ RESID
/DESIGN .

بخش اول خروجی به نحوه بهینه سازی و اشباع مدل اشاره دارد. به قسمت Backward Elimination Statistics خروجی توجه کنید. در این قسمت برای مدسازی ترکیب های لگاریتمی وجود دارند.


Step Summary
Stepa Effects Chi-Squarec df Sig. Number of Iterations
0 Generating Classb inccat*news*response .000 0 .
Deleted Effect 1 inccat*news*response 3.998 3 .262 4
1 Generating Classb inccat*news, inccat*response, news*response 3.998 3 .262
Deleted Effect 1 inccat*news 224.770 3 .000 2
2 inccat*response 77.562 3 .000 2
3 news*response 67.928 1 .000 2
2 Generating Classb inccat*news, inccat*response, news*response 3.998 3 .262
a. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted, provided the significance level is larger than .050.
b. Statistics are displayed for the best model at each step after step 0.
c. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model.

در Step 0 تعامل این سه متغیر مورد آزمون قرا گرفته است. به منظور آزمون این تعامل سه عاملی، این تعامل از مدل کنار گذاشته شده است. با استفاده از آماره کای اسکویر معنی داری این حذف باید مورد آنالیز قرار گیرد. از آنجا که این حذف دارای سطح معنی داری بالاتر از 1/0 در این مرحله است، باید از مدل کنار گذاشته شود. به عبارت دیگر این مدل نمی تواند بیانگر خصوصیات رفتاری داده های مشاهده شده باشد.
لذا در Step 1 تعاملات دو به دو مورد توجه قرار گرفتند. وجود سطح معنی دار کمتر از 05/0 برای هر حذف در این مرحله بیانگر اهمیت ان تعامل است در غیر این صورت آن تعامل نیز حذف می شود. از آنجا که در این مرحله، برای هر سه تعامل دو به دو سطح معنی داری کمتر از 05/0 محاسبه شده است، لذا نیازی به بررسی سایر ترکیب ها نیست و مدل نهایی انتخابی بیانگر تعامل دو به دوی متغیرهای مورد مطالعه است. لذا میزان ثبت اشتراک روزنامه با میزان درآمد، میزان ثبت اشتراک مجلات با میزان درآمد، و میزان ثبت اشتراک روزنامه با میزان ثبت مجلات در ارتباط دو به دو هستند. لذا این شرکت باید نسبت به ارتقای دیبا بیس خود بر اساس دو متغیر کسانی که در سال گذشته ثبت روزنامه داشته اند و در طیف های درآمدی مختلف هستند اقدام نماید.


عدم معنی داری آماره های برازش به معنای پذیرش فرض صفر مبنی بر برازش داده ها دارد و این موضوع اعتبار مدل را تصدیق می کند. اگر این سطح معنی دار باشد به معنای بیان ضعیف روابط موجود در بین داده ها بوده و اعتبار مدل پیشنهادی ضعیف است. برای اطلاع از وضعیت توزیع این دو آماره می توانید به بخش مقادیر محاسبه شده و مورد انتظار در جدول Cell Counts and Residuals نگاه کنید که در واقع نزدیکی این پیش بینی به معنای قدرت خطی لگاریتمی در بیان روابط موجود و بر اساس آماره کای اسکویر است.
در این آموزش سعی بر مطرح نمودن روش پیاده سازی لگاریتمی سلسله مراتبی در نرم افزار SPSS بود. برای مطالعه بیشتر در زمینه مفاهیم نظری این تکنیک آماری منبع Agresti, A. 2002. Categorical Data Analysis, 2nd ed. New York: John Wiley and Sons. پیشنهاد می شود.



کلمات کليدي:


بازديد:
آموزش spss

نام و نام خانوادگي:

ايميل:
وبسايت:
شماره امنيتي:
پيام شما:


13/2/1391 - ساعت -443/1/-609 سپیده آبتین | ايميل
سلام عالی بود ولی ای کاش می شد کپی داخل ورد کرد