تجزیه خوشه ای :
تجزیه خوشه ای یک روش ریاضی است که برای پیدا کردن شباهت بین مواد در یک مجموعه بکار میرود. هدف بسیاری از فعالیتهای تحقیقاتی پی بردن به این است که کدامیک از مواد موجود در یک مجموعه مشابه و یا متفاوت هستند. بدین منظور بهترین روش استفاده از طبقهبندی است.
بهطور مثال یک روانشناس میخواهد بر اساس آزمایشهای روانشناسی بیماریهای روانی را بهمنظور معالجه آنها دستهبندی نماید. درواقع میتوان گفت تجزیه خوشه ای اصولیترین روش برای برآورد شباهت بین افراد در یک مجموعه است.
در تجزیه خوشه ای معمولاً p صفت بر روی n ماده اندازهگیری میشود و بعد یک ماتریس n*p از دادههای خام تشکیل میشود. سپس ماتریس دادههای خام به ماتریس شباهتها یا فاصلهها تبدیلشده و با استفاده از یکی از تکنیکهای طبقهبندی مواد را بر اساس شباهتهای بین آنها گروهبندی میکنند. هدف از تشکیل دستهها (خوشه ها) آن است که در هر خوشه موادی را قرار دهیم که دارای واریانس یا تنوع کمتری نسبت به واریانس و تنوع موجود بین دستهها باشند. درنهایت دستهها را با استفاده از مقادیر میانگین متغیرها و با استفاده از نمودار در مقابل هم قرار میدهیم. هنگاماستفاده از روش تجزیه خوشه ای دوسوال اصلی وجود دارد. اول آنکه چگونه شباهت بین مواد را اندازهگیری کنیم و دوم انتخاب یک روش مناسب برای تشکیل دستهها بر مبنای شباهتها است.
هدف از تجزیه خوشه ای اولاً پیداکرده دستههای واقعی افراد و ثانیاً کاهش بعد دادهها است. بهعبارتدیگر هدف شناسایی تعداد کمتری از گروههاست بطوریکه افرادی که دارای شباهت بیشتری با یکدیگر هستند در یک گروه قرار گیرند.
پس اگر n ماده داشته باشیم هدف از تجزیه خوشه ای آن است که g گروه تشکیل دهیم طوری که تعداد آنها کمتر از n باشد. در تجزیه خوشه ای گروهها از قبل معلوم نیستند و با استفاده از روشهای ریاضی دادهها را گروهبندی نموده و بعد مشخص میکنیم که آیا میتوان یک گروه را به زیرگروههای دیگری که دارای تفاوت معنادار هستند تقسیم کرد یا خیر.
مهمترین و پایهایترین ابزار اندازهگیری در خوشه بندی، اندازهگیری عدم شباهت یا نزدیکی یک مشاهده با مشاهدات دیگر است. مفاهیم فاصله و مشابهت از مفاهیم اساسی و مشترک در بسیاری از فنهای آماری است. فاصله اندازهای است که نشان میدهند دو چیز تا چه حد جدا از یکدیگرند، درحالیکه مشابهت شاخص نزدیکی آنها با یکدیگر است. این مفاهیم در تحلیل خوشه ای دارای اهمیت ویژهای هستند و پژوهشگر قبل از اجرای تحلیل، نخست باید یک مقیاس کمی را که بر پایه آن همخوانی (مشابهت) بین مشاهدات اندازه گرفته میشود را انتخاب نماید، زیرا گروهبندی مشاهدات اصولاً بر پایه شباهتها یا فاصلهها (عدم مشابهتها) انجام میشود و ورودی اطلاعات روشهای خوشه بندی برای ساختن خوشه ها میباشند. برای تابع اندازههای فاصله و مشابهت تعاریف گوناگونی وجود دارد و انتخاب آنها به ویژگیهای آن تابع اندازه و الگوریتم کلاسبندی بستگی دارد. با توجه به استناد تمامی مطالب ساخت یک خوشه به مفهومی مانند شباهت ، پاسخ به این سؤال که شباهت به چه معناست و چگونه تعریف میشود کاملاً ضروری میباشد. اینکه چگونه نزدیکی یا دوری دو مشاهده از یکدیگر تعریفشده و نحوه اندازهگیری آنها چگونه میباشد.
منبع :کتاب اصول و روش های آماری چند متغیره مولف :دکتر عزت اله فرشاد فر

