مديريت آمار و فناوری اطلاعات و امنیت فضای مجازی

تجزیه خوشه ای

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

تجزیه خوشه ای :

تجزیه خوشه ای یک روش ریاضی است که برای پیدا کردن شباهت بین مواد در یک مجموعه بکار می‌رود. هدف بسیاری از فعالیت‌های تحقیقاتی پی بردن به این است که کدام‌یک از مواد موجود در یک مجموعه مشابه و یا متفاوت هستند. بدین منظور بهترین روش استفاده از طبقه‌بندی است.

به‌طور مثال یک روان‌شناس می‌خواهد بر اساس آزمایش‌های روان‌شناسی بیماری‌های روانی را به‌منظور معالجه آن‌ها دسته‌بندی نماید. درواقع می‌توان گفت تجزیه خوشه  ای اصولی‌ترین روش برای برآورد شباهت بین افراد در یک مجموعه است.

در تجزیه خوشه ای معمولاً p صفت بر روی n ماده اندازه‌گیری می‌شود و بعد یک ماتریس n*p از داده‌های خام تشکیل می‌شود. سپس ماتریس داده‌های خام به ماتریس شباهت‌ها یا فاصله‌ها تبدیل‌شده و با استفاده از یکی از تکنیک‌های طبقه‌بندی مواد را بر اساس شباهت‌های بین آن‌ها گروه‌بندی می‌کنند. هدف از تشکیل دسته‌ها (خوشه ها) آن است که در هر خوشه موادی را قرار دهیم که دارای واریانس یا تنوع کمتری نسبت به واریانس و تنوع موجود بین دسته‌ها باشند. درنهایت دسته‌ها را با استفاده از مقادیر میانگین متغیرها و با استفاده از نمودار در مقابل هم قرار می‌دهیم. هنگام‌استفاده از روش تجزیه خوشه ای دوسوال اصلی وجود دارد. اول آنکه چگونه شباهت بین مواد را اندازه‌گیری کنیم و دوم انتخاب یک روش مناسب برای تشکیل دسته‌ها بر مبنای شباهت‌ها است.

هدف از تجزیه خوشه ای اولاً پیداکرده دسته‌های واقعی افراد و ثانیاً کاهش بعد داده‌ها است. به‌عبارت‌دیگر هدف شناسایی تعداد کمتری از گروه‌هاست بطوریکه افرادی که دارای شباهت بیشتری با یکدیگر هستند در یک گروه قرار گیرند.

پس اگر n ماده داشته باشیم هدف از تجزیه خوشه ای آن است که g گروه تشکیل دهیم طوری که تعداد آن‌ها کمتر از n باشد. در تجزیه خوشه ای گروه‌ها از قبل معلوم نیستند و با استفاده از روش‌های ریاضی داده‌ها را گروه‌بندی نموده و بعد مشخص می‌کنیم که آیا می‌توان یک گروه را به زیرگروه‌های دیگری که دارای تفاوت معنادار هستند تقسیم کرد یا خیر.

مهم‌ترین و پایه‌ای‌ترین ابزار اندازه‌گیری در خوشه بندی، اندازه‌گیری عدم شباهت یا نزدیکی یک مشاهده با مشاهدات دیگر است. مفاهیم فاصله و مشابهت از مفاهیم اساسی و مشترک در بسیاری از فن‌های آماری است. فاصله اندازه‌ای است که نشان می‌دهند دو چیز تا چه حد جدا از یکدیگرند، درحالی‌که مشابهت شاخص نزدیکی آن‌ها با یکدیگر است. این مفاهیم در تحلیل خوشه ای دارای اهمیت ویژه‌ای هستند و پژوهشگر قبل از اجرای تحلیل، نخست باید یک مقیاس کمی را که بر پایه آن همخوانی (مشابهت) بین مشاهدات اندازه گرفته می‌شود را انتخاب نماید، زیرا گروه‌بندی مشاهدات اصولاً بر پایه شباهت‌ها یا فاصله‌ها (عدم مشابهت‌ها) انجام می‌شود و ورودی اطلاعات روش‌های خوشه بندی برای ساختن خوشه ها می‌باشند. برای تابع اندازه‌های فاصله و مشابهت تعاریف گوناگونی وجود دارد و انتخاب آن‌ها به ویژگی‌های آن تابع اندازه و الگوریتم کلاس‌بندی بستگی دارد. با توجه به استناد تمامی مطالب ساخت یک خوشه به مفهومی مانند شباهت ، پاسخ به این سؤال که شباهت به چه معناست و چگونه تعریف می‌شود کاملاً ضروری می‌باشد. این‌که چگونه نزدیکی یا دوری دو مشاهده از یکدیگر تعریف‌شده و نحوه اندازه‌گیری آن‌ها چگونه می‌باشد.

منبع :کتاب اصول و روش های آماری چند متغیره مولف :دکتر عزت اله فرشاد فر 

منوی نمایش در موبایل