نام پروژه: (کد پروژه ۱۰۴۲) مقاله پیاده سازی شده  روش خوشه بندی نیمه نظارتی kmeans برای اسناد

کلمات کلیدی:

Fuzzy clustering ;Semi-supervised learning; Text mining;Fuzzy semi-Kmeans

نام مقاله:

Clustering documents with labeled and unlabeled documents using fuzzy semi-K Means

سال انتشار :

۲۰۱۳

محیط پیاده سازی : متلب

خلاصه:

اخیرا کلاسترینگ اسناد توجه زیادی را به خود جلب کرده است. کلاسترینگ با گرفتن ساختار طبیعی داده می تواند برای گروه بندی اتوماتیک اسناد به لیستی از گروه های معنادار استفاده شود و همچنین شایع ترین روش برای تحلیل داده های پردازشی است. در مقایسه با یادگیری نظارتی(supervised)، کلاسترینگ یک روش یادگیری بدون نظارت است و بنابراین در طی انجام فرآیند کلاسترینگ و رسیدن به هدف تخصیص اشیا(objects) به گروه ها، به داده های برچسب دار(labeled) نیازی ندارد و به همین دلیل، اشیای یک کلاستر یکسان نسبت به اشیای یک کلاستر دیگر به هم شبیه ترند. الگوریتم های کلاسترینگ را می توان به طور کلی به دو دسته ی تبعیضی(discriminative) و تولیدی(generative) تقسیم می شوند. الگوریتم های تبعیضی بین هر جفت سند شباهت ها را تعیین می کنند تا یک تابع شی گرا بدست آورند و این تابع را بهینه می کنند تا به نتیجه کلاسترینگ برسند. KMeans یک الگوریتم تبعیضی ساده است که هدفش کمینه سازی فاصله مربع متوسط میان اشیا و مراکز کلاستر است. تخصیص های hard می توانند برای اشیایی که در مرزهای میان مراکز کلاستر قرار می گیرند مشکلاتی ایجاد کنند. کلاسترینگ Fuzzy CMeans(FCM) که یک نسخه ساده از KMeans است، که اجازه می دهد یک شی به بیش از یک کلاستر تخصیص یابد. و هر عضو دارای یک درجه عضویت فازی است و این درجه میزان عضویت در هر کلاستر را تعیین می کند. از طرف دیگر الگوریتم های تولیدی فرض می کنند که داده با صفات پارامتری زیرخط دار مدل شده است و هدفشان تخمین پارامترهایی از داده های مشاهده شده است. سپس مراکز کلاستر را می توانند از مدل ها و پارامترهایشان بدست آورند. روش های مختلفی برای حل مساله تجزیه ترکیبات ارائه شده اند و بیشتر آن ها روی متدهای بیشترین احتمال تشابه (maximum likelihood) کار می کنند. مثل expectation maximization (EM) یا maximum a posteriori (MAP) estimation. هرچند در روش های یادگیری غیرمشاوره ای(unsupervised) برای کلاسترینگ اسناد به داده های برچسب دار نیازی نیست ورودی مناسب کلاسترینگ را به سمت نواحی خوب برای جستجو می برد. در این میان بسیار عادی است که آزمایش کننده ی الگوریتم مقداری دانش قبلی نیز داشته باشد که برای کلاسترینگ داده مفید است. اساسا دانش قبلی را می توان به صورت اعمال محدودیت ها (قیود یا constraints) در کد پیاده سازی کرد و این قیود زمانی ارضا می شوند که پروسه کلاسترینگ کامل شود.(از ابتدا تا انتهای الگوریتم قیود برقرارند). به بیان دیگر، مشکل بهینه سازی کلاسترینگ نیمه مشاوره ای را می توان به صورت بهینه سازی مساله محدودیت ها و قیود بیان کرد. به طور کلی برای پیشرفت در پروسه یادگیری ماشین اشیا باید به کلکسیونی از ویژگی های برداری تبدیل شوند. برای مثال یک برنامه تشخیص ایمیل های اسپم باید هر ایمیل را به یک بردار وضعیت term تبدیل کند و ویژگی های ایمیل را بیان کند و سپس یک طبقه بند(classifier) می تواند هر ایمیل را بنا به ویژگی هایش به دسته اسپم یا غیراسپم تبدیل کند. این کار از فضای برداری و مدل bag of words برای ارائه اسناد استفاده می کند. یک متن به صورت کلکسیونی از کلمات مرتب نشده ارائه می شود(بدون در نظر گرفتن گرامر و ترتیب کلمات در جمله). واضح است که هر سند در یک فضای چند بعد قرار دارد. یک متد، ساده سازی مساله برای به کارگیری کاهش ابعاد است. این کار ملزم به کارگیری مدل کلاسترینگ تحلیلی قواعد احتمالی نهفته(latent) PLSA برای کاهش ابعاد است. PLSA با LSA (Latent Semantic Analysis) ایجاد می شود و از آن تاثیر می گیرد و به سمت تحلیل چگونگی ظاهر شدن کلمات در مجموعه ای از نوشتجات می رود تا تاپیک های پنهان در این مجموعه را بیابد. PLSA یک مدل تولیدی است و بر اساس تجزیه ترکیب های مشتق شده از یک مدل نهفته کار می کند. پروسه کاهش هر کدام از ستون ها را از بردار وضعیت به بردار تاپیک تبدیل می کند و سپس Fuzzy semi-KMeans کلاسترینگ نیمه مشاوره ای را در فضای تاپیک اجرا می کند. Fuzzy semi-KMeans از نمونه های برچسب خورده اولیه برای ورودی استفاده می کند. این ورودی ها برای مقداردهی اولیه مراکز و بدون تفییر نگه داشتن داده های برچسب خورده در طول پروسه کلاسترینگ مورد استفاده قرار می گیرند. Fuzzy semi-KMeans می تواند توابع عضویت فازی مختلفی را مورد استفاده قرار دهد تا فاصله میان هر سند و مراکز کلاستر را اندازه گیری کند اما در این کار از تابع وزنی گاوسی استفاده می کند تا کلاس عضویت هر سند را تعیین کند. اما تابع مشابهت های کسینوسی هم می تواند به خوبی عمل کند. نتایج آزمایشات عملی نشان می دهند که Fuzzy semi-KMeans پایدار است حتی اگر تنها حجم کمی از داده ها در دسترس باشند. در این میان Fuzzy semi-KMeans از دیگر مدل های نیمه مشاوره ای بهتر عمل می کند. در بسیاری برنامه های کاربردی دانش قبلی وجود دارد و با استفاده از آن می توان یادگیری را سریع تر و موثرتر کرد. هرچند یادگیری غیرمشاوره ای(مستقل از کاربر) نیازی به داده های برچسب دار ندارد اما نتایج نشان می دهند که حتی حجم کمی از داده های برچسب دار هم می تواند به طور موثری بازده و کارایی را افزایش دهد. در این کار از مدل کلاسترینگ PLSA استفاده شده است و این آزمایش روی ۳ دیتاست اجرا شده است که Fuzzy semi-KMeans با الگوریتم های دیگر مقایسه کرده است. نتایج نشان می دهد که Fuzzy semi-KMeans زمانی که تنها مقدار کمی هم داده برچسب دار وجود داشته باشد خیلی بهتر کار می کند. ادامه این مقاله به صورت زیر پیاده شده است:

پیاده سازی+ گزارش کار (می توانید قبل از خرید یک ایمیل به ما بزنید و از جزییات پروژه در صورت نیاز با خبر بشوید.)

  • در ضمن مقاله ترجمه فارسی دارد

هزینه : ۱۵۰ هزار تومان

برای خرید پروژه ، مبلغ فوق را از طریق پرداخت آنلاین واریز کنید و با شماره تماس یا ایمیل بالای سایت تماس بگیرید تا پروژه برای شما ارسال گردد.