ای بر داده کاوی
داده کاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه داده های موجود میباشد[38]. داده کاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با بهره گرفتن از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین داده های فعلی و پیش بینی موارد نامعلوم و یا مشاهده نشده عمل می کند. برای انجام عملیات داده کاوی لازم است قبلا روی داده های موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی داده ها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از داده های اولیه، که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی داده ها می رسد. داده های موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از داده ها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرایندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روش های داده کاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقه بندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
1-1-1- خوشهبندی
فرایند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه داده های قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با داده های خوشه های دیگر متفاوت باشند. در حال حاضر روش های متعددی برای خوشهبندی داده ها وجود دارد که بر اساس نوع داده ها، شکل خوشه ها، فاصله داده ها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روش های خوشهبندی در زیر معرفی شده اند:
روش های تقسیم بندی : روش های خوشهبندی که بروش تقسیم بندی عمل می کنند، داده های موجود در یک مجموعه داده را به k خوشه تقسیم می کنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :
- هر خوشه یا گروه حداقل شامل یک داده میباشد.
- هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه داده هایی میزان شباهت داده های قرار گرفته در هر خوشه میباشد. در حالیکه داده های قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم می تواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
- روش های سلسله مراتبی : روش های سلسله مراتبی به دو دسته کلی روش های bottom-up و روش های top-down تقسیم میگردند. روش های سلسله مراتبی bottom-up به این صورت عمل می کنند که در شروع هر کدام از داده ها را در یک خوشه جداگانه قرار میدهد و در طول اجرا سعی می کند تا خوشه هایی نزدیک به یکدیگر را با هم ادغام نماید. این عمل ادغام تا زمانی که یا تنها یک خوشه داشته باشیم و یا اینکه شرط خاتمه برقرار گردد، ادامه مییابد. روش های top-down دقیقا بطریقه عکس عمل می کنند، به این طریق که ابتدا تمام داده ها را در یک خوشه قرار میدهد و در هر تکرار از الگوریتم، هر خوشه به خوشه های کوچکتر شکسته می شود و اینکار تا زمانی ادامه مییابد که یا هر کدام از خوشه ها تنها شامل یک داده باشند و یا شرط خاتمه الگوریتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر یا خوشه میباشد.
- روش های مبتنی بر چگالی : اکثر روش های خوشهبندی که بروش تقسیم بندی عمل می کنند معمولا از تابع فاصله بعنوان تابع معیار خود بهره میبرند. استفاده از چنین معیاری باعث میگردد که الگوریتم خوشهبندی تنها قادر به ایجاد خوشه هایی با اشکال منظم باشد. در صورتیکه اگر خوشه های واقعی در داده ها دارای اشکال غیرمنظمی باشند، این الگوریتمها در خوشهبندی آنها با مشکل مواجه میگردند. برای حل اینگونه مشکلات یکسری از روشها برای خوشهبندی پیشنهاد گردیدهاند که عمل خوشهبندی را بر مبنای چگالی داده ها انجام میدهند. ایده اصلی در این روشها بر این اساس است که خوشه ها تا زمانی که داده های قرار گرفته همسایگی خوشه ها از حد معینی بیشتر باشد، رشد می کنند و بزرگ میشوند. چنین روش هایی قادرند خوشه هایی با شکلهای نامنظم نیز ایجاد نمایند.
البته دسته دیگری از روش های خوشهبندی مانند روش های مبتنی بر گرید، روش های مبتنی بر مدل و … وجود دارند که میتوانید آنها را در ]38[ مطالعه نمایید.
1-1-2- کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری یا المانهایی در یک مجموعه داده می پردازد که معمولا با یکدیگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده بدست میآید، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی میتوانید به ]38[ مراجعه نمایید.
1-1-3- طبقه بندی
فرایند طبقه بندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعه ای از داده ها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده هایی است که این مدل از روی آنها ایجاد شده است. مرحله دوم فرایند طبقه بندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی داده هایی است که شامل تمام خصوصیات داده هایی که برای ایجاد مدل داده بکار گرفته شده اند، میباشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقه بندی نیز تخمین مقدار این خصوصیت میباشد.
الگوریتمها و روش های مختلفی برای طبقه بندی تاکنون پیشنهاد شده اند که برای مثال میتوان از روش های طبقه بندی با بهره گرفتن از درخت تصمیم، طبقه بندی بیزین، SVM ، طبقه بندی با بهره گرفتن از شبکه های عصبی، طبقه بندی مبتنی بر قواعد و … ]56[ نام برد. در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتمها و روش های طبقه بندی شویم و تنها روش طبقه بندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر میتوانید به فصل ششم مرجع ]38[ مراجعه نمایید.
(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)
فرم در حال بارگذاری ...