X
تبلیغات
بانک اطلاعاتی آمار،بیمه،اقتصاد - داده کاوی و نرم افزارهای مربوط به آن

بانک اطلاعاتی آمار،بیمه،اقتصاد

کاربرد علم آمار در داده کاوی


مقدمه و مقا یسه آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه  DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3] تهیه کننده : مهرداد حمیدی     کاربرد آمار دا داده کاوی مقدمه و مقا یسه آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه  DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3] همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم. تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسايل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3]  در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5]. در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود. به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1] بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود. روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.[7]،[8] در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید. روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است. مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند. تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اريه شده است:                   ِِدیگر روشهای Data mining   روشهای آماری     بدون فرض اولیه   داشتن فرض اولیه   در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی تنها برای داده های  عددی کاربرد دارند در محدوده وسیع تری از داده ها در محدوده کوچکی از داده ها Data mining به دادهای درست clean data بستگي دارند حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data استفاده از شبكه عصبي روشهای رگرسیون و استفاده از معادلات استفاده ازData visulization استفاده از چارتهای دو بعدی و سه بعدی استفاده از روشهای یادگیری ماشین و هوش مصنوعی استفاده از روابط ریاضی در یادگیری غیر نظارتی کاربرد بیشتر دارد در  descriptive statisticalوcluster   analysis  کاربرد دارد.   همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.  تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد. با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM  می پردازیم .           كاربردهاي روشهاي آماري: Data  mining   معمولا  وظايف يا به  عبارت بهتر استراتژهاي  زير را  در  داده ها بكار  مي برد:   - توضيح و تفسير (description) - تخمينestimation)  ) - پيش بينيprediction)  ) - كلاس بنديclassification) ) - خوشه سازي  (clustering)  - وابسته سازي وايجاد رابطه (association) در جدول زير  استراتژي ها  و روشهاي هر استراتژي مشخص شده است: روشها استراتژيها   تحليل  داده ها توضيح  وتفسير تحليل هاي آماري تخمين تحليل هاي آماري پيش بيني الگوريتم نزديك ترين همسايه كلاس بندي درخت  تصميم كلاس بندي شبكه هاي عصبي كلاس بندي خوشه سازي  k-mean خوشه سازي شبكه هاي kohonen خوشه سازي وابسته سازي  و ايجاد رابطه رابطه سازي     البته بايد  گفت كه روشهاي data mining  تنها  به يك استراتژي خاص محدود  نمي شوندو  نتايج  يك را همپوشاني بين روشها نشان  مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته   شود‏‎ بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig  آشنايي پيدا كرديم در نظر گرفته مي شود. همانگونه كه ازجدول پيداست روشهاي آماري  در مباحث تخمين وپيش بيني كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك  جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح اين  دواستراتژي مي پردازيم.   1- تخمين: در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی [1] .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.    تكنيكهاي نظارتيDM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند. روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و...از اين جمله  مي باشند. در توضيح  اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد‏ يا به  عبارتي warehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند. در خيلي از موارد تعيين  ميانگين   مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك  شعبه خاص از بانك واريز مي كنند وموارد  اينچنيني. زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان  توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند. در تخمین نیازمند داشتن اندازه نمونه هستیم،در تعیین اندازه نمونه می توان از رابطه زیر استفاده کرد: که p احتمال رخدادو e درصد خطای پذیرفته شده است که در اینجا 5% در نظر می گیریم. پر کاربرد ترین تخمین زننده ،تخمین زننده میانگین جامعه است،ساده ترين رابطه اي كه براي ميانگين  داده ها مي توان نوشت بدين صورت است: كه n  تعداد نمونه ها و  مقدارهر نمونه است.در اينجا تمام  نمونه ها ارزش يكساني دارند ولي گاهي اوقات نياز است كه نمونه ها بر اساس اهميتي كه دارند وزن دهي شوند.  بدين صورت : كه ها در اينجا وؤن هر نمونه i ام هستند. در این حالت برای تعیین   مجموع اوزان نمونه ها به جایn ، می باشد.        در مواردي نيز تخمين فاصله براي ما اهميت دارد.فاصله   اطمينان شامل فاصله اي است كه  با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك  پارامتر درون اين اين فاصله قرار مي گيرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را  با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم. یک براورد فاصله ای ،فاصله ای به شکل      است که درآن   و   مقادیر متغییرهای تصادفی مناسبی برای  هستند،منظور از مناسب آن است که به ازای احتمال مشخصی مانند داریم:   برای مقدار مشخص  ، را  یک فاصله اطمینان  برای   می نامیم. همچنین ، درجه اطمینان ،و دو سر فاصله   کرانهای اطمینان پایینی و بالایی نامیده می شود.مثلا برای      ، درجه اطمینان 95%است ویک فاصله اطمینان 95% بدست می آوریم.فاصله اطمینان از اکثر توزیع ها ،همانند توزیع نرمال ،خی دو،t استودنت وتوزیع F و... استفاده می کند.مثلا اگر مقدار میانگین یک نمونه تصادفی به اندازه n از جامعه نرمال ووایانس معلوم  باشد آنگاه     یک فاصله اطمینان   برای میانگین جامعه است.[6]                                در خيلي از موارد تعيين  نقطه دقيق يك  پارامتر ممكن  نيست،ولي فاصله اطمينان ،اطمينان ما را از قرار گرفتن مقدار پارامتر در يك بازه تضمين مي كند.فاصله اطمينان را مي توان  براي اكثر توزيع ها از جمله توزيع خي دو،توزيع t استودنت وتوزيع F و ...بدست آورد.     2- پيش بيني) prediction ( : هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی.[1] این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی  data mining كه براي كلاس بندي و تخمين مناسب هستند در واقع كار پیش بيني انجام مي دهند. آنچه از كتابهاي آماري وdata minig تحت عنوان پيش بيني برمي آيد رگرسيون و مباحث  مر بوط به آن است .در واقع در اكثر اين كتابها هدف اصلي از انجام تحليل هاي آماري براي داده  كاوي، رگرسيون  داده  هاست واين بعنوان وظيفه اصلي متد هاي آماري معرفي مي شود. اهداف تحليل  رگرسيون: با انجام رگرسيون مي خواهيم اهداف زيررا دنبال كنيم: 1-  بدست آوردن رفتار متغييرy توسط متغيير x ،يعني اينكه متغيرy  با تغييرx  در نمونه ها چه رفتاري را از خود نشان مي دهد.مثلا در نمونه اي اين رفتار خطي  است يا اينكه شكل منحني خواهد داشت.    2- پيش بيني  بر اساس دادهها  براي نمونه هاي آينده،كه هدف اصلي در داده كاوي از طريق متدهاي آماري است.مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد،نوع جنسيت او،سن فرد،ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. ويا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و  بيمه عمر، سن فردبتوان جنسيت فرد را تعيين كرد.   3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگرx  به اندازه خاصي تعيير كندy  تا چه اندازه تغيير خواهد كرد.هدف از فهميدن اينكه چگونه تغييرات y  تابعي ازx است. بايد توجه داشت كه نوع تغييرات مدل گرسيوني خاصي را مي دهد. اهداف مدلسازي براي تشريح ارتباط بين x  وy  استفاده از نتايج مدل براي پيش بيني كاربردهاي تخمين عبارت  است.اما استنباط استنتاجي يك مقوله ظريف تري است.زماني كه به استنباط آماري فكر ميكنيم در واقع درباره متغيير رفتاري و متغيير هاي كنترل فكر مي كنيم. متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي  ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود. اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم  تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم. روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون  خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون  خطي سلسله  مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح  كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و... باشد. حالت ديگر مد لهاي چند سطحي ،تحليل  دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي  شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.[4] در روش رگرسيون چند سطحي  يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات  پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده  شده است.همچنين به عنوان  توسعه رگرسيون خطي  در  نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم[4]   1- رگرسیون خطیLinear regression))  یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند. در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم. روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است :                    (1)                                             f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b   کهxها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت    (2) y=ax+b   است که در اینجا  yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept fromمی گویند. یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است  که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت     مینیمم است؛   در شکل مشخص شده است: e                                                                                                                                      ei                                                                                                                                                                                        yi                                                        axi+b       بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم : مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر. آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل  در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.[2] بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند،نباید با هم در تعیین ارزش متغیر خروجی بکار بره شوند.واز طرفی کاربردرگرسیون خطی منوط به همبستگی متغیر های ورودی و خروجی است.در تحلیل همبستگی نرمال مربوط به داده های زوج شده ،با استفاده از روابط ریاضی می توان به ،که بیانگر ضریب همبستگی نمونه ای ا ست رسید. رابطه  چنین است :     که   به ترتیب میانگین متغیر های ورودی و خروجی هستند.   را معمولاَُبا  rنمایش می دهند و رابطه ساده شده آن به این صورت است:      كه:    وشدت بستگی بین  x,y را اندازه مي گیرد   در صورتی که 0=r باشد،این دو متغیر (x,y) نسبت به هم نا همبسته اند ،و هر چه صفر فا صله می گیرد، بطرف 1+و 1- میزان همبسته بودن آنها زیادتر می شود،و 1+همبستگی خطی مثبت و 1- همبستگی خطی منفی را نشان می دهد.در حالت توزیع نرمال دو متغیر، صفر بوده (r=0) r مستقل بودن این دو متغیر را از هم نشان می دهد. رابطه روبرو را در نظر بگیرید: وقتی که  باشد،نتیجه می شودکه  و این بدان معنی است که همبستگی خطی کاملی بین  xوy موجود است.برای تفسیر مقادیرr بین  0و1+ یا  0و-1 ، این معادله رانسبت به    حل کرده نتیجه را در 100 ضرب می کنیم بنابراین داریم: که در آ ن   تغییر کلی yها و    تغییر شرطی yها را به ازای مقادیر ثابت xاندازه می گیرند..بنابراین آن قسمت از کل yها که در اثر بستگی به  xقابل توضیح است اندازه می گیرد .پس 100r2درصد تغییر کلی ا زyها ستکه در اثر بستگی به  xقابل توضیح است. مثلاُ وقتی r=%5 در این صورت 25% از تغییر yهاست که در اثر بستگی بهx قابل توضیح است.و وقتی r=%7 در این صورت 49 درصد از تغییر yها در اثر بستگی به x قابل توضیح است.بنابراین می توانیم بگوییم که یک همبستگی r=%7 تقریباُ دو برابر قوی تر یک همبستگیr=%5 است.[6]   همچنین تحلیل رگرسیونی نرمال برای حالت چند گانه رابطه مفید زیر را که بر اساس توزیع  tبدست می دهد، ا رایه می کند:                                                                                                              که در این رابطه  ضریب متغیر xi و مقدار عدد ثابت در معادله رگرسیون است.  nتعداد نمونه ها،k تعداد متغیر های ورودی(xiها)است. همچنین در نظر بگیرید که یک سری داده متشکل از k متغیر ورودی و یک متغیرخروجی که تعداد هر نمونه از متغیر n تا باشد،با ضرایب    و  i=0,1,…,kبصورت ماتریس به شکل زیر نمایش داده شود:                همچنین   را ترانهاده و  را نهادۀ و  B=( در نظر بگیرید.بدین ترتیب و cii درایه ماتریس معکوس x یعنی است.باید درایه c22 در این ماتریس را حساب کنیم. عبارتt دارای توزیع  tبا  n-k-1درجه آزادی است.که یک آمارۀ مناسب برای آزمون میزان تاثیری که ضریب هر   یعنی در معادله رگرسیونی دارد.[6]   2-Logistic Regression این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binaryهستند،مورد توجه قرار می گیرد.در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به  حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت    binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود. در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت،باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد. با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود. معادله خطی را می توان بدین صورت نوشت: که بیانگر احتمال اینکه متغیروا بسته (y) مقدار 1 را بگیرد به شرط اینکه ترکیبی ا ز xرا داشته باشیم.بصورت کلی تر و برای حذف محدودیت های مسأله ها حالت احتمالی y=1 را نسبت به y=0 در نظر می گیریم یعنی به صورت ولگاریتم طبیعی این عبارت را برابر  قرار می دهیم که x برداری بصورت  است ،ودر نهایت از رابطهln بالا مقدا ر  بدست می آید که برابر است با:   این معادله ،معادله  Logistic regression را تشکیل می دهد. اگر بخواهیم منحنی این معادله را نشان دهیم بصورت روبرو می باشد:   که بیانگرغیر خطی بودن این معادله است.در نهایت برای فهم بهتر مسأ له مثا لی ارائه می شود. داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت  bرا توسط تابع  LINESTبدست می آ وریم داده ها و نتایج به این صورت می باشد؛ Computed probability Life insurance promotion age sex Credit card insurance income instance 0.007 0 45 1 0 40 1 0.987 1 40 0 0 30 2 0.024 0 42 1 0 40 3 1.000 1 43 1 1 30 4 0.999 1 38 0 0 50 5 0.049 0 55 0 0 20 6 1.000 1 35 1 1 30 7 0.584 0 27 1 0 20 8 0.005 0 43 1 0 30 9 0.981 1 41 0 0 30 10 0.985 1 43 0 0 40 11 0.380 1 29 1 0 20 12 0.999 1 39 0 1 50 13 این مثال 4 مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است: ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691                  با این معادله می توان نتایج Life Insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج ماسبه شده با متغیر وا بسته هم خوا نی زیادی دارد.حال اگر نمونه جدیدی به این صورت داشته باشیم: In cone=35k       credit card Insuranee=1    sex=0   age=39 با محاسبات احتمال بدست آمده برابر 0.999می باشد.که این فرد یک کاندیدا را برای بیمه عمر(   Life (Insuranee promotion می باشد حا لت دیگر اینکه نمونه جدید به صورت : Ineome=35k        credit card  Insuran =0     sex=1   age=39 باشد در این حالت مقدار احتما لی بدست آمده برابر0.035است که نشان می دهد یک مرد 39 ساله که در آمد سالیانه او 35000است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست. 3-  Bayse classsifire این مقدار یکی از روشهای ساده یادگیری نظارتی است،که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز ا گریکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.که این تئوری به صورت زیر است:    که در این جا H متغیر وابسته است و E بوسیله مقدار ویژگی های ورودی تعیین می شود.    Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.در ادا مه با ا رائه یک مثال می توان به توضیح این روش پرداخت. دراینجا نیز ابتدا متغیر خروجی را تعیین می کنیم.فرض کنید که یک سری داده داریم، و با استفاده از آن داده ها می خواهیم برای یک نمونه جدید به شکل زیر،جنسیت فرد را تعیین کنیم: Magazine  promotnio=Yes         watch promotion=Yes Life Insurance Promotion=No    credit card Insurance=No Sex=? اگر بخواهیم این نمونه را با فرمولBayse classifier بنویسیم داریم: که   برابر است با:   و همچنین باید جنسیت زن نیز محاسبه شود بعنی عبارت زیر   همانند روش فوق باید  را محاسبه کرد. با محاسبه این احتمال داریم: و چون 281%<593%بنابر این احتمال اینکه جنسیت فرد در نمونه جدید مرد باشد بیشتر است. پس احتمال اینکه یک نمونه با این مشخصات مذکر باشددو برابر مونث بودن آن است. مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که  باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمالp و یک مقدار kبه مخرج اضافه می کند.بدین صورت :  می باشد که  kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیزp بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدارp برابر0.5 می باشد. نیز همان مقدار های یا است.مثلاُ اگر مقدار باشد آنگاه  برابر  خواهد بود. علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد.یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم،در این روش این مشخصه را کلاُ حذف می شود. حالت دیگری که می توان این روش را بکار برد وجود مشخصه هایی با داده های عددی در بین مشخصه های ورودی است.مثال زیر که یک نمونه جدید است در نظر بگیرید: Magazine promotion=Yes      ,    wateh promotion=Yes Life insurance promotion=No  ,   credite card Insurance=No,  Age=45 یعنی همان نمونه قبلی با این تغییر که سن نیز به مشخصه های ورودی اضافه شده.در اینجا با استفاده از این روش ابتدا باید باید توزیع مشخصه ورودی تعیین کنیم،که معمولاُ فرض می شود که مشخصه از توزیع نرمال پیروی می کند.مثلاُ مورد روبرو را می خواهیم حساب کنیم: که برابر است با:   (عبارت  از مثال قبلی که age جز متغیرهای ورودی نبود، بدست آمده) در اینجا ابتدا باید را حساب کنیم که با بدست آوردن میانگین و واریانس داده های سن داریم: با قرار دادن در فرمول توزیع نرمال داریم: که این مقدار برابر با0.03 است و به همین ترتیب برای حالت  نیز حساب می کنیم. نتیجه لازم را از داده های خروجی می گیریم.با حساب کردن احتمال قائده بیز داریم: که در اینجا نیز احتمال مرد بودن بیشتراست.       ابزار رگرسیون خطی : (توضیح تابع LINEST) برای اجرای رگرسیون خطی می توان از نرم افزار Excelاستفاده کرد.در قسمت توابع Excle،تابع LINEST برای اجرای یک رگرسیون خطی ایجاد شده است.در اینجا به چگونگی کار با این تابع و استفاده از نتایج بدست آمده اجرای آن می پردازیم. 1- روش کار با نرم افزار: بعد از باز کردن Excel داده هایی را که می خواهیم بوسیلهُ آنها رگرسیون خطی را اجرا کنیم،وارد می کنیم و نیز محلی را که می خواهیم داده ها خروجی نشان داده شوندتعیین می کنیم سپس از منوی  Insert، furctionرا انتخاب می کنیم.در قسمت  select a cotegoryمقولهُ statistical را انتخاب می کنیم.با انجام این کار تابع های آماری در قسمت پایین همین پنجره نمایش داده می شود.از بین تابع ها تابع  LINESTرا انتخاب می کنیم و OK می کنیم. در پنجره LINEST چهار قسمت وجود دارد که باید پر شوند. در قسمت اول باید ستون متغیر وابسته (y) را مشخص می کنیم.مثلاُ اگر دادهای شما در ستونEاز ردیف 2تا12هستند،در این قسمت می نویسیم    E2:E12، درقسمت دوم ستون متغیرهای مستقل  ها را به همین ترتیب مشخص می کنیم.قسمت سوم مقدار عدد ثابت رگرسیون را به ما می دهد،اگر این مقدار True انتخاب کنیم ،مقدار عدد ثابت را بر میگرداندواگر False باشدمقدار عدد ثابت صفراست. درقسمت چهارم(state) اگر عبارتTure تایپ می شوداطلاعاتی را در مورد نتایج رگرسیون بدست می دهد که مفید است،مثلاُ ضریب همبستگی،بین مقدار تخمینی و مقدار واقعی متغیر وابسته،مقدار آماره  Fو...که با مثال بیشتر توضیح داده می شودواگر این مقدار False باشد Excelاین نتایج را ارائه نمی دهد.پس از آنکه هر چهار قسمت پر شد،با نگه داشتن ctrl+shiftو زدنinter(یاokکردن) نتایج اجرای رگرسیون دیده می شود.برای فهم بهتر این ابزار در زیر مثالی آورده می شود. مثالی را در نظر بگیرید که 4 متغیر مستقل و یک متغیر وابسته داده ها مربوط به ساختمان اداری می باشد که با داده های ورودی که می گیریم،قصد داریم،ارزش یک ساختمان را به واحد پولی دلار تخمین بزنیم. متغیرهای تا  و به شرح زیر می باشند: توضیح متغیر قیمت ساختمان Y میزان فضای ساختمان X1 تعداد اتاقهای ساختمان X2 تعداد ورودی ها X3 میزان عمری که ساختمان داشته به سال X4   این داده ها بدین شکل در Excel نوشته می شود.       سپس ناحیه ای را که می خواهید داده ها خروجی در آنجا نوشته شود انتخاب کنید سپس با آدرس زیر پنجرهُ تابع LINEST را باز کنید. با انتخاب LINEST از مقوله statistical،OK کنید،    تا پنجره LINEST باز شوددرقسمتs known-yعبارت E2:E12 و در قسمتkown-x s عبارت A2:D12 را تایپ کنید،سپس در قسمت const وstats عبارت True را تایپ کنید.       با نگه داشتن ctrl+shift و زدن ok نتایج در جایی که قبلا" انتخاب کردید، نوشته می شود.   231.8145 2709.2 12618.39 25.5609 56587.02 13.72808 549.07 413.9391 5.617636 12661.69 0.996544 1004.233 #N/A #N/A #N/A 432.4997 6 #N/A #N/A #N/A 1.74E+09 6050904 #N/A #N/A #N/A   2- تو ضیح نتایج خروجی: ردیف اول ضرایب متغیر های مستقل و عدد ثابت bرا نشان می دهد.در واقع همان ها وb در معادله هستند که بصورت بر عکس از راست به چپ نوشته شده اند.یعنی از سمت راست ترین عدد مقدارb وعدد بعدی ضریبx1 کهspace  floorمی باشد نشان داده شده و آخرین عدد سمت چپ ضریبx4 یعنی   Age می باشد. ردیف دوم نتایج خروجی خطای استاندارد هر ضریب و عدد ثابت  bرا نشان می دهد.که میزان انحراف نتایج هر ضریب از مقدار میانگین آن نشان می دهد و مثلا"عدد 13.72808 میزان انحراف ضریب x4 را از مقدار میانگین آن نشان می دهد. داده اول ردیف سوم میزان ضریب همبستگی بین مقدار تخمینی متغیر وابسته و مقدار واقعی این متغیر را نشان می دهد که بین  -1و1 می باشد و هر چه این ضریب به1,-1 نزدیکتر باشد نشان می دهد که معادله رگرسیون پیشگویی خوبی برای مقدارهای واقعی متغیر وابسته است و هر چه به صفر نزدیک تر باشد نشان می دهد که روش رگرسیون خطی نامعتبر است که یک معیار برای فهمیدن اینکه رگرسیون خطی مناسب است یا خیر می باشد.دادهُ دوم در همین سطر خطای استاندارد متغیر وابسته را از میانگین آن نمایش می دهد. دادهُ اول سطر چهارم یکی از داده های خروجی مفید است و معیاری خوبیست برای پی بردن به اینکه آیا رگرسیون خطی مناسب است یا خیر. این مقدار آماره F را بدست می دهد.این آماره بعنوان توزیع نمونه گیری دومتغیرتصادفی مستقل که بر درجه آزادیشان تقسیم شده اند،مورد مطالعه قرار می گیرد.برای تفسیر  Fباید به دو درجه آزادی دسترسی داشته باشیم،این مقادیر اغلب جدول توزیعF را به دو مقدار V1 وV2  تفکیک می کند.مقدارV1 تعداد متغیر های مستقل می باشد که در اینجا برابر4 میباشد وv2  حاصل تفریق تعداد کل دادهها از کل متغیرهانیز5تا می باشد(4تا مستقل و یک وابسته) پس v2 برابر است با 6 =5-11 در اینجا از سطح 5% نیز برای آزمون آماره Fاستفاده می شود.با این توضیح می توان مقدار6و4و5% F را ازجدول توزیع F که در کتابهای آمارموجود می باشد بدست آورد.خلاصه مطلب اینکه اگر مقدار اول داده اول سطر چهارم از مقدار  F0/05,V1,V2که از جدول بدست می آید بزرگتر باشد،معادله رگرسیون به دقت توانسته ارزش متغیر وابسته را تعیین کند یا به عبارتی رابطه مشاهده شده بین متغیر های مستقل ومتغیر وابسته اتفاقی نیست واگر این مقدارکوچکترباشداین روش، روش معتبری برای داده ها نیست،یا به صورت آماری می گوییم فرض صفر را مبنی بر اتفاقی بودن رابطهُ متغیر های مستقل و متغیر وابسته را نمی توان رد کرد. داده دوم در همین سطر درجه آزادی V2 را نشان می دهد.در سطر آخر نیز نشان دهندهُ مجموع مربعات رگرسیون و مجموع مربعات باقیمانده است که از لحاظ آماری فرمول آن بدین شکل است: که  میانگین است و مقدار هر داده می باشد
+ نوشته شده در  یکشنبه یازدهم دی 1390ساعت 10:26  توسط آزیتا سپاهی  | 

آماده سازي داده‌ها در داده كاوي

 


آماده سازي داده‌ها در داده كاوي

 

 

شهاب باقري

دانشجوی مقطع کارشناسی مهندسی کامپیوتر، دانشگاه تربیت معلم تهران

shbagheri6685@gmail.com

 

 

زمستان 1387


 

چکیده: با توجه به افزايش روزافزون حجم داده‌ها در زمينه‌هاي مختلف، داده كاوي به عنوان ابزاري در به كاربري صحيح اين داده‌ها مورد توجه ويژه قرار گرفته است. آماده‌سازي داد‌ه‌ها به عنوان نخستين مرحله در انتخاب مؤثر مسير داده كاوي در اين مقاله مورد بررسي قرار گرفته است. ويژگي‌هاي داده‌هاي خام مورد بررسي در انتخاب مسير آماده‌سازي تاثير‌گذار هستند. بر اساس اين ويژگي‌ها، داده‌هاي خام را به انواع مختلفي دسته‌بندي مي‌كنند. از آنجا كه داده كاوي بر روي حجم عظيم داده صورت مي‌گيرد مشكلات كار با اين قبيل داده‌ها مانند آشفتگي و ... بيان و به تحليل آنها پرداخته شده است.

کلمات کلیدی: داده كاوي، آماده سازي داده

1-     مقدمه

در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده‌ها، حجم داده‌های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمان‌هایی موفقند که بتوانند حداقل 7% داده‌هایشان را تحلیل کنند . امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.

آماده‌ سازي داده بخشي از كاوش داده است كه ممكن است شامل پاك سازی داده‌ها ،‌تبدیل داده‌ها ‌و ‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها‌ با ‌حجم‌ عظیمی‌ از ‌متغييرها (فیلدها) باشد[1]و[2].

2-     داده كاوي چيست؟

بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining) یکی از ده دانش در حال توسعه‌ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد.

داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی‌باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده‌سازی شود[1]و[2].

2-1-    مهمترين مزاياي داده كاوي عبارتند از:

·        كمك به مديران در تصميم‌گيري

·        يافتن مقالات خبري روزآمد

·        كمك به كاربر براي جستجو در وب

·        بهبود امر بازاريابي

·        كشف كلاهبرداري‌ها و نابهنجاري‌ها

3-      مراحل داده كاوي[2]

3-1-    كاوش

 معمولا ‌این ‌مرحله با آماده‌سازی داده‌ها صورت می‌گیرد كه ممكن است شامل پاك‌سازی داده‌ها، ‌تبدیل داده‌ها ‌و ‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها ‌با ‌حجم‌ عظیمی‌ از ‌متغييرها (فیلدها) باشد.

3-2-    ساخت و احراز اعتبار مدل

این‌مرحله ‌به بررسی ‌مدل‌هاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيش‌بيني آن می پردازد.

3-3-    بهره‌برداری

آخرین ‌مرحله ‌مدلی ‌را كه ‌در مرحله قبل ‌انتخاب ‌شده است، در داده‌های‌جدید به كار ‌می‌گیرد تا پیش‌بینی‌هاي‌ خروجی‌های مورد انتظار را تولید نماید.

4-     تفاوت‌هاي داده كاوي و آناليز آماري[2]

کاوش داده با آنالیزهای متداول آماری متفاوت است. در زیر تفاوت‌های کاوش داده و آنالیز آماری آمده است:

4-1-    آنالیز آماری :

·        آمارشناسان همیشه با یک فرضیه شروع به کار می‌کنند.

·        آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط شود.

·        آنها از داده های عددی استفاده میکنند.

·        آنها می‌توانند داده‌های نابجا و نادرست را در طول آنالیز تشخیص دهند.

·        آنها می‌توانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند.

4-2-    کاوش داده

·        به فرضیه احتیاجی ندارد.

·        الگوریتم‌های کاوش داده در ابزارها بطور اتوماتیک روابط را ایجاد می‌کنند.

·        ابزارهای کاوش داده از انواع مختلف داده و نه فقط عددی میتوانند استفاده کنند.

·        کاوش داده به داده های صحیح و درست طبقه‌بندی شده بستگی دارد.

·        نتایج کاوش داده‌ها آسان نیست و همچنان به متخصصان آمار برای تحلیل آنها و بیان آنها به مدیران نیاز است.

5-     کاوش داده و منابع داده

انبار داده Data warehouse از جمله منابع معمول برای بکارگیری کاوش داده هستند زیرا شامل منابع با ارزشی از داده‌های داخلی که بوسیله روش‌های استخراج/ انتقال/ بارگزاری (ETL) جمع آوری، یکپارچه و تایید شده‌اند.

انبار داده‌ها همچنین می‌توانند شامل داده‌های با ارزش خارجی مانند قوانین و ضوابط، جمعیت‌شناسی یا داده‌های جغرافیایی باشند که وقتی با داده‌های داخل سازمانی مخلوط می‌شوند اساس کاوش داده را پی‌ریزی می‌کنند.

همانطور که در شکل زیر نشان داده شده است، سازمان‌ها داده‌ها را با توجه به هدف کاوش از انبار داده و یا بانک داده عملیاتی استخراج می‌کنند.

شكل 1 استفاده از داده‌ها جهت داده كاوي

هدف از فرايند انبارش داده‌ها فراهم کردن يک محيط يک پارچه جهت پردازش اطلاعات است. در اين فرايند، اطلاعات تحليلي در دوره‌هاي مناسب زماني سازماندهي و ذخيره مي‌شود تا بتوان از آنها در فرايند‌هاي تصميم‌گيري که از ملزومات آن داده کاوي است، استفاده شود.

6-     انتخاب داده‌ها[1]

براي شروع فرايند داده کاوي بايد داده‌ها‌ي مورد نياز از انبار داده‌ها انتخاب شوند.

به عنوان مثال در يک پايگاه داده‌هاي مربوط به سيستم فروشگاهي، اطلاعاتي در مورد خريد مشتريان، خصوصيات آماري آنها، تامين‌کنندگان ، خريد، حسابداري و ... وجود دارند. براي تعيين نحوه چيدن قفسه‌ها تنها به داده‌هايي در مورد خريد مشتريان و خصوصيات آماري آنها نياز است.

حتي در مواردي نياز به کاوش در تمام محتويات پايگاه نيست بلکه ممکن است به منظور کاهش هزينه عمليات، نمونه‌هايي از عناصر انتخاب و کاوش شوند.

7-     آماده‌سازي داده[1] و [2]

نخستين مرحله داده كاوي كه كاوش نام دارد با آماده‌سازی داده‌ها صورت می‌گیرد كه ممكن است شامل پاك‌سازی داده‌ها‌، ‌تبدیل داده‌ها ‌و ‌انتخاب زیرمجموعه‌هايي‌‌ از ركوردها ‌با ‌حجم ‌عظیمی ‌از ‌متغييرها (فیلدها) باشد.

7-1-    انواع داده

نمونه‌هاي داده‌اي اجزاي اصلي فرآيند داده كاوي هستند.اين نمونه‌ها مي‌توانند انواع مختلفي داشته باشند كه در ادامه به آنها اشاره شده است.

7-1-1- داده‌هاي عددی

مقادير عددي شامل متغيرهاي با مقادير حقيقي و يا int مي‌باشند مانند : سن ، سرعت ، طول.

كه مشخصات زير را دارند:

1- ارتباط درجه اي دارند: 5<7 & 2<5

2- ارتباط فاصله اي دارند: d(2.3,4.2) = 1.9

7-1-2- طبقه ای یا سمبولیک

هيچ يك از دو ارتباط فوق را ندارند. مقادير در متغيرهاي طبقه‌اي ميتوانند مساوي يا غير مساوي باشند (آبي=آبي يا قرمز≠ سياه) مانند رنگ چشم ، جنسيت ، كشور يا محل سكونت.

7-1-3- Dummy data

 به متغير هاي طبقه‌اي كدگذاري شده باينري گويند. يك متغير طبقه اي با n مقدار را ميتوان به n متغير عددي binary تبديل كرد. مثلا اگر در دسته‌بندي رنگ‌ها فقط چهار رنگ مشكي، آبي، سبز و قهوه‌اي را در نظر بگيريم مي‌توانيم آنها را به شكل زير كدگذاري كنيم:

جدول شماره 1 : تبديل داده ها به Dummy data

رنگ

Dummy Data

مشكي

1000

آبي

0100

سبز

0010

قهوه‌اي

0001

 

داده‌ها را همچنين مي‌توان بر اساس مقدار دسته‌بندي كرد :

7-1-4- پیوسته، کمی یا متریک

متغيرهاي پيوسته كه به آنها متغيرهاي كمي يا متريك هم گفته مي‌شود به كمك مقياس فاصله‌اي و يا به كمك مقياس نسبتي اندازه‌گيري مي‌شوند.

- مقیاس فاصله‌ای و مقیاس نسبتی:

تفاوت مقياس فاصله‌اي و نسبتي در تعريف نقطه صفر آنهاست. در مقياس فاصله‌اي نقطه صفر به صورت اختياري انتخاب شده و بنابر اين نشان‌دهنده عدم وجود مقدار اندازه‌گيري شده نيست.

بهترين مثال در مورد مقياس فاصله‌اي ، مقياس دماست كه در آن صفر درجه فارنهايت نشان دهنده عدم حضور كامل دما نيست. به علت موقعيت اختياري نقطه صفر ، ارتباط نسبتي براي مقاديري كه در مقياس فاصله‌اي اندازه‌گيري شده‌اند وجود ندارد به عنوان مثال 80 درجه فارنهايت به معني گرماي دو برابر نسبت به 40 درجه فارنهايت نيست. برخلاف مقياس فاصله‌اي در مقياس نسبتي نقطه صفر مطلق وجود دارد و در نتيجه ارتباط نسبتي براي متغيرهاي اندازه‌گيري شده با آن وجود دارد. مقاديري مانند ارتفاع ، طول و درآمد از اين نوع هستند. مقادير پيوسته به صورت گروه داده‌هاي با اعداد حقيقي و يا int نشان داده مي‌شوند.

7-1-5- گسسته یا کیفی

در متغيرهاي گسسته كه به آنها متغيرهاي كيفي هم گفته مي‌شود اندازه گيري مقادير و يا تعريف ارزش ها با يكي از دو مقياس غير متريك اسمي و يا ترتيبي انجام مي‌گيرد.

- مقیاس اسمی:

يك مقياس بدون نظم ترتيبي است كه از نمادها، كاراكترها و اعداد مختلف براي بيان وضعيت متغير اندازه‌گيري شده استفاده مي‌كند. مثلا بر اساس نوع مصرف كننده مقادير مسكوني، تجاري و صنعتي را مي‌توان در نظر گرفت. اين مقادير را مي‌توان به صورت حروفي ( A,B,C,D ) و يا عددي ( 1,2,3,4‌ ) كدگذاري كرد كه البته اين مقادير عددي ويژگي‌هاي متريك ساير داده‌هاي عددي را ندارند.

مثال ديگر كد پستي است. در هر دو مثال مقاديري كه براي مشخص كردن ويژگي‌ها به كار مي‌روند فاقد نظم ترتيبي و يا ارتباط با يكديگر مي‌باشند.

- مقیاس ترتیبی:

مقياس ترتيبي از درجه‌بندي گسسته و منظم تشكيل شده است مانند رتبه‌بندي. يك متغير ترتيبي، به متغير طبقه‌اي گفته مي‌شود كه ارتباط درجه‌اي در مورد آن وجود دارد اما ارتباط فاصله‌اي تعريف نمي‌شود.

به عنوان مثال رتبه دانشجويان در كلاس

مقياس فاصله‌اي الزاما خطي نيست به عنوان مثال فاصله بين دانشجويان رتبه 4 و 5 الزاما برابر با اختلاف دانشجويان رتبه 15 و 16 نيست. حداكثر چيزي كه از يك مقياس فاصله‌اي مي‌توان استنباط كرد ارتباطاتي از نوع مساوي با، كوچكتر از و يا بزرگتر از مي‌باشد.

7-1-6- متغیرهای دوره‌ای

 اين متغيرها در واقع نوع خاصی از متغیرهای گسسته هستند.

متغيرهاي دوره اي به متغيرهايي گفته مي‌شود كه براي مقادير آن ارتباط فاصله‌اي وجود دارد اما ارتباط درجه‌اي وجود ندارد. مانند روزهاي هفته، روزهاي ماه و يا روزهاي سال: فاصله دوشنبه و سه شنبه به عنوان مقادير يك صفت كمتر از فاصله دوشنبه و پنجشنبه است اما دوشنبه مي‌تواند قبل از و يا بعد از جمعه قرار بگيرد.

داده‌ها بر اساس رفتار نسبت به زمان نيز دسته‌بندي مي‌شوند:

7-1-7- استاتیک

به داده هايي گفته مي‌شود كه مقدار آنها با گذشت زمان تغيير نمي‌كنند مانند جنسيت افراد.

7-1-8- دینامیک یا زمانی

مقدار اين متغيرها با گذشت زمان تغيير مي‌كنند مانند ميزان فروش يك كارخانه از ابتدا تا كنون كه هر روز تغيير مي‌كند. این داده ها به آماده سازی پیچیده تری نیاز دارند

7-2-    آماده‌سازي داده‌هاي خام با ابعاد بالا [1]

آماده‌سازي اين داده‌ها با مشكلاتي همراه است كه در اصطلاح به آنThe Curse of Dimension (نفرين ابعاد) مي‌گويند كه خصوصاً در نمونه‌های با تعداد محدود خودنمایی می‌کند.

7-3-    ویژگی‌های مشکل‌ساز داده‌های با ابعاد بالا در داده کاوی [1]

1- با افزایش بعد (kdata set لازم برای رسیدن به چگالی نقاط مطلوب به صورت نمایی افزایش پیدا می‌کند.

(1)                                                                       

در نتیجه چگالی نمونه در گروه های حقیقی بزرگ اغلب برای داده کاوی ناکافی است.

به عنوان مثال اگر اعداد حقيقي 1 تا 100 مقادير نمونه هاي يك بعدي باشند كه در آن حوزه ابعاد باشد، براي به دست آوردن همان چگالي نمونه در فضاي 5 بعدي به 1005 = 1010 نمونه مختلف نياز داريم.

2- با افزایش بعد (d)، شعاع لازم برای احاطه کردن درصد خاصی از داده ها (p) افزایش پیدا می‌کند:  

(2)                                                

كه در آن p بخش تعيين شده نمونه‌ها و d تعداد ابعاد است.

در نتیجه احاطه کردن درصد خاصی از داده‌ها در فضاهای بالا نیاز به نزدیکی زیاد داده‌ها دارد که اغلب ممکن نیست.

 با توجه به موارد 1 و 2 مي‌توان نتيجه گرفت كه در ابعاد بالا تخمین‌های مربوط به بخش خاصی از داده‌ها در مواردی که تعداد نمونه‌ها محدود باشد مشکل‌ساز خواهد بود.

3- در فضاهای با بعدهای بالا، هر نقطه به يكي از گوشه‌ها نزدیک‌تر است تا به نقطه نمونه دیگر:

(3)                                      

که در آن:            D: فاصله میان دو نقطه داده   n: سایز نمونه   d: تعداد بعدها

4- با افزایش بعد، فاصله نقاط پیش بینی شده با مرکز افزایش پیدا می کند.

در نتیجه تقریبا تمامی نقاط پیش بینی شده برون هشته خواهند بود و پیش بینی کردن در این فضا با مشکل مواجه می شود.

با توجه به موارد 3 و 4 به نظر مي‌رسد پیش‌بینی پاسخ در هر نقطه دلخواه مشکل‌ساز خواهد بود زیرا هر نقطه به گوشه نزدیک‌تر است تا به داده‌های موجود.

8-     آشفتگي: ويژگي داده‌هاي خام [1]

برای پیشبرد صحیح فرآیند داده کاوی:

1- داده‌ها باید به خوبی تعریف شده باشند.

2- مقادیر بدست آمده ثابت و قابل تکرار باشند.

3- تعداد نمونه ها باید کمیت کافی را داشته باشد.

داده‌های بسیار متفاوت همواره مشاهده مي‌شوند كه مي‌توانند به يكي از دو علت زير باشند:

1- نمونه های واقعی با مقادیر خارج از عرف كه جزء داده‌ها محسوب مي‌شوند.

2- خطاهای ایجاد شده: كه تا حد امکان باید کاهش داده شوند و یا تأثیر آنها کم شود.

تحلیل گر باید با نوع داده‌هایی که در هر مساله با آن سر و کار دارد آشنا باشد تا بتواند این دو مورد را از هم تشخیص دهد که البته در حجم بالای داده‌ها اغلب ممکن نیست.

در پژوهش‌های حقیقی، حجم داده‌ها اغلب بسیار بزرگ بوده و بنابراین دارای پتانسیل آشفتگی طبیعی می‌باشند.

مقادیر گم شده، آشفتگی و درهم ریختگی مقادیر، ثبت نادرست داده‌ها، نمونه‌برداری ناکافی و ... همگی کیفیت داده‌های بدست آمده را کاهش داده و تورش ایجاد می‌کنند.

کیفیت بالای داده‌ها تنها می‌تواند نشان‌دهنده دستکاری‌های انسانی و کاذب بودن داده‌ها باشد که منشاء اتخاذ تصمیم نادرست در انتخاب مسیر داده کاوی خواهند بود.

- علل ایجاد داده‌های پرت[1]:

داده‌های مفقود شده به علت خطای حین اندازه‌گیری، خطای حین ورود اطلاعات (recoding) و یا داده‌هایی که در نمونه های مربوط، به آنها دسترسی نداشته‌ایم ايجاد مي‌شوند.

 - راه حل: تکنیک‌های داده کاوی مختلف، حساسیت متفاوتی به داده های مفقود شده دارند: انتخاب روش و تکنیکی که حساسیت کمتری به داده‌های مفقود شده را داشته باشند و نسبت به این مورد Robust باشند.

9-     تبديل داده‌ها[1] و [2]

هنگامي که داده‌هاي مورد نياز انتخاب شدند و داده‌هاي مورد کاوش مشخص گرديدند ، معمولاً به تبديلات خاصي روي داده ها نياز است كه نوع تبديل به عمليات و تکنيک داده کاوي مورد استفاده بستگي دارد: تبديلاتي ساده همچون تبديل نوع داده‌اي به نوع ديگر تا تبديلات پيچيده‌تر همچون تعريف صفات جديد با انجام عمليات‌هاي رياضي و منطقي روي صفات موجود.

10-  داده‌هاي مفقود شده و انتخاب روش داده كاوي [1]

روش‌های داده کاوی مختلف، حساسیت متفاوتی نسبت به داده های گم‌شده دارند و اگر از روش‌های حساس استفاده می‌شود باید این داده‌ها را اصلاح کرد.

10-1-                       روش‌هاي مختلف اصلاح داده‌هاي مفقود

10-1-1- حذف

1- نمونه: آسان ترین راه، تنها در مواردی که حجم نمونه بالا و تعداد داده های پرت کم باشد.

2- داده

10-1-2- جایگزینی

1- دستی: بر اساس سایر اطلاعات نمونه، مناسب حجم پایین نمونه با شناخت کافی

2- مقدار ثابت

3- ثابت جهانی

4- ميانه صفت

5- میانه صفت در کلاس خاصی از نمونه ها: تنها در روش classification قابل اعمال است.

11-  آنالیز برون هشته‌ها (Outliers) [1]

- روش های شناسایی برون هشته‌ها:

1- بر اساس روش‌های آماری: تنها در داده‌های تک بعدی كاربرد دارد.

2- روش‌های فاصله‌ای

3- روش‌های مبتنی بر انحراف

این روش داده‌هایی را که از نرم خارج هستند پیدا و دلایل انحراف را پیشنهاد می‌کند. برای مثال افرادی که مشتری دائم بودند اما برای مدت طولانی دیگر خرید نمی‌کنند، یا از آن محل رفته‌اند و یا شرکت رقیبی محصولی مشابه با کیفیت بهتر و با قیمت ارزان‌تر ارائه داده است.

12-  نتيجه گيري

از آنجايي كه آماده‌سازي داده از مهم‌ترين قسمت‌هاي داده كاوي به شمار مي‌رود صحت پردازش داده‌ها در اين مرحله از اهميت ويژه‌اي برخوردار است و مي‌تواند در نتايج نهايي فرآيند تاثير گذار باشد. فرآيند آماده‌سازي بر اساس نوع داده‌هاي مختلف متفاوت انجام مي‌گيرد بنابراين درك صحيح وضعيت داده‌ها در هر پژوهش از وظائف اصلي پژوهشگر داده كاو ( data miner ) مي‌باشد. داده كاوي عموما بر روي حجم عظيم داده‌ها صورت مي‌گيد كه عمومي‌ترين ويژگي آنها آشفتگي و حضور داده‌هاي نادرست است. انتخاب روش صحيح در برخورد با چنين شرايطي پژوهشگر را در مسير داده كاوي ياري مي‌نمايد. اين روش بايد در هر پژوهش بر اساس شرايط موجود سنجيده شود و انتخاب مسير صحيح از پيش تعيين شده براي كليه موارد امكان پذير نيست.

مراجع

[1] M. Kantardzic, "Data Mining: Concepts, Models, Methods, and Algorithms", John Wiley & Sons, Chapter 2: Preparing the Data, 2003.

[2] G. Fernandez, " Data Mining Using SAS Applications", CRC Press, Chapter 2: preparing data for data mining, 2002.

 

+ نوشته شده در  سه شنبه بیست و نهم آذر 1390ساعت 9:25  توسط آزیتا سپاهی  | 

روش استفاده از Weka

روش استفاده از Weka

روش استفاده از Weka
شکل 1،‌ راههای انتخاب واسط­های مختلف Weka را نشان مي­دهد.
آسان­ترين راه استفاده از Weka ، از طريق واسطی گرافيکی است که Explorer خوانده مي‏شود. اين واسط گرافيکی، به وسيله انتخاب منوها و پر کردن فرم­‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، مي‏­توان به سرعت يک مجموعه داده را از يک فايل ARFF خواند و درخت تصميم‏گيری آن را توليد نمود. امادرخت­‏های تصميم‏گيری يادگيرنده صرفاً ابتدای کار هستند. الگوريتم­‏های بسيار ديگری برای جستجو وجود دارند. واسط Explorer کمک مي‏­کند تا الگوريتم­‏های ديگر نيز آزمايش شوند.

شکل 1. Weka در وضعيت انتخاب واسط
اين واسط با در اختيار گذاشتن گزينه­‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتيب صحيح، به وسيله خاکستری نمودن گزينه­‏ها تا زمان صحيح به کارگيری آنها، و با در اختيار گذاشتن گزينه­‏هايی به صورت فرم­‏های پرشدنی، کاربر را هدايت مي‏­کند. راهنمای ابزار مفيدی، حين عبور ماوس از روی گزينه­‏ها، ظاهر شده و اعمال لازم مربوطه را شرح مي‏­دهد. پيش­فرض­‏های معقول قرار داده شده، کاربر را قادر مي‏­سازند تا با کمترين تلاشی، به نتيجه برسد. اما کاربر بايد برای درک معنی نتايج حاصله، راجع به کارهايی که انجام مي‏­دهد، بينديشد.
[15] ­‏های نمايانگر الگوريتم­‏های يادگيری و منابع داده­‏ها را به درون صفحه بکشيم و با اتصال آنها به يکديگر، ترکيب و چينش دلخواه خود را بسازيم. اين واسط اجازه مي‏­دهد تا جريان داده­ای از مؤلفه­‏های به هم متصل که بيانگر منابع داده، ابزارهای پيش پردازش، روش­‏های ارزيابی و واحدهای مصوّر سازی هستند تعريف شود. اگر فيلترها و الگوريتم­های يادگيری، قابليت يادگيری افزايشی را داشته باشند، داده­‏ها به صورت افزايشی بار شده و پردازش خواهند شد.
سومين واسط Weka ، که Experimenter خوانده مي‏­شود، کمک مي‏­کند تا به اين سؤال عملی و پايه­ای کاربر حين استفاده از تکنيک­‏های رده‏بندی و رگرسيون، پاسخ دهد: "چه روش­‏ها و پارامترهايی برای مسأله داده شده، بهتر عمل مي‏­کنند؟"
عموماً راهی برای پاسخگويی مقدماتی به اين سؤال وجود ندارد و يکی از دلايل توسعه Weka ، فراهم نمودن محيطی است که کاربران Weka را قادر به مقايسه تکنيک­‏های گوناگون يادگيری بنمايد. اين کار، مي‏­تواند به صورت تعاملی در Explorer انجام شود. با اين وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده­‏ها و فيلترها با پارامترهای گوناگون روی تعدادی از مجموعه­‏های داده، جمع­آوری آمار کارآيی و انجام آزمايش­‏های معنا، پردازش را خودکار مي‏­کند. کاربرهای پيشرفته، مي‏­توانند از Experimenter برای توزيع بار محاسباتی بين چندين ماشين، استفاده کنند. در اين روش، مي‏­توان آزمايش­‏های آماری بزرگی را راه­اندازی نموده و آنها را برای اجرا، رها نمود.
Weka دو واسط گرافيکی ديگر نيز دارد. واسط knowledge flow به کاربر امکان مي‏­دهد تا چنيش­‏هايی برای پردازش داده­‏های در جريان، طراحی کند. يک عيب پايه­ای Explorer . نگهداری هر چيزی در حافظه اصلی آن است. (زمانی که يک مجموعه داده را باز مي‏­کنيم، Explorer ، کل آن را، در حافظ باز مي‏­کند) نشان مي‏­دهد که Explorer ، صرفاً برای مسايل با اندازه­‏های کوچک تا متوسط، قابل اعمال است. با وجود بر اين Weka شامل تعدادی الگوريتم­‏های افزايشی است که مي‏­تواند برای پردازش مجموعه های داده بسيار بزرگ مورد استفاده قرار گيرد. واسط knowledge flow امکان مي‏­دهد تا جعبه

ادامه مطلب
+ نوشته شده در  دوشنبه بیست و یکم آذر 1390ساعت 15:1  توسط آزیتا سپاهی  | 

معرفی نرم ­افزار داده كاوي Weka

معرفی نرم ­افزار داده كاوي Weka

تا به امروز نرم افزار هاي تجاري و آموزشي فراواني براي داده كاوي در حوزه هاي مختلف داده ها به دنياي علم و فناوري عرضه شده­اند. هريك از آنها با توجه به نوع اصلي داده هايي كه مورد كاوش قرار مي­دهند، روي الگوريتمهاي خاصي متمركز شده­اند. مقايسه دقيق و علمي اين ابزارها بايد از جنبه هاي متفاوت و متعددي مانند تنوع انواع و فرمت داده هاي ورودي، حجم ممكن براي پردازش داده ها، الگوريتمها پياده سازي شده، روشهاي ارزيابي نتايج، روشهاي مصور سازي ، روشهاي پيش پردازش داده ها، واسطهاي كاربر پسند ، پلت فرم هاي سازگار براي اجرا،‌ قيمت و در دسترس بودن نرم افزار صورت گيرد. از آن ميان، ‌نرم افزار Weka با داشتن امكانات بسيار گسترده،‌ امكان مقايسه خروجي روشهاي مختلف با هم، راهنماي خوب، واسط گرافيگي كارآ، سازگاري با ساير برنامه­هاي ويندوزي، و از همه مهمتر وجود كتابي بسيار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفي مي­شود.

ميزكار Weka ، مجموعه­اي از الگوريتم­‏هاي روز يادگيري ماشيني و ابزارهاي پيش پردازش داده­‏ها مي‏­باشد. اين نرم­افزار به گونه­اي طراحي شده است كه مي‏­توان به سرعت، روش­‏هاي موجود را به صورت انعطاف­پذيري روي مجموعه­‏هاي جديد داده، آزمايش نمود. اين نرم­افزار، پشتيباني‏‏هاي ارزشمندي را براي كل فرآيند داده كاوي ­‏هاي تجربي فراهم مي‏­كند. اين پشتيباني‏ها، آماده سازي داده­‏هاي ورودي، ارزيابي آماري چارچوب­‏هاي يادگيري و نمايش گرافيكي داده­‏هاي ورودي و نتايج يادگيري را در بر مي­گيرند. همچنين، هماهنگ با دامنه وسيع الگوريتم­‏هاي يادگيري، اين نرم­افزار شامل ابزارهاي متنوع پيش پردازش داده­هاست. اين جعبه ابزار متنوع و جامع، از طريق يك واسط متداول در دسترس است، به نحوي كه كاربر مي‏­تواند روش­‏هاي متفاوت را در آن با يكديگر مقايسه كند و روش­‏هايي را كه براي مسايل مدنظر مناسب­تر هستند، تشخيص دهد.


نرم­افزار Weka در دانشگاه Waikato واقع در نيوزلند توسعه يافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنين Weka ، نام پرنده­اي با طبيعت جستجوگر است كه پرواز نمي‏­كند و در نيوزلند، يافت مي‏­شود. اين سيستم به زبان جاوا نوشته شده و بر اساس ليسانس عمومي و فراگير GNU انتشار يافته است. Weka تقريباً روي هر پلت فرمي اجرا مي‏­شود و نيز تحت سيستم عامل­‏هاي لينوكس، ويندوز، و مكينتاش، و حتي روي يك منشي ديجيتالي شخصي ، آزمايش شده است.


اين نرم­افزار، يك واسط همگون براي بسياري از الگوريتم­‏هاي يادگيري متفاوت، فراهم كرده است كه از طريق آن روش­‏هاي پيش پردازش، پس از پردازش و ارزيابي نتايج طرح هاي يادگيري روي همه مجموعه هاي داده­‏ موجود، قابل اعمال است.


نرم افزار Weka ، پياده سازي الگوريتم­‏هاي مختلف يادگيري را فراهم مي‏­كند و به آساني مي‏­توان آنها را به مجموعه هاي داده خود اعمال كرد.


همچنين، اين نرم­افزار شامل مجموعه متنوعي از ابزارهاي تبديل مجموعه­‏ هاي داده­‏ها، همانند الگوريتم­‏هاي گسسته سازي مي‏­باشد. در اين محيط مي‏­توان يك مجموعه داده را پيش پردازش كرد، آن را به يك طرح يادگيري وارد نمود، و دسته­بندي حاصله و كارآيي­اش را مورد تحليل قرار داد. (همه اين كارها، بدون نياز به نوشتن هيچ قطعه برنامه­اي ميسر است.)


اين محيط، شامل روش­‏هايي براي همه مسايل استاندارد داده كاوي مانند رگرسيون، رده‏بندي، خوشه­بندي، كاوش قواعد انجمني و انتخاب ويژگي مي‏­باشد. با در نظر گرفتن اينكه، داده­‏ها بخش مكمل كار هستند، بسياري از ابزارهاي پيش پردازش داده­‏ها و مصورسازي آنها فراهم گشته است. همه الگوريتم­‏ها، ورودي­‏هاي خود را به صورت يك جدول رابطه­اي به فرمت ARFF دريافت مي‏­كنند. اين فرمت داده­‏ها، مي‏­تواند از يك فايل خوانده شده يا به وسيله يك درخواست از پايگاه داده­اي توليد گردد.


يكي از راه­‏هاي به كارگيري Weka ، اعمال يك روش يادگيري به يك مجموعه داده و تحليل خروجي آن براي شناخت چيزهاي بيشتري راجع به آن اطلاعات مي‏­باشد. راه ديگر استفاده از مدل يادگيري شده براي توليد پيش‏بيني­‏هايي در مورد نمونه­‏هاي جديد است. سومين راه، اعمال يادگيرنده­‏هاي مختلف و مقايسه كارآيي آنها به منظور انتخاب يكي از آنها براي تخمين مي‏­باشد. روش­‏هاي يادگيري Classifier ناميده مي‏­شوند و در واسط تعاملي Weka ، مي‏­توان هر يك از آنها را از منو انتخاب نمود. بسياري از classifier ‏ها پارامترهاي قابل تنظيم دارند كه مي‏­توان از طريق صفحه ويژگي‏‏ها يا object editor به آنها دسترسي داشت. يك واحد ارزيابي مشترك، براي اندازه‏گيري كارآيي همه classifier به كار مي‏­رود.


پياده سازي­‏هاي چارچوب­‏هاي يادگيري واقعي، منابع بسيار ارزشمندي هستند كه Weka فراهم مي‏­كند. ابزارهايي كه براي پيش پردازش داده­‏ها استفاده مي‏­شوند. filter ناميده مي‏­شوند. همانند classifier ‏ها، مي‏­توان filter ‏ها را از منوي مربوطه انتخاب كرده و آنها را با نيازمندي­‏هاي خود، سازگار نمود. در ادامه، به روش به كارگيري فيلترها اشاره مي‏­شود.


علاوه بر موارد فوق، Weka شامل پياده سازي الگوريتم­‏هايي براي يادگيري قواعد انجمني، خوشه­بندي داده­‏ها در جايي كه هيچ دسته­اي تعريف نشده است، و انتخاب ويژگي‏هاي مرتبط در داده­‏ها مي‏­شود.
+ نوشته شده در  دوشنبه بیست و یکم آذر 1390ساعت 15:0  توسط آزیتا سپاهی  |