کاربرد علم آمار در داده کاوی
مقدمه و مقا یسه آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3] تهیه کننده : مهرداد حمیدی کاربرد آمار دا داده کاوی مقدمه و مقا یسه آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3] همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم. تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسايل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3] در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5]. در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود. به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1] بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود. روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.[7]،[8] در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید. روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است. مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند. تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining در جدول اريه شده است: ِِدیگر روشهای Data mining روشهای آماری بدون فرض اولیه داشتن فرض اولیه در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی تنها برای داده های عددی کاربرد دارند در محدوده وسیع تری از داده ها در محدوده کوچکی از داده ها Data mining به دادهای درست clean data بستگي دارند حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data استفاده از شبكه عصبي روشهای رگرسیون و استفاده از معادلات استفاده ازData visulization استفاده از چارتهای دو بعدی و سه بعدی استفاده از روشهای یادگیری ماشین و هوش مصنوعی استفاده از روابط ریاضی در یادگیری غیر نظارتی کاربرد بیشتر دارد در descriptive statisticalوcluster analysis کاربرد دارد. همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند. تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد. با ارايه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM می پردازیم . كاربردهاي روشهاي آماري: Data mining معمولا وظايف يا به عبارت بهتر استراتژهاي زير را در داده ها بكار مي برد: - توضيح و تفسير (description) - تخمينestimation) ) - پيش بينيprediction) ) - كلاس بنديclassification) ) - خوشه سازي (clustering) - وابسته سازي وايجاد رابطه (association) در جدول زير استراتژي ها و روشهاي هر استراتژي مشخص شده است: روشها استراتژيها تحليل داده ها توضيح وتفسير تحليل هاي آماري تخمين تحليل هاي آماري پيش بيني الگوريتم نزديك ترين همسايه كلاس بندي درخت تصميم كلاس بندي شبكه هاي عصبي كلاس بندي خوشه سازي k-mean خوشه سازي شبكه هاي kohonen خوشه سازي وابسته سازي و ايجاد رابطه رابطه سازي البته بايد گفت كه روشهاي data mining تنها به يك استراتژي خاص محدود نمي شوندو نتايج يك را همپوشاني بين روشها نشان مي دهد. براي مثال درخت تصميم ممكن است كه دركلاس بندي تخمين وپيش بيني كاربرد داشته باشد. بنابراين اين جدول را نبايد به عنوان تعريف تعريف تقسيم بندي از وظايف در نظرگرفته شود بلكه به عنوان يك خروجي از آنچه كه ما به عنوان وظايف dataminig آشنايي پيدا كرديم در نظر گرفته مي شود. همانگونه كه ازجدول پيداست روشهاي آماري در مباحث تخمين وپيش بيني كاربرد دارند. در تحليل آماري تخمين وپيش بيني عناصري از استنباطهاي آماري هستند.استنباطهاي آماري شامل روشهايي براي تخمين وتست فرضيات درباره جمعيتي از ويژگيها براساس اطلاعات حاصل از نمونه است .يك جمعيت شامل مجموعه اي از عناصر از قبيل افراد ايتم ياداده ها يي كه دريك مطالعه خاص آمده است. بنابراين در اينجا به توضيح اين دواستراتژي مي پردازيم. 1- تخمين: در تخمین به دنبال این هستیم که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی [1] .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود. تكنيكهاي نظارتيDM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند. روشهاي آماري مورد استفاده دراين مورد بطوركلي شامل تخمين نقطه و فا صله اطمينان ميباشد. تحليل هاي آماري تخمين وتحليل هاي يك متغيره و...از اين جمله مي باشند. در توضيح اينكه چرا به سراغ تخمين مي رويم بايد گفت كه مقدار واقعي پارامترها براي ما ناشناخته است.مثلا مقدار واقعي ميانگين يك جامعه مشخص نيست.داده ها ممكن است كه بطور رضايت بخشي جمع آوري نشده باشد يا به عبارتي warehouse نشده باشد. به همين دليل تحليل گران از تخمين استفاده ميكنند. در خيلي از موارد تعيين ميانگين مجموعه اي از داده ها براي ما مهم است.مثلا ميانگين نمرات درسي يك كلاس،ميانگين تعداد نفراتي كه در يك روز به بانك مراجعه مي كنند،متوسط مقدار پولي كه افراد دريك شعبه خاص از بانك واريز مي كنند وموارد اينچنيني. زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند. در تخمین نیازمند داشتن اندازه نمونه هستیم،در تعیین اندازه نمونه می توان از رابطه زیر استفاده کرد: که p احتمال رخدادو e درصد خطای پذیرفته شده است که در اینجا 5% در نظر می گیریم. پر کاربرد ترین تخمین زننده ،تخمین زننده میانگین جامعه است،ساده ترين رابطه اي كه براي ميانگين داده ها مي توان نوشت بدين صورت است: كه n تعداد نمونه ها و مقدارهر نمونه است.در اينجا تمام نمونه ها ارزش يكساني دارند ولي گاهي اوقات نياز است كه نمونه ها بر اساس اهميتي كه دارند وزن دهي شوند. بدين صورت : كه ها در اينجا وؤن هر نمونه i ام هستند. در این حالت برای تعیین مجموع اوزان نمونه ها به جایn ، می باشد. در مواردي نيز تخمين فاصله براي ما اهميت دارد.فاصله اطمينان شامل فاصله اي است كه با درصدي از اطمينان مي توانيم بگوييم كه مقدار يك پارامتر درون اين اين فاصله قرار مي گيرد.به عبارت دیگراگر چه برآورد نقطه ای طریقه متداول توصیف .برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است.مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است.و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد پارامتر را با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس ،یا اطلاعات دیگری درباره توزیع نمونه گیری کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم. یک براورد فاصله ای ،فاصله ای به شکل است که درآن و مقادیر متغییرهای تصادفی مناسبی برای هستند،منظور از مناسب آن است که به ازای احتمال مشخصی مانند داریم: برای مقدار مشخص ، را یک فاصله اطمینان برای می نامیم. همچنین ، درجه اطمینان ،و دو سر فاصله کرانهای اطمینان پایینی و بالایی نامیده می شود.مثلا برای ، درجه اطمینان 95%است ویک فاصله اطمینان 95% بدست می آوریم.فاصله اطمینان از اکثر توزیع ها ،همانند توزیع نرمال ،خی دو،t استودنت وتوزیع F و... استفاده می کند.مثلا اگر مقدار میانگین یک نمونه تصادفی به اندازه n از جامعه نرمال ووایانس معلوم باشد آنگاه یک فاصله اطمینان برای میانگین جامعه است.[6] در خيلي از موارد تعيين نقطه دقيق يك پارامتر ممكن نيست،ولي فاصله اطمينان ،اطمينان ما را از قرار گرفتن مقدار پارامتر در يك بازه تضمين مي كند.فاصله اطمينان را مي توان براي اكثر توزيع ها از جمله توزيع خي دو،توزيع t استودنت وتوزيع F و ...بدست آورد. 2- پيش بيني) prediction ( : هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی.[1] این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی data mining كه براي كلاس بندي و تخمين مناسب هستند در واقع كار پیش بيني انجام مي دهند. آنچه از كتابهاي آماري وdata minig تحت عنوان پيش بيني برمي آيد رگرسيون و مباحث مر بوط به آن است .در واقع در اكثر اين كتابها هدف اصلي از انجام تحليل هاي آماري براي داده كاوي، رگرسيون داده هاست واين بعنوان وظيفه اصلي متد هاي آماري معرفي مي شود. اهداف تحليل رگرسيون: با انجام رگرسيون مي خواهيم اهداف زيررا دنبال كنيم: 1- بدست آوردن رفتار متغييرy توسط متغيير x ،يعني اينكه متغيرy با تغييرx در نمونه ها چه رفتاري را از خود نشان مي دهد.مثلا در نمونه اي اين رفتار خطي است يا اينكه شكل منحني خواهد داشت. 2- پيش بيني بر اساس دادهها براي نمونه هاي آينده،كه هدف اصلي در داده كاوي از طريق متدهاي آماري است.مثلا از روي اطلاعاتي مثل داشتن كارت اعتباري يك فرد جديد،نوع جنسيت او،سن فرد،ميزان درآمد ساليانه او بتوان حدس زد كه اين فرد از بيمه عمر استفاده مي كند يا خير. ويا اينكه با داشتن اطلاعات در مورد داشتن يا نداشتن كارت اعتباري و بيمه عمر، سن فردبتوان جنسيت فرد را تعيين كرد. 3- استنباط استنتاجي يا تحليل حساسيت، تعيين اينكه اگرx به اندازه خاصي تعيير كندy تا چه اندازه تغيير خواهد كرد.هدف از فهميدن اينكه چگونه تغييرات y تابعي ازx است. بايد توجه داشت كه نوع تغييرات مدل گرسيوني خاصي را مي دهد. اهداف مدلسازي براي تشريح ارتباط بين x وy استفاده از نتايج مدل براي پيش بيني كاربردهاي تخمين عبارت است.اما استنباط استنتاجي يك مقوله ظريف تري است.زماني كه به استنباط آماري فكر ميكنيم در واقع درباره متغيير رفتاري و متغيير هاي كنترل فكر مي كنيم. متغييرهاي رفتاري مشخصه هايي را ارايه ميكنندكه تبحروتجربه خاصي دارنديا اينكه قابليت آن نبحر را دارند.مثلا مقدار دز دارو كه براي بيمار استفاده مي شود در تجربه پزشكي .همچينين متغييرهاي كنترل ديگر ويژگي ها در يك محيط آزمايشي را اندازه ميگيرند،از قبيل وزن بيمار كه قبل از رفتار اندازه گيري مي شود. اگر ما براي يكي از متغيير هاي رفتاري، كنترل انجام دهيم، رگرسيون ما احتمالا استنباط هاي استنتاجي را درست حدس ميزند.و اگر ما علاقه مند به هر دو مورد پيش بيني انتخاب سهم وتخمين اثرات علتها باشيم تايید هر دومورد را بعنوان متغييرهاي خروجي كه همپوشاني دارند در نظر مي گيريم. روشهاي مختلف رگرسيون براي داده كاوي وجود دارد .رگرسيون خطي بيشترين كاربردرا دارد وهمچنين مشتقات آن حايزاهمييت است.يك نمونه از آن مشتقات آن رگرسيون خطي سلسله مراتبي يا رگرسيون چند سطحي است. اين روش يكي از ابزارهاي تحليل دادههاي پيچيده از قبيل افزايش فر كانس در تحقيقات مقداري را شامل مي شود.مدلهاي رگرسيون چند سطحي براي حالتهايي كه همپوشاني در سطوح مختلف وجود دارد مفيد است. براي مثال اطلاعات آموزشي ممكن است اطلاعاتي از قبيل اطلاعات فردي دانش آموزان (نام، نام خانوادگي و در كل پيش زمينه خانوادگي)،اطلاعات سطح كلاس از قبيل ويژگي هاي معلم وهمچينين اطلاعات درباره مدرسه همانند سياست آموزشي و... باشد. حالت ديگر مد لهاي چند سطحي ،تحليل دادههاي بدست آمده از نمونه هاي خوشه بندي شده است. يك خانواده از مدلهاي رگرسيون، به عنوان متغييرهاي شاخص بري رتبه بندي يا خوشه بندي است علاوه بر اينكه همپوشاني را اندازه مي گيرد. با نمونه خوشه بندي شده مدلسازي چند سطحي براي توسعه نمونه هايي كه داخل خوشه نيستند،لازم است.[4] در روش رگرسيون چند سطحي يا سلسله مراتبي محدوديتي براي تعداد سطوح تغيير كه مي تواند انجام شود،وجود نداردروشهاي بيزي در تخمين پارامترهاي مجهول كمك مي كند،هرچند كه محاسبات پيچيده اي دارد.ساده ترين توسعه از رگرسيون همپوشاني مجموعه اي از متغيرهاي شاخص براي كلاس بندي نمونه هاي آموزشي يا رتبه بندي وخوشه بندي درنمونه هاي داده شده است.همچنين به عنوان توسعه رگرسيون خطي در نظر گرفته مي شود،كه در ادامه به توضيح آن مي پردازيم[4] 1- رگرسیون خطیLinear regression)) یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند. در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم. روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است : (1) f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b کهxها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت (2) y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept fromمی گویند. یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است؛ در شکل مشخص شده است: e ei yi axi+b بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم : مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر. آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.[2] بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند،نباید با هم در تعیین ارزش متغیر خروجی بکار بره شوند.واز طرفی کاربردرگرسیون خطی منوط به همبستگی متغیر های ورودی و خروجی است.در تحلیل همبستگی نرمال مربوط به داده های زوج شده ،با استفاده از روابط ریاضی می توان به ،که بیانگر ضریب همبستگی نمونه ای ا ست رسید. رابطه چنین است : که به ترتیب میانگین متغیر های ورودی و خروجی هستند. را معمولاَُبا rنمایش می دهند و رابطه ساده شده آن به این صورت است: كه: وشدت بستگی بین x,y را اندازه مي گیرد در صورتی که 0=r باشد،این دو متغیر (x,y) نسبت به هم نا همبسته اند ،و هر چه صفر فا صله می گیرد، بطرف 1+و 1- میزان همبسته بودن آنها زیادتر می شود،و 1+همبستگی خطی مثبت و 1- همبستگی خطی منفی را نشان می دهد.در حالت توزیع نرمال دو متغیر، صفر بوده (r=0) r مستقل بودن این دو متغیر را از هم نشان می دهد. رابطه روبرو را در نظر بگیرید: وقتی که باشد،نتیجه می شودکه و این بدان معنی است که همبستگی خطی کاملی بین xوy موجود است.برای تفسیر مقادیرr بین 0و1+ یا 0و-1 ، این معادله رانسبت به حل کرده نتیجه را در 100 ضرب می کنیم بنابراین داریم: که در آ ن تغییر کلی yها و تغییر شرطی yها را به ازای مقادیر ثابت xاندازه می گیرند..بنابراین آن قسمت از کل yها که در اثر بستگی به xقابل توضیح است اندازه می گیرد .پس 100r2درصد تغییر کلی ا زyها ستکه در اثر بستگی به xقابل توضیح است. مثلاُ وقتی r=%5 در این صورت 25% از تغییر yهاست که در اثر بستگی بهx قابل توضیح است.و وقتی r=%7 در این صورت 49 درصد از تغییر yها در اثر بستگی به x قابل توضیح است.بنابراین می توانیم بگوییم که یک همبستگی r=%7 تقریباُ دو برابر قوی تر یک همبستگیr=%5 است.[6] همچنین تحلیل رگرسیونی نرمال برای حالت چند گانه رابطه مفید زیر را که بر اساس توزیع tبدست می دهد، ا رایه می کند: که در این رابطه ضریب متغیر xi و مقدار عدد ثابت در معادله رگرسیون است. nتعداد نمونه ها،k تعداد متغیر های ورودی(xiها)است. همچنین در نظر بگیرید که یک سری داده متشکل از k متغیر ورودی و یک متغیرخروجی که تعداد هر نمونه از متغیر n تا باشد،با ضرایب و i=0,1,…,kبصورت ماتریس به شکل زیر نمایش داده شود: همچنین را ترانهاده و را نهادۀ و B=( در نظر بگیرید.بدین ترتیب و cii درایه ماتریس معکوس x یعنی است.باید درایه c22 در این ماتریس را حساب کنیم. عبارتt دارای توزیع tبا n-k-1درجه آزادی است.که یک آمارۀ مناسب برای آزمون میزان تاثیری که ضریب هر یعنی در معادله رگرسیونی دارد.[6] 2-Logistic Regression این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binaryهستند،مورد توجه قرار می گیرد.در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود. در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت،باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد. با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود. معادله خطی را می توان بدین صورت نوشت: که بیانگر احتمال اینکه متغیروا بسته (y) مقدار 1 را بگیرد به شرط اینکه ترکیبی ا ز xرا داشته باشیم.بصورت کلی تر و برای حذف محدودیت های مسأله ها حالت احتمالی y=1 را نسبت به y=0 در نظر می گیریم یعنی به صورت ولگاریتم طبیعی این عبارت را برابر قرار می دهیم که x برداری بصورت است ،ودر نهایت از رابطهln بالا مقدا ر بدست می آید که برابر است با: این معادله ،معادله Logistic regression را تشکیل می دهد. اگر بخواهیم منحنی این معادله را نشان دهیم بصورت روبرو می باشد: که بیانگرغیر خطی بودن این معادله است.در نهایت برای فهم بهتر مسأ له مثا لی ارائه می شود. داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت bرا توسط تابع LINESTبدست می آ وریم داده ها و نتایج به این صورت می باشد؛ Computed probability Life insurance promotion age sex Credit card insurance income instance 0.007 0 45 1 0 40 1 0.987 1 40 0 0 30 2 0.024 0 42 1 0 40 3 1.000 1 43 1 1 30 4 0.999 1 38 0 0 50 5 0.049 0 55 0 0 20 6 1.000 1 35 1 1 30 7 0.584 0 27 1 0 20 8 0.005 0 43 1 0 30 9 0.981 1 41 0 0 30 10 0.985 1 43 0 0 40 11 0.380 1 29 1 0 20 12 0.999 1 39 0 1 50 13 این مثال 4 مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است: ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691 با این معادله می توان نتایج Life Insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج ماسبه شده با متغیر وا بسته هم خوا نی زیادی دارد.حال اگر نمونه جدیدی به این صورت داشته باشیم: In cone=35k credit card Insuranee=1 sex=0 age=39 با محاسبات احتمال بدست آمده برابر 0.999می باشد.که این فرد یک کاندیدا را برای بیمه عمر( Life (Insuranee promotion می باشد حا لت دیگر اینکه نمونه جدید به صورت : Ineome=35k credit card Insuran =0 sex=1 age=39 باشد در این حالت مقدار احتما لی بدست آمده برابر0.035است که نشان می دهد یک مرد 39 ساله که در آمد سالیانه او 35000است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست. 3- Bayse classsifire این مقدار یکی از روشهای ساده یادگیری نظارتی است،که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز ا گریکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.که این تئوری به صورت زیر است: که در این جا H متغیر وابسته است و E بوسیله مقدار ویژگی های ورودی تعیین می شود. Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.در ادا مه با ا رائه یک مثال می توان به توضیح این روش پرداخت. دراینجا نیز ابتدا متغیر خروجی را تعیین می کنیم.فرض کنید که یک سری داده داریم، و با استفاده از آن داده ها می خواهیم برای یک نمونه جدید به شکل زیر،جنسیت فرد را تعیین کنیم: Magazine promotnio=Yes watch promotion=Yes Life Insurance Promotion=No credit card Insurance=No Sex=? اگر بخواهیم این نمونه را با فرمولBayse classifier بنویسیم داریم: که برابر است با: و همچنین باید جنسیت زن نیز محاسبه شود بعنی عبارت زیر همانند روش فوق باید را محاسبه کرد. با محاسبه این احتمال داریم: و چون 281%<593%بنابر این احتمال اینکه جنسیت فرد در نمونه جدید مرد باشد بیشتر است. پس احتمال اینکه یک نمونه با این مشخصات مذکر باشددو برابر مونث بودن آن است. مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمالp و یک مقدار kبه مخرج اضافه می کند.بدین صورت : می باشد که kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیزp بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدارp برابر0.5 می باشد. نیز همان مقدار های یا است.مثلاُ اگر مقدار باشد آنگاه برابر خواهد بود. علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد.یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم،در این روش این مشخصه را کلاُ حذف می شود. حالت دیگری که می توان این روش را بکار برد وجود مشخصه هایی با داده های عددی در بین مشخصه های ورودی است.مثال زیر که یک نمونه جدید است در نظر بگیرید: Magazine promotion=Yes , wateh promotion=Yes Life insurance promotion=No , credite card Insurance=No, Age=45 یعنی همان نمونه قبلی با این تغییر که سن نیز به مشخصه های ورودی اضافه شده.در اینجا با استفاده از این روش ابتدا باید باید توزیع مشخصه ورودی تعیین کنیم،که معمولاُ فرض می شود که مشخصه از توزیع نرمال پیروی می کند.مثلاُ مورد روبرو را می خواهیم حساب کنیم: که برابر است با: (عبارت از مثال قبلی که age جز متغیرهای ورودی نبود، بدست آمده) در اینجا ابتدا باید را حساب کنیم که با بدست آوردن میانگین و واریانس داده های سن داریم: با قرار دادن در فرمول توزیع نرمال داریم: که این مقدار برابر با0.03 است و به همین ترتیب برای حالت نیز حساب می کنیم. نتیجه لازم را از داده های خروجی می گیریم.با حساب کردن احتمال قائده بیز داریم: که در اینجا نیز احتمال مرد بودن بیشتراست. ابزار رگرسیون خطی : (توضیح تابع LINEST) برای اجرای رگرسیون خطی می توان از نرم افزار Excelاستفاده کرد.در قسمت توابع Excle،تابع LINEST برای اجرای یک رگرسیون خطی ایجاد شده است.در اینجا به چگونگی کار با این تابع و استفاده از نتایج بدست آمده اجرای آن می پردازیم. 1- روش کار با نرم افزار: بعد از باز کردن Excel داده هایی را که می خواهیم بوسیلهُ آنها رگرسیون خطی را اجرا کنیم،وارد می کنیم و نیز محلی را که می خواهیم داده ها خروجی نشان داده شوندتعیین می کنیم سپس از منوی Insert، furctionرا انتخاب می کنیم.در قسمت select a cotegoryمقولهُ statistical را انتخاب می کنیم.با انجام این کار تابع های آماری در قسمت پایین همین پنجره نمایش داده می شود.از بین تابع ها تابع LINESTرا انتخاب می کنیم و OK می کنیم. در پنجره LINEST چهار قسمت وجود دارد که باید پر شوند. در قسمت اول باید ستون متغیر وابسته (y) را مشخص می کنیم.مثلاُ اگر دادهای شما در ستونEاز ردیف 2تا12هستند،در این قسمت می نویسیم E2:E12، درقسمت دوم ستون متغیرهای مستقل ها را به همین ترتیب مشخص می کنیم.قسمت سوم مقدار عدد ثابت رگرسیون را به ما می دهد،اگر این مقدار True انتخاب کنیم ،مقدار عدد ثابت را بر میگرداندواگر False باشدمقدار عدد ثابت صفراست. درقسمت چهارم(state) اگر عبارتTure تایپ می شوداطلاعاتی را در مورد نتایج رگرسیون بدست می دهد که مفید است،مثلاُ ضریب همبستگی،بین مقدار تخمینی و مقدار واقعی متغیر وابسته،مقدار آماره Fو...که با مثال بیشتر توضیح داده می شودواگر این مقدار False باشد Excelاین نتایج را ارائه نمی دهد.پس از آنکه هر چهار قسمت پر شد،با نگه داشتن ctrl+shiftو زدنinter(یاokکردن) نتایج اجرای رگرسیون دیده می شود.برای فهم بهتر این ابزار در زیر مثالی آورده می شود. مثالی را در نظر بگیرید که 4 متغیر مستقل و یک متغیر وابسته داده ها مربوط به ساختمان اداری می باشد که با داده های ورودی که می گیریم،قصد داریم،ارزش یک ساختمان را به واحد پولی دلار تخمین بزنیم. متغیرهای تا و به شرح زیر می باشند: توضیح متغیر قیمت ساختمان Y میزان فضای ساختمان X1 تعداد اتاقهای ساختمان X2 تعداد ورودی ها X3 میزان عمری که ساختمان داشته به سال X4 این داده ها بدین شکل در Excel نوشته می شود. سپس ناحیه ای را که می خواهید داده ها خروجی در آنجا نوشته شود انتخاب کنید سپس با آدرس زیر پنجرهُ تابع LINEST را باز کنید. با انتخاب LINEST از مقوله statistical،OK کنید، تا پنجره LINEST باز شوددرقسمتs known-yعبارت E2:E12 و در قسمتkown-x s عبارت A2:D12 را تایپ کنید،سپس در قسمت const وstats عبارت True را تایپ کنید. با نگه داشتن ctrl+shift و زدن ok نتایج در جایی که قبلا" انتخاب کردید، نوشته می شود. 231.8145 2709.2 12618.39 25.5609 56587.02 13.72808 549.07 413.9391 5.617636 12661.69 0.996544 1004.233 #N/A #N/A #N/A 432.4997 6 #N/A #N/A #N/A 1.74E+09 6050904 #N/A #N/A #N/A 2- تو ضیح نتایج خروجی: ردیف اول ضرایب متغیر های مستقل و عدد ثابت bرا نشان می دهد.در واقع همان ها وb در معادله هستند که بصورت بر عکس از راست به چپ نوشته شده اند.یعنی از سمت راست ترین عدد مقدارb وعدد بعدی ضریبx1 کهspace floorمی باشد نشان داده شده و آخرین عدد سمت چپ ضریبx4 یعنی Age می باشد. ردیف دوم نتایج خروجی خطای استاندارد هر ضریب و عدد ثابت bرا نشان می دهد.که میزان انحراف نتایج هر ضریب از مقدار میانگین آن نشان می دهد و مثلا"عدد 13.72808 میزان انحراف ضریب x4 را از مقدار میانگین آن نشان می دهد. داده اول ردیف سوم میزان ضریب همبستگی بین مقدار تخمینی متغیر وابسته و مقدار واقعی این متغیر را نشان می دهد که بین -1و1 می باشد و هر چه این ضریب به1,-1 نزدیکتر باشد نشان می دهد که معادله رگرسیون پیشگویی خوبی برای مقدارهای واقعی متغیر وابسته است و هر چه به صفر نزدیک تر باشد نشان می دهد که روش رگرسیون خطی نامعتبر است که یک معیار برای فهمیدن اینکه رگرسیون خطی مناسب است یا خیر می باشد.دادهُ دوم در همین سطر خطای استاندارد متغیر وابسته را از میانگین آن نمایش می دهد. دادهُ اول سطر چهارم یکی از داده های خروجی مفید است و معیاری خوبیست برای پی بردن به اینکه آیا رگرسیون خطی مناسب است یا خیر. این مقدار آماره F را بدست می دهد.این آماره بعنوان توزیع نمونه گیری دومتغیرتصادفی مستقل که بر درجه آزادیشان تقسیم شده اند،مورد مطالعه قرار می گیرد.برای تفسیر Fباید به دو درجه آزادی دسترسی داشته باشیم،این مقادیر اغلب جدول توزیعF را به دو مقدار V1 وV2 تفکیک می کند.مقدارV1 تعداد متغیر های مستقل می باشد که در اینجا برابر4 میباشد وv2 حاصل تفریق تعداد کل دادهها از کل متغیرهانیز5تا می باشد(4تا مستقل و یک وابسته) پس v2 برابر است با 6 =5-11 در اینجا از سطح 5% نیز برای آزمون آماره Fاستفاده می شود.با این توضیح می توان مقدار6و4و5% F را ازجدول توزیع F که در کتابهای آمارموجود می باشد بدست آورد.خلاصه مطلب اینکه اگر مقدار اول داده اول سطر چهارم از مقدار F0/05,V1,V2که از جدول بدست می آید بزرگتر باشد،معادله رگرسیون به دقت توانسته ارزش متغیر وابسته را تعیین کند یا به عبارتی رابطه مشاهده شده بین متغیر های مستقل ومتغیر وابسته اتفاقی نیست واگر این مقدارکوچکترباشداین روش، روش معتبری برای داده ها نیست،یا به صورت آماری می گوییم فرض صفر را مبنی بر اتفاقی بودن رابطهُ متغیر های مستقل و متغیر وابسته را نمی توان رد کرد. داده دوم در همین سطر درجه آزادی V2 را نشان می دهد.در سطر آخر نیز نشان دهندهُ مجموع مربعات رگرسیون و مجموع مربعات باقیمانده است که از لحاظ آماری فرمول آن بدین شکل است: که میانگین است و مقدار هر داده می باشد

