داده کاوی چیست؟
در داده کاوی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که، کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود.
داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد.
در نتیجه داده کاوی تئوریهای پایگاه داده ها، هوش مصنوعی، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود.
اصطلاح داده کاوی زمانی بکار برده می شود که با حجم بزرگی از داده ها، در حد مگا یا ترابایت، مواجه باشیم. کاوی به عنوان یکی از روشهای کشف دانش است
داده کاوی را تعریف کنید؟
فرایند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم می باشد.
کاربردهای داده کاوی در محیطهای واقعی را تعریف کنید؟
خرده فروشی :
-تعیین الگوهای خرید مشتریان
-تجزیه و تحلیل سبد خرید بازار
بانکداری :
-پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
-تشخیص مشتریان ثابت
-تعیین میزان استفاده از کارتهای اعتباری بر اساس گروه های اجتماعی
بیمه :
-تجزیه و تحلیل دعاوی
-پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
پزشکی :
-تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
-تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت
مراحل داده کاوی را شرح دهید؟
مرحله اول: Business Understanding
مهمترین مرحله فرایند می باشد. در ابتدا بـاید صورت مسئله دانست تا پروژه داده کاوی صورت پذیرد.
چه کسانی بر روی پروژه تاثیر میگذارند و باید دانش بـاشد تا چگونگی عمل نیز مشخص شود.
مرحله دوم: Data Understanding
مربوط به مفهوم داده ها می باشد.
جمع آوری داده های اولیه واصلی، شرح و توصیف داده ها، کاوش داده ها، تحقیق در مورد کیفیت داده ها
مرحله سوم: Data Preparation
مربوط به آماده سازی داده ها می باشد.
انتخاب داده ها، تمیز کردن داده ها، تبدیل داده ها، تلفیق داده ها به صورتی که کدگذاری و نام گذاری داده ها حالت استاندارد و یکسان داشته باشد.
مرحله چهارم : Modelling
مربوط به مـدلسازی پس از جمـع آوری داده ها و پیش بینی می باشد.
مرحله پنجم : Evaluation
مدل را ارزیابی می کنیم. ببینیم آیا به هدف رسیده ایم یا نه؟
در قسمتهایی که به هدف نرسیده ایم، بعضی جاها را تکرارکنیم یا بعضی وقتها ممکن است مجبور به تغییرهدف شویم و یا گاهی مجبور به تغییر اعـداد اولیه شویم.
مرحله ششم : Deployment
مربوط به چگونگی استفاده از مدل است.
زمانی به این مرحله می رویم که به هدف رسیده باشیم.
گسترش برنامه، نگهداری و قوت برنامه، تولید گزارش نهایی، تجدیدنظر و نشریه کردن پروژه سطوح متفاوتی از تحلیل
چرا به سراغ دادهکاوی
رفتهایم؟
-حجم دادهها (Data) با سرعت زیادی در حال رشد است.
-اطلاعات (Information) ما در مورد این دادهها کم است.
-دانش (Knowledge) ما نسبت به این اطلاعات صفر است.
با چه امکاناتی می توان به داده کاوی دسترسی پیدا کرد؟
با تکنولوژی ذخیره و بازیابی اطلاعات داده کاوی محقق می شود و با:
-افزایش روزافزون حجم اطلاعات ذخیره شده
-تنوع بسیار زیاد در اطلاعات موجود
-بانکهای اطلاعاتی
-فایلهای چندرسانهای (تصاویر متحرک، فایلهای صوتی)
-اطلاعات متنی و فاقد ساختار