داده کاوی (Data Mining (Data Analytics

داده کاوی یا DATA MINING یکی از بهترین ابزارهای مهندسی صنایع می باشد و همچنین کاربرد بسیاری در بازار کار مهندسی صنایع دارد. آموزش داده کاوی یکی از مهمترین سرفصل ها در دوره های آموزشی مهندسی صنایع می باشد.

فرآیند مرتب سازی در مجموعه ای از داده های بزرگ برای شناسایی الگوها و مشخص کردن روابط برای حل مشکلات آنالیز داده ها است. ابزارهای داده کاوی این امکان را برای شرکتها فراهم میسازد تا روند آینده خود را پیشبینی کنند.

انواع متعددی از داده ها را میتوان در پایگاههای داده جمع آوری نمود و باتوجه به رشد روزافزون داده ها روشهای سنتی دیگر برای آنالیز پاسخگو نیستند. درحال حاضر داده کاوی مهمترین فناوری برای استخراج دانش از این مقدار حجیم داده است.

داده کاوی رشته جدیدی است که با تحقیقات در رشته های علوم کامپیوتر، آمار، مدیریت پایگاه داده و یادگیری ماشین ایجاد شده است. تعاریف متعددی برای داده کاوی ارائه شده است که به چند مورد اشاره مینماییم.

داده کاوی به معنتی جستجو کردن در پایگاههای داده جهت پیدا کردن الگو در میان داده ها است. همچنین به معنی تحلیل و تجزیه روابط میان داده هایی است که قابل مشاهده هستند. در جایی دیگر داده کاوی فرایندی معرفی شده است که از ابزارهای مختلف تحلیل برای پیدا کردن روابط بین داده ها و الگوها استفاده میکند.

 داده کاوی استخراج دانش موجود در موضوعات مورد بررسی است و میتواند انواع متفاوتی داشته باشد. الگوهای پیدا شده معمولا نشان دهنده روابط میان ویژگیهای یک سیستم هستند.

انواع روشهای داده کاوی معمولا از تکنیک آموزش براساس استنتاج استفاده میکنند.

برخی منابع اصطلاح کشف دانش در پایگاه داده (Knowledge Discovery in DB (KDD را جایگزین داده کاوی کرده اند. دراصل KDD یکی از روشهای داده کاوی است که مراحل مختلفی دارد در مرحله اول داده ها تهیه و استخراج میگردند و در مرحله دوم درخصوص کاری که باید انجام شود تصمیم گیری میشود.

مراحل مختلف داده کاوی

  1. اطلاعات گذشته شناسایی میشوند.

  2. پردازش اولیه بر روی داده ها و اطلاعات انجام میگردد، خطاهای داده ها و اطلاعات مشخص شده و تصحیح میگردند و پس از آن اطلاعات درست با داده های اشتباه جایگزین میشوند. این مرحله زمان زیادی از داده کاوی را به خود اختصاص میدهد.

  3. به طور کلی داده ها از منابع مختلفی گردآوری میشوند و برای انجام بهتر داده کاوی باید آنها را بطور مناسب در یک مجموعه انبار نمود که به آن یکپارچه سازی داده ها گفته میشود.

  4. در این مرحله با توجه به هدف داده کاوی داده های مناسب انتخاب میگردند.

  5. ایجاد و یافتن ویژگیهای مناسب در داده ها و نمایش داده ها به نحوی که بتوان داده کاوی را انجام داد.

  6. عملیات داده کاوی شامل طبقه بندی، پیشبینی و… انتخاب میگردد.

  7. در این مرحله روش مناسب برای داده کاوی نتخاب میگردد. روشی مانند درخت تصمیم و یا روش شبکه های عصبی

  8. عملیات داده کاوی و پیدا کردن الگوی مناسب شروع میشود.

  9. پس از بدست آمدن الگوها عملیات تحلیل و ارزیابی بر روی آنها انجام گردیده و الگوهایی که نامناسب هستند حذف میگردند.

  10. درنهایت تفسیر و نتایج و استخراج اطلاعات انجام میگردد.

به منظور تسهیل و بهبود فرایند داده کاوی آماده سازی داده ها یکی از مراحل اساسی تلقی میشود. بسیاری از کارشناسان داده کاوی در اینکه آماده سازی داده ها یکی از بحرانیترین مراحل موجود در فرایند استخراج دانش است، اتفاق نظر دارند. نامفهوم بودن داده ها و استفاده نادرست از ابزار داده کاوی، میتواند این فرایند را در مسیری نادرست قرار دهد. از این رو میتوان گفت داده کاوی فقط راهنمای استفاده از ابزاری برای مشکل مطرح شده نیست، بلکه یک فرایند بحرانی اکتشافی است و به همین دلیل داده ها باید برای این عمل مهم، درست و سازگار تعریف شوند. 

بسترهای دادهای که دارای ابعاد زیادی هستند علیرغم فرصتهایی که به وجود می آورند، چالشهای محاسباتی زیادی را ایجاد میکنند. یکی از مشکلات داده هایی با ابعاد زیاد این است که در بیشتر مواقع تمام ویژگیهای داده ها برای یافتن دانشی که در داده ها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینه ها کاهش ابعاد داده یکی از مباحث قابل توجه در زمینه آماده سازی داده ها باقی مانده است.

انواع داده ها جهت داده کاوی  

عملیات داده کاوی به یک نوع از داده ها محدود و محصور نمیشود و معمولا داده های مختلفی توسط این سیستمها پذیرفته میشوند.  به خاطر داشته باشید تکنیکهای متفاوتی برای نوعهای مختلفی از داده ها مناسب هستند و یافتن یک راهکار کلی، تلاشی بیهوده به نظر میرسد. تکنیکهای داده کاوی را میتوان بر روی داده های غیرساختار یافته مانند متون، نیمه ساختار یافته مانند اسناد و ساختار یافته اعمال نمود.

جداول در پایگاه داده  رابطه ای یکی از رایجترین شکلهای ورودی برای الگوریتمهای داده کاوی محسوب میشوند. در جداول، سطرها نماینده نمونه ها و ستونها ویژگی و صفات خاصی نمونه ها را تشکیل میدهند. اغلب روشهای داده کاوی با این شکل از داده ها مشکلی ندارند. حتی در برخی از کاربردها کاربران ابتدا داده های خود را به این شکل تبدیل و پس از آن الگوریتمهای داده کاوی را بر روی این شکل تبدیل یافته اجرا میکنند.

اکثر روشهای داده کاوی بر روی داده های ساخت یافته مانند جداول متمرکز هستند، حال آنکه حجم وسیعی از اطلاعات در دسترس در دنیای واقعی به صورت نیم هساخت یافته و یا غیرساخت یافته ذخیره شده اند. این پایگاه داده شامل مجموعه ی بزرگی از مستندات متنی مانند کتابها، مقالات و صفحات وب میشوند. این موضوع اهمیت استفاده از تکنیکهای داده کاوی را برای این نوع از داده ها دوچندان کرده است. عموماً این داده ها نیم هساخت یافته هستند. برای مثال یک مقاله را درنظر بگیرید. این سند شامل برخی از ویژگیهای ساخت یافته مانند عنوان، نویسنده، تاریخ چاپ و… و همچنین شامل واژه هایی است که از هیچ ساختاری )صرفنظر از ساختمان یک جمله( پیروی نمیکنند.

انبار داده ها شکل دیگری از داده ها تلقی میشوند که از آنها میتوان به تنهایی نیز جهت تحلیل داده ها استفاده نمود. یک انبار داده مخزنی از اطلاعات جمع آوری شده از چندین منبع دادهای تحت یک شمای واحد است. به دلیل آنکه این داده ها از منابع متفاوتی جمع آوری میشوند، عملیاتی چون پالایش داده ها، حذف نویز و داده های ناقص و تبدیل داده ها به شکلهای مناسب برای داده کاوی بر روی آن انجام میگردد.  

پایگاه داده تراکنشی شکل دیگری از داده هاست و همانطور که از نام آن مشخص است، حاوی مجموعه رکوردهایی است که هر یک از آنها دلالت بر یک تراکنش واحد همراه با اطلاعات دیگر دارد. تحلیل سبد خرید مشتریان فروشگاهها نمونهای بارز از این نوع از داده ها است که در فصلهای چهارم و پنجم شرح داده شده است.

امروزه وب یک مخزن دادهای پویا و نیز ناهمگن محسوب میشود که در آن میتوان انواع داده ها از جمله متن، صدا و تصویر را یافت. وبکاوی پیوند تکنیکهای داده کاوی با این مجموعه از داده ها است. کاوش در داده های چند رسانه ای نیز میتواند به وبکاوی کمک کند. یک سیستم مدیریت پایگاه داده چند رسانه ای مجموعه وسیعی از داده های چند رسانه ای را ذخیره و مدیریت میکند. این داده ها میتوانند صدا، تصویر، ویدئو، گرافیک، متن و حتی داده هایی مانند صفحات وب باشند. برای کاوش در میان داده های چند رسانه ای، ذخیره و بازیابی موثر و سریع داده ها از اهمیت بالایی برخوردار است.  

یک پایگاه داده مکان محور شامل مجموعه داده های زیادی در رابطه با مکان است. نقشه ها، تصاویر پزشکی نمونه ای از این داده ها به شمار میروند. این نوع از پایگاه داده ها دارای یک سری از ویژگیها هستند که میتوان آنرا از پایگاه داده نوع رابطه ای تشخیص داد. امروزه داده کاوی این نوع از پایگاه داده بطور گستردهای مورد استفادهی کاربران قرار میگیرد.

امیدواریم مقاله داده کاوی برای شما در بازار کار مهندسی صنایع مفید واقع گردد در صورت نیاز به مشاوره با شماره های ۰۲۱۷۷۹۳۰۱۲۵ تماس حاصل فرمایید.