متدولوژی و روشهای داده کاوی

مقدمه: داده‌کاوی چیست؟ دروازه‌ای به سوی دانش پنهان

در دنیای امروز که حجم عظیمی از داده‌ها در هر ثانیه تولید می‌شود، صرفاً جمع‌آوری آن‌ها کافی نیست. داده‌کاوی (Data Mining) فرآیند کشف الگوهای ارزشمند، اطلاعات مفید و دانش پنهان از میان این حجم انبوه از داده‌ها است. این کار به سازمان‌ها و کسب‌وکارها کمک می‌کند تا تصمیمات بهتری بگیرند، روندهای آینده را پیش‌بینی کنند و مزیت رقابتی خود را افزایش دهند.

به بیان ساده، داده‌کاوی مجموعه‌ای از روش‌ها و الگوریتم‌هاست که برای تحلیل داده‌ها و استخراج اطلاعاتی استفاده می‌شود که با نگاه ساده قابل مشاهده نیستند.

تکنیک‌های داده‌کاوی می‌توانند به عنوان ابزاری برای توسعه و بهبود کیفیت سیستم آموزشی و همچنین ارتقاء مدیریت منابع آموزشگاه‌ها استفاده شوند. متدولوژی و روش‌های داده کاوی را از بخش تکنولوژی سایت تفریحی جیران همراه ما باشید.

برای مثال، سؤالات جالب متعددی برای این حوزه وجود دارد که می‌توان به آن‌ها با استفاده از داده‌کاوی پاسخ داد:

بهبود کیفیت آموزش بر اساس ارزیابی دانشجویان از دروس امکان‌پذیر است؟
دوره‌ها را با چه کیفیتی می‌توان به دانشجویان برای جذب بیشتر آن‌ها ارائه نمود؟
دلایل اصلی مؤثر بر عملکرد استاد چیست؟
پیش‌بینی عملکرد استاد امکان‌پذیر است؟
چه عواملی موفقیت دانشجویان را تحت تأثیر قرار می‌دهند؟

پژوهش حاضر بر دو سؤال آخر متمرکز است. مدل‌سازی عملکرد استاد روش سودمندی برای هم اساتید و هم دانشجویان است زیرا آن می‌تواند به درک بهتر دستاوردهای آموزشی کمک کند.

بیشتر بخوانید: استفاده از داده ‌کاوی برای پیش‌بینی عملکرد استاد

متدولوژی داده‌کاوی: چارچوبی برای موفقیت

برای اینکه فرآیند داده‌کاوی به شکلی منظم و نتیجه‌بخش انجام شود، استفاده از یک متدولوژی (Methodology) یا چارچوب کاری مشخص ضروری است. یکی از معروف‌ترین و پرکاربردترین این متدولوژی‌ها، CRISP-DM (Cross-Industry Standard Process for Data Mining) است. این چارچوب شامل شش مرحله اصلی است که در ادامه به تفصیل توضیح داده می‌شود:

۱. درک کسب‌وکار (Business Understanding)

این مرحله مهم‌ترین بخش فرآیند است. در این مرحله، تیم داده‌کاوی باید به طور کامل هدف پروژه را درک کند. سؤالاتی مانند «هدف ما از این پروژه چیست؟»، «چه مشکلی را می‌خواهیم حل کنیم؟» و «چه داده‌هایی برای رسیدن به این هدف نیاز داریم؟» مطرح می‌شوند.

۲. درک داده‌ها (Data Understanding)

پس از مشخص شدن هدف، باید داده‌های موجود بررسی شوند. در این مرحله، جمع‌آوری اولیه داده‌ها، تحلیل کیفی و کمی آن‌ها و شناسایی هرگونه مشکل (مانند داده‌های ناقص یا نامعتبر) انجام می‌شود.

۳. آماده‌سازی داده‌ها (Data Preparation)

این مرحله معمولاً بیشترین زمان را به خود اختصاص می‌دهد. داده‌های خام اغلب برای تحلیل مناسب نیستند و نیاز به تمیزکاری، یکپارچه‌سازی، تبدیل و انتخاب دارند. به عنوان مثال، داده‌های گم‌شده تکمیل یا داده‌های تکراری حذف می‌شوند.

۴. مدل‌سازی (Modeling)

در این مرحله، با توجه به هدف پروژه، الگوریتم‌ها و تکنیک‌های داده‌کاوی انتخاب و بر روی داده‌های آماده‌شده اعمال می‌شوند. این الگوریتم‌ها شامل دسته‌بندی، خوشه‌بندی، رگرسیون و… هستند.

۵. ارزیابی (Evaluation)

پس از ساخت مدل، باید عملکرد آن ارزیابی شود. در این مرحله، مدل برای پاسخگویی به اهداف اولیه کسب‌وکار بررسی می‌شود و در صورت لزوم، به مرحله مدل‌سازی بازگردانده می‌شود تا بهبود یابد.

۶. استقرار (Deployment)

در نهایت، اگر مدل عملکرد قابل قبولی داشته باشد، باید به گونه‌ای استقرار یابد که برای استفاده روزمره در دسترس باشد. این مرحله می‌تواند شامل پیاده‌سازی مدل در یک سیستم نرم‌افزاری یا ارائه گزارش‌های نهایی به مدیران باشد.

روش‌ها و تکنیک‌های داده‌کاوی

داده‌کاوی از مجموعه‌ای از تکنیک‌های مختلف برای کشف الگوها استفاده می‌کند. این تکنیک‌ها بر اساس هدف، به دسته‌های اصلی زیر تقسیم می‌شوند:

۱. دسته‌بندی (Classification)

هدف: پیش‌بینی یک متغیر گسسته (Discrete Variable) بر اساس داده‌های ورودی.

مثال: پیش‌بینی اینکه آیا یک مشتری، محصول خاصی را خریداری خواهد کرد (بله/خیر). الگوریتم‌های پرکاربرد: درخت تصمیم، شبکه‌های عصبی و SVM.

۲. خوشه‌بندی (Clustering)

هدف: گروه‌بندی داده‌های مشابه به صورت خودکار، بدون داشتن متغیر هدف از قبل.

مثال: تقسیم‌بندی مشتریان یک فروشگاه بر اساس الگوی خریدشان به چند گروه مجزا. الگوریتم‌های پرکاربرد: K-Means و Hierarchical Clustering.

۳. قوانین انجمنی (Association Rules)

هدف: کشف ارتباطات بین اقلام در مجموعه‌ای از داده‌ها.

مثال: یافتن اینکه مشتریانی که «شیر» می‌خرند، به احتمال زیاد «نان» هم خریداری می‌کنند. این روش معمولاً در تحلیل سبد خرید استفاده می‌شود.

۴. رگرسیون (Regression)

هدف: پیش‌بینی یک متغیر پیوسته (Continuous Variable) بر اساس داده‌های ورودی.

مثال: پیش‌بینی قیمت مسکن بر اساس متغیرهایی مانند متراژ، تعداد اتاق و موقعیت مکانی.

۵. تشخیص ناهنجاری (Anomaly Detection)

هدف: شناسایی داده‌هایی که از الگوی عادی خارج هستند.

مثال: شناسایی تراکنش‌های مشکوک در بانکداری که ممکن است نشان‌دهنده کلاهبرداری باشند.

کاربردهای داده‌کاوی در دنیای واقعی

داده‌کاوی در صنایع مختلف، کاربردهای حیاتی و گسترده‌ای دارد:

بانکداری و مالی: پیش‌بینی ریسک اعتباری مشتریان، شناسایی کلاهبرداری‌های مالی و تحلیل رفتار سرمایه‌گذاری.
بازاریابی و فروش: بخش‌بندی مشتریان برای ارسال پیشنهادات شخصی‌سازی‌شده، تحلیل فروش و پیش‌بینی تقاضا برای محصولات.
پزشکی: پیش‌بینی احتمال ابتلا به بیماری‌ها بر اساس سوابق پزشکی و کشف الگوهای ژنتیکی.
تجارت الکترونیک: ارائه پیشنهادات محصول به مشتریان بر اساس سابقه خرید آن‌ها (مثلاً «مشتریانی که این محصول را خریده‌اند، این محصولات را نیز دوست دارند»).

روش‌های داده‌کاوی

تکنیک‌های داده‌کاوی برای استخراج دانش ارزشمند از حجم زیادی از داده‌ها استفاده می‌شود. تکنیک‌های داده‌کاوی مختلفی در طول دهه‌های گذشته معرفی شده‌اند. انتخاب مناسب‌ترین تکنیک برای استخراج داده‌ها، گامی است که منجر به نقشه راه صحیحی می‌شود. هدف اصلی، ساخت یک مدل کلاسبندی داده‌کاوی است که ما را قادر به دسته‌بندی عواملی که بر عملکرد دانشجویان اثر می‌گذارد می‌سازد. در این مقاله، چهار تکنیک داده‌کاوی مشهور که J48 DT، MLP، NB و SMO هستند استفاده شده‌اند.

طراحی آزمایشی

برای پیاده‌سازی متوالی چهار وظیفه‌ی کلاسبندی، ما از میزکار وکا استفاده کردیم. آزمایش‌ها در 4 مرحله‌ی متوالی انجام شدند. در مرحله‌ی اول، ارزیابی مشخصه با استفاده از الگوریتم OneR برای مشخص کردن مشخصه‌هایی که بیشترین تأثیر بالقوه بر هر کلاس در مجموعه داده دارند انجام شد [11]. روش رتبه‌بندی وکا برای توجیه رتبه‌ی مشخصه‌ها با استفاده از اعتبارسنجی 5 طرفه به کار رفته است. نتایج نشان می‌دهند که مشخصه‌هایQ23، Q27، Q21، Q22، Q28، Q25 و Q24 بیشترین تأثیر را بر مجموعه داده دارند در حالی که مشخصه‌های دیگر مانند حضور، استاد، کلاس و Q1 به دلیل اینکه کمترین تأثیر را بر مجموعه داده دارند کنار گذاشته شده‌اند.

در مرحله‌ی دوم، مشخصه‌هایی که بیشترین تأثیر را دارند (مطابق با نتایج به دستآمده از مرحله‌ی قبلی، 24 مشخصه‌ای که در نظر گرفته شدند) انتخاب شده و چهار تکنیک داده‌کاوی پیشنهادی بعد از حذف آخرین 10 مشخصه با اثر کمتر بر روی مجموعه داده که (حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5) هستند اجرا شدند. جدول 1 دقت پیش‌بینی در زمانی که الگوریتم ذکر شده بر روی مجموعه داده‌ها پس از انجام ارزیابی مشخصه اعمال شده است را نشان می‌دهد.

جدول 1. دقت پیش‌بینی نتایج پس از فرایند ارزیابی مشخصه و زمانی که الگوریتم‌ها بر روی همه‌ی مجموعه داده‌ها اجرا شدند

الگوریتم	دقت عملکرد پس از پروسه‌ی ارزیابی مشخصه برای مشخصه‌هایی با بیشترین تأثیر	دقت عملکرد در زمانی که الگوریتم‌ها بر روی همه‌ی مجموعه داده‌ها برای همه‌ی مشخصه‌ها اجرا شدند
J48 DT	85.1%	84.8%
NB	84.3%	83.3%
SMO	85.8%	84.5%
MLP	84.6%	82.5%

در مرحله سه، همه‌ی مجموعه داده‌های ارزیابی دانشجویان ترکیه آزمون شده و با چهار الگوریتم کلاسبندی بیان شده تحلیل شدند. مجموعه داده به دو مجموعه که 66% برای آموزش و 34% برای تست استفاده شده بود تقسیم شد. مدل با استفاده از مجموعه‌ی آموزش ساخته شده و با استفاده از مجموعه‌ی تست آزمون شد. مقایسه‌ای از دقت همه‌ی کلاسبندها در جدول 1 ارائه شده است. نتایج نشان دادند که الگوریتم J48 DT به عملکرد بهتری در مقایسه با الگوریتم‌های دیگر با دقت 84.8% دست یافته است.

در مرحله‌ی چهار، برخی آزمایش‌ها برای بررسی عملکرد استاد انجام شدند. هدف از این آنالیز، تعیین عملکرد فردی هر استاد و بررسی عوامل مؤثر بر موفقیت آن‌ها است. چهار الگوریتم پیشنهادی بر روی مجموعه داده‌ای که به صورتی که در زیر توضیح داده شد سازمان‌دهی شده است اجرا شدند. اطلاعات ارزیابی از دروس که توسط هر استاد آموزش داده شده است در یک فایل مجموعه داده ترکیب شدند. از آنجایی که ما سه استاد داریم، مجموعه داده به سه فایل مجزا گروه‌بندی شد. نتایج آزمایشات به طور خلاصه در جدول 2 و 3 نشان داده شده‌اند.

جدول 2. اساتید، دروس، و تعداد دانشجویانی که برای هر استاد ارزیابی شدند

استاد	کد درس	تعداد کل دانشجویان
1	2، 7، 10	776
2	1، 6، 11، 13	1444
3	3، 4، 5، 8، 9، 12، 13	3601

جدول 3. دقت عملکرد فردی هر استاد

الگوریتم	دقت عملکرد برای استاد 1	دقت عملکرد برای استاد 2	دقت عملکرد برای استاد 3
J48 DT	85.4%	85.7%	82.8%
NB	85.5%	86.8%	82.0%
MLP	86.2%	87.4%	82.8%
SMO	87.0%	85.4%	83.0%

در مرحله‌ی پنجم، چهار الگوریتم پیشنهادی بر روی مجموعه داده‌ی هر استاد به صورتی که در مرحله‌ی چهار پس از حذف مشخصه‌هایی با بدترین رتبه که کمترین اثر بر مجموعه داده مانند مرحله‌ی 2 داشتند اجرا کردیم.

آن‌ها حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5 هستند و 24 بهترین مشخصه در نظر گرفته شدند. نتایج در جدول 4 بیان شده‌اند.

جدول 4. دقت عملکرد اساتید برای مشخصه‌هایی که بالاترین اثر را بر روی مجموعه داده دارند

الگوریتم	دقت عملکرد برای استاد 1	دقت عملکرد برای استاد 2	دقت عملکرد برای استاد 3
J48 DT	85.6%	86.4%	83.0%
NB	85.9%	87.3%	82.8%
MLP	85.6%	87.8%	83.5%
SMO	85.2%	86.4%	83.8%

نتایج و بحث و بررسی

روش‌ها و تکنیک‌های مختلفی از داده‌کاوی در این مقاله استفاده شدند. مجموعه داده تست شده و با استفاده از چهار کلاسبند داده‌ی مختلف که J48 DT، MLP، NB، SMO هستند آنالیز شد. مقایسه‌یدقت همه الگویتمها در طول فرایند پیش‌بینی انجام شد. مشخص شد که استفاده از روش ارزیابی مشخصه بر روی مجموعه داده جهت پیش‌بینی عملکرد استاد سودمند است. مهم‌ترین مشخصه‌ها در مجموعه داده انتخاب شده سپس الگوریتم‌های ذکر شده در بالا بر روی مجموعه داده اجرا شدند. جدول 1 مشخصه‌هایی که بیشترین تأثیر بر موفقیت دانشجویان دارد را نشان می‌دهد. این به این معنی است که این مشخصه‌ها اهمیت بیشتری در پیش‌بینی عملکرد استاد داشته و تجارب آن‌ها را توصیف می‌کند. از طرف دیگر جدول 1 نشان می‌دهد که SMO با سطح دقت 85.8% بهتر از الگوریتم‌های دیگر عمل می‌کند. علاوه بر این، از جدول 1 همچنین می‌توان مشاهده کرد که الگوریتم J48 DT در زمانی که بر همه‌ی مجموعه داده اعمال می‌شود با سطح دقت 84.8% عملکرد بهتری دارد.

موضوع جالب دیگری که از نتایج مشاهده می‌شود این است که عملکرد یک استاد اساساً تحت تأثیر تعداد دروسی است که آموزش می‌دهد. جدول 4 نشان می‌دهد که همه‌ی الگوریتم‌های کلاسبندی دقت پیش‌بینی کمتری در زمانی که بر روی فایل مجموعه داده‌ی استاد 3 اجرا شده‌اند در مقایسه با دقت پیش‌بینیبه دستآمده از الگوریتم‌هایی که بر روی فایل مجموعه داده‌های استاد 1 و 2 اجرا شدهاند دارد. با مقایسه‌ی همه‌ی کلاسبندها، الگوریتم‌هایSMO و MLP به ترتیب با دقت‌های 87.0% و 86.2% بهترین عملکرد در میان همه‌ی کلاسبندها را در مجموعه داده‌ی استاد 1 همان‌طور که جدول 3 نشان می‌دهد داشتند. در حالی که دقت SMO کاهش می‌یابد، MLP تا رسیدن به بهترین عملکرد با دقت 87.2% برای مجموعه داده‌ی استاد 2 همان‌طور که در جدول 3 نشان داده شده است ادامه می‌یابد. از طرف دیگر نتایج نشان می‌دهند که دقت عملکرد در زمانی که مشخصه‌های با رتبه‌ی بد حذف شده‌اند نسبت به وقتی که الگوریتم‌ها روی همه‌ی مشخصه‌های مجموعه داده اجرا شده‌اند افزایش می‌یابد. جدول 4 دقت عملکرد اساتید برای مشخصه‌هایی که بالاترین تاثیر بر مجموعه داده دارند را پس از حذف مشخصه‌های بد نشان می‌دهد. می‌توان از نتایج استنباط کرد که دقت عملکرد همه‌ی الگوریتم‌ها در جدول 4 بهتر از دقت به دست آمده از این الگوریتم‌ها با همه‌ی مشخصه‌هایی که در جدول 3 است به غیر از MLP و SMO که عملکرد خوبی بر روی مجموعه داده‌ی استاد 1 در جدول 3 دارند در حالی که عملکرد آن‌ها در زمان اجرا بر روی مجموعه داده‌ی استاد 1 پس از حذف مشخصه‌های بد همان‌طور که در جدول 4 نشان داده شده است کاهش می‌یابد.

نتیجه‌گیری: آینده در دستان داده‌هاست

داده‌کاوی دیگر یک مفهوم صرفاً آکادمیک نیست، بلکه به یک ابزار ضروری برای رشد و بقای کسب‌وکارها در عصر دیجیتال تبدیل شده است. با استفاده از متدولوژی‌های استاندارد مانند CRISP-DM و تکنیک‌های قدرتمند داده‌کاوی، سازمان‌ها می‌توانند از حجم انبوه داده‌های خود به عنوان یک دارایی استراتژیک استفاده کنند و اطلاعات ارزشمندی را استخراج نمایند که در نهایت منجر به افزایش کارایی، کاهش هزینه‌ها و اتخاذ تصمیمات هوشمندانه‌تر خواهد شد.

بیشتر بخوانید: بررسی و تشریح استایل کژوال

نظرات کاربران

چنانچه دیدگاهی توهین آمیز باشد و متوجه نویسندگان و سایر کاربران باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.