مقدمه: دادهکاوی چیست؟ دروازهای به سوی دانش پنهان
در دنیای امروز که حجم عظیمی از دادهها در هر ثانیه تولید میشود، صرفاً جمعآوری آنها کافی نیست. دادهکاوی (Data Mining) فرآیند کشف الگوهای ارزشمند، اطلاعات مفید و دانش پنهان از میان این حجم انبوه از دادهها است. این کار به سازمانها و کسبوکارها کمک میکند تا تصمیمات بهتری بگیرند، روندهای آینده را پیشبینی کنند و مزیت رقابتی خود را افزایش دهند.
به بیان ساده، دادهکاوی مجموعهای از روشها و الگوریتمهاست که برای تحلیل دادهها و استخراج اطلاعاتی استفاده میشود که با نگاه ساده قابل مشاهده نیستند.
تکنیکهای دادهکاوی میتوانند به عنوان ابزاری برای توسعه و بهبود کیفیت سیستم آموزشی و همچنین ارتقاء مدیریت منابع آموزشگاهها استفاده شوند. متدولوژی و روشهای داده کاوی را از بخش تکنولوژی سایت تفریحی جیران همراه ما باشید.
برای مثال، سؤالات جالب متعددی برای این حوزه وجود دارد که میتوان به آنها با استفاده از دادهکاوی پاسخ داد:
- بهبود کیفیت آموزش بر اساس ارزیابی دانشجویان از دروس امکانپذیر است؟
- دورهها را با چه کیفیتی میتوان به دانشجویان برای جذب بیشتر آنها ارائه نمود؟
- دلایل اصلی مؤثر بر عملکرد استاد چیست؟
- پیشبینی عملکرد استاد امکانپذیر است؟
- چه عواملی موفقیت دانشجویان را تحت تأثیر قرار میدهند؟
پژوهش حاضر بر دو سؤال آخر متمرکز است. مدلسازی عملکرد استاد روش سودمندی برای هم اساتید و هم دانشجویان است زیرا آن میتواند به درک بهتر دستاوردهای آموزشی کمک کند.
بیشتر بخوانید: استفاده از داده کاوی برای پیشبینی عملکرد استاد
متدولوژی دادهکاوی: چارچوبی برای موفقیت
برای اینکه فرآیند دادهکاوی به شکلی منظم و نتیجهبخش انجام شود، استفاده از یک متدولوژی (Methodology) یا چارچوب کاری مشخص ضروری است. یکی از معروفترین و پرکاربردترین این متدولوژیها، CRISP-DM (Cross-Industry Standard Process for Data Mining) است. این چارچوب شامل شش مرحله اصلی است که در ادامه به تفصیل توضیح داده میشود:
۱. درک کسبوکار (Business Understanding)
این مرحله مهمترین بخش فرآیند است. در این مرحله، تیم دادهکاوی باید به طور کامل هدف پروژه را درک کند. سؤالاتی مانند «هدف ما از این پروژه چیست؟»، «چه مشکلی را میخواهیم حل کنیم؟» و «چه دادههایی برای رسیدن به این هدف نیاز داریم؟» مطرح میشوند.
۲. درک دادهها (Data Understanding)
پس از مشخص شدن هدف، باید دادههای موجود بررسی شوند. در این مرحله، جمعآوری اولیه دادهها، تحلیل کیفی و کمی آنها و شناسایی هرگونه مشکل (مانند دادههای ناقص یا نامعتبر) انجام میشود.
۳. آمادهسازی دادهها (Data Preparation)
این مرحله معمولاً بیشترین زمان را به خود اختصاص میدهد. دادههای خام اغلب برای تحلیل مناسب نیستند و نیاز به تمیزکاری، یکپارچهسازی، تبدیل و انتخاب دارند. به عنوان مثال، دادههای گمشده تکمیل یا دادههای تکراری حذف میشوند.
۴. مدلسازی (Modeling)
در این مرحله، با توجه به هدف پروژه، الگوریتمها و تکنیکهای دادهکاوی انتخاب و بر روی دادههای آمادهشده اعمال میشوند. این الگوریتمها شامل دستهبندی، خوشهبندی، رگرسیون و… هستند.
۵. ارزیابی (Evaluation)
پس از ساخت مدل، باید عملکرد آن ارزیابی شود. در این مرحله، مدل برای پاسخگویی به اهداف اولیه کسبوکار بررسی میشود و در صورت لزوم، به مرحله مدلسازی بازگردانده میشود تا بهبود یابد.
۶. استقرار (Deployment)
در نهایت، اگر مدل عملکرد قابل قبولی داشته باشد، باید به گونهای استقرار یابد که برای استفاده روزمره در دسترس باشد. این مرحله میتواند شامل پیادهسازی مدل در یک سیستم نرمافزاری یا ارائه گزارشهای نهایی به مدیران باشد.
روشها و تکنیکهای دادهکاوی
دادهکاوی از مجموعهای از تکنیکهای مختلف برای کشف الگوها استفاده میکند. این تکنیکها بر اساس هدف، به دستههای اصلی زیر تقسیم میشوند:
۱. دستهبندی (Classification)
هدف: پیشبینی یک متغیر گسسته (Discrete Variable) بر اساس دادههای ورودی.
- مثال: پیشبینی اینکه آیا یک مشتری، محصول خاصی را خریداری خواهد کرد (بله/خیر). الگوریتمهای پرکاربرد: درخت تصمیم، شبکههای عصبی و SVM.
۲. خوشهبندی (Clustering)
هدف: گروهبندی دادههای مشابه به صورت خودکار، بدون داشتن متغیر هدف از قبل.
- مثال: تقسیمبندی مشتریان یک فروشگاه بر اساس الگوی خریدشان به چند گروه مجزا. الگوریتمهای پرکاربرد: K-Means و Hierarchical Clustering.
۳. قوانین انجمنی (Association Rules)
هدف: کشف ارتباطات بین اقلام در مجموعهای از دادهها.
- مثال: یافتن اینکه مشتریانی که «شیر» میخرند، به احتمال زیاد «نان» هم خریداری میکنند. این روش معمولاً در تحلیل سبد خرید استفاده میشود.
۴. رگرسیون (Regression)
هدف: پیشبینی یک متغیر پیوسته (Continuous Variable) بر اساس دادههای ورودی.
- مثال: پیشبینی قیمت مسکن بر اساس متغیرهایی مانند متراژ، تعداد اتاق و موقعیت مکانی.
۵. تشخیص ناهنجاری (Anomaly Detection)
هدف: شناسایی دادههایی که از الگوی عادی خارج هستند.
- مثال: شناسایی تراکنشهای مشکوک در بانکداری که ممکن است نشاندهنده کلاهبرداری باشند.
کاربردهای دادهکاوی در دنیای واقعی
دادهکاوی در صنایع مختلف، کاربردهای حیاتی و گستردهای دارد:
- بانکداری و مالی: پیشبینی ریسک اعتباری مشتریان، شناسایی کلاهبرداریهای مالی و تحلیل رفتار سرمایهگذاری.
- بازاریابی و فروش: بخشبندی مشتریان برای ارسال پیشنهادات شخصیسازیشده، تحلیل فروش و پیشبینی تقاضا برای محصولات.
- پزشکی: پیشبینی احتمال ابتلا به بیماریها بر اساس سوابق پزشکی و کشف الگوهای ژنتیکی.
- تجارت الکترونیک: ارائه پیشنهادات محصول به مشتریان بر اساس سابقه خرید آنها (مثلاً «مشتریانی که این محصول را خریدهاند، این محصولات را نیز دوست دارند»).
روشهای دادهکاوی
تکنیکهای دادهکاوی برای استخراج دانش ارزشمند از حجم زیادی از دادهها استفاده میشود. تکنیکهای دادهکاوی مختلفی در طول دهههای گذشته معرفی شدهاند. انتخاب مناسبترین تکنیک برای استخراج دادهها، گامی است که منجر به نقشه راه صحیحی میشود. هدف اصلی، ساخت یک مدل کلاسبندی دادهکاوی است که ما را قادر به دستهبندی عواملی که بر عملکرد دانشجویان اثر میگذارد میسازد. در این مقاله، چهار تکنیک دادهکاوی مشهور که J48 DT، MLP، NB و SMO هستند استفاده شدهاند.
طراحی آزمایشی
برای پیادهسازی متوالی چهار وظیفهی کلاسبندی، ما از میزکار وکا استفاده کردیم. آزمایشها در 4 مرحلهی متوالی انجام شدند. در مرحلهی اول، ارزیابی مشخصه با استفاده از الگوریتم OneR برای مشخص کردن مشخصههایی که بیشترین تأثیر بالقوه بر هر کلاس در مجموعه داده دارند انجام شد [11]. روش رتبهبندی وکا برای توجیه رتبهی مشخصهها با استفاده از اعتبارسنجی 5 طرفه به کار رفته است. نتایج نشان میدهند که مشخصههایQ23، Q27، Q21، Q22، Q28، Q25 و Q24 بیشترین تأثیر را بر مجموعه داده دارند در حالی که مشخصههای دیگر مانند حضور، استاد، کلاس و Q1 به دلیل اینکه کمترین تأثیر را بر مجموعه داده دارند کنار گذاشته شدهاند.
در مرحلهی دوم، مشخصههایی که بیشترین تأثیر را دارند (مطابق با نتایج به دستآمده از مرحلهی قبلی، 24 مشخصهای که در نظر گرفته شدند) انتخاب شده و چهار تکنیک دادهکاوی پیشنهادی بعد از حذف آخرین 10 مشخصه با اثر کمتر بر روی مجموعه داده که (حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5) هستند اجرا شدند. جدول 1 دقت پیشبینی در زمانی که الگوریتم ذکر شده بر روی مجموعه دادهها پس از انجام ارزیابی مشخصه اعمال شده است را نشان میدهد.
جدول 1. دقت پیشبینی نتایج پس از فرایند ارزیابی مشخصه و زمانی که الگوریتمها بر روی همهی مجموعه دادهها اجرا شدند
الگوریتم | دقت عملکرد پس از پروسهی ارزیابی مشخصه برای مشخصههایی با بیشترین تأثیر | دقت عملکرد در زمانی که الگوریتمها بر روی همهی مجموعه دادهها برای همهی مشخصهها اجرا شدند |
J48 DT | 85.1% | 84.8% |
NB | 84.3% | 83.3% |
SMO | 85.8% | 84.5% |
MLP | 84.6% | 82.5% |
در مرحله سه، همهی مجموعه دادههای ارزیابی دانشجویان ترکیه آزمون شده و با چهار الگوریتم کلاسبندی بیان شده تحلیل شدند. مجموعه داده به دو مجموعه که 66% برای آموزش و 34% برای تست استفاده شده بود تقسیم شد. مدل با استفاده از مجموعهی آموزش ساخته شده و با استفاده از مجموعهی تست آزمون شد. مقایسهای از دقت همهی کلاسبندها در جدول 1 ارائه شده است. نتایج نشان دادند که الگوریتم J48 DT به عملکرد بهتری در مقایسه با الگوریتمهای دیگر با دقت 84.8% دست یافته است.
در مرحلهی چهار، برخی آزمایشها برای بررسی عملکرد استاد انجام شدند. هدف از این آنالیز، تعیین عملکرد فردی هر استاد و بررسی عوامل مؤثر بر موفقیت آنها است. چهار الگوریتم پیشنهادی بر روی مجموعه دادهای که به صورتی که در زیر توضیح داده شد سازماندهی شده است اجرا شدند. اطلاعات ارزیابی از دروس که توسط هر استاد آموزش داده شده است در یک فایل مجموعه داده ترکیب شدند. از آنجایی که ما سه استاد داریم، مجموعه داده به سه فایل مجزا گروهبندی شد. نتایج آزمایشات به طور خلاصه در جدول 2 و 3 نشان داده شدهاند.
جدول 2. اساتید، دروس، و تعداد دانشجویانی که برای هر استاد ارزیابی شدند
استاد | کد درس | تعداد کل دانشجویان |
1 | 2، 7، 10 | 776 |
2 | 1، 6، 11، 13 | 1444 |
3 | 3، 4، 5، 8، 9، 12، 13 | 3601 |
جدول 3. دقت عملکرد فردی هر استاد
الگوریتم | دقت عملکرد برای استاد 1 | دقت عملکرد برای استاد 2 | دقت عملکرد برای استاد 3 |
J48 DT | 85.4% | 85.7% | 82.8% |
NB | 85.5% | 86.8% | 82.0% |
MLP | 86.2% | 87.4% | 82.8% |
SMO | 87.0% | 85.4% | 83.0% |
در مرحلهی پنجم، چهار الگوریتم پیشنهادی بر روی مجموعه دادهی هر استاد به صورتی که در مرحلهی چهار پس از حذف مشخصههایی با بدترین رتبه که کمترین اثر بر مجموعه داده مانند مرحلهی 2 داشتند اجرا کردیم.
آنها حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5 هستند و 24 بهترین مشخصه در نظر گرفته شدند. نتایج در جدول 4 بیان شدهاند.
جدول 4. دقت عملکرد اساتید برای مشخصههایی که بالاترین اثر را بر روی مجموعه داده دارند
الگوریتم | دقت عملکرد برای استاد 1 | دقت عملکرد برای استاد 2 | دقت عملکرد برای استاد 3 |
J48 DT | 85.6% | 86.4% | 83.0% |
NB | 85.9% | 87.3% | 82.8% |
MLP | 85.6% | 87.8% | 83.5% |
SMO | 85.2% | 86.4% | 83.8% |
نتایج و بحث و بررسی
روشها و تکنیکهای مختلفی از دادهکاوی در این مقاله استفاده شدند. مجموعه داده تست شده و با استفاده از چهار کلاسبند دادهی مختلف که J48 DT، MLP، NB، SMO هستند آنالیز شد. مقایسهیدقت همه الگویتمها در طول فرایند پیشبینی انجام شد. مشخص شد که استفاده از روش ارزیابی مشخصه بر روی مجموعه داده جهت پیشبینی عملکرد استاد سودمند است. مهمترین مشخصهها در مجموعه داده انتخاب شده سپس الگوریتمهای ذکر شده در بالا بر روی مجموعه داده اجرا شدند. جدول 1 مشخصههایی که بیشترین تأثیر بر موفقیت دانشجویان دارد را نشان میدهد. این به این معنی است که این مشخصهها اهمیت بیشتری در پیشبینی عملکرد استاد داشته و تجارب آنها را توصیف میکند. از طرف دیگر جدول 1 نشان میدهد که SMO با سطح دقت 85.8% بهتر از الگوریتمهای دیگر عمل میکند. علاوه بر این، از جدول 1 همچنین میتوان مشاهده کرد که الگوریتم J48 DT در زمانی که بر همهی مجموعه داده اعمال میشود با سطح دقت 84.8% عملکرد بهتری دارد.
موضوع جالب دیگری که از نتایج مشاهده میشود این است که عملکرد یک استاد اساساً تحت تأثیر تعداد دروسی است که آموزش میدهد. جدول 4 نشان میدهد که همهی الگوریتمهای کلاسبندی دقت پیشبینی کمتری در زمانی که بر روی فایل مجموعه دادهی استاد 3 اجرا شدهاند در مقایسه با دقت پیشبینیبه دستآمده از الگوریتمهایی که بر روی فایل مجموعه دادههای استاد 1 و 2 اجرا شدهاند دارد. با مقایسهی همهی کلاسبندها، الگوریتمهایSMO و MLP به ترتیب با دقتهای 87.0% و 86.2% بهترین عملکرد در میان همهی کلاسبندها را در مجموعه دادهی استاد 1 همانطور که جدول 3 نشان میدهد داشتند. در حالی که دقت SMO کاهش مییابد، MLP تا رسیدن به بهترین عملکرد با دقت 87.2% برای مجموعه دادهی استاد 2 همانطور که در جدول 3 نشان داده شده است ادامه مییابد. از طرف دیگر نتایج نشان میدهند که دقت عملکرد در زمانی که مشخصههای با رتبهی بد حذف شدهاند نسبت به وقتی که الگوریتمها روی همهی مشخصههای مجموعه داده اجرا شدهاند افزایش مییابد. جدول 4 دقت عملکرد اساتید برای مشخصههایی که بالاترین تاثیر بر مجموعه داده دارند را پس از حذف مشخصههای بد نشان میدهد. میتوان از نتایج استنباط کرد که دقت عملکرد همهی الگوریتمها در جدول 4 بهتر از دقت به دست آمده از این الگوریتمها با همهی مشخصههایی که در جدول 3 است به غیر از MLP و SMO که عملکرد خوبی بر روی مجموعه دادهی استاد 1 در جدول 3 دارند در حالی که عملکرد آنها در زمان اجرا بر روی مجموعه دادهی استاد 1 پس از حذف مشخصههای بد همانطور که در جدول 4 نشان داده شده است کاهش مییابد.
نتیجهگیری: آینده در دستان دادههاست
دادهکاوی دیگر یک مفهوم صرفاً آکادمیک نیست، بلکه به یک ابزار ضروری برای رشد و بقای کسبوکارها در عصر دیجیتال تبدیل شده است. با استفاده از متدولوژیهای استاندارد مانند CRISP-DM و تکنیکهای قدرتمند دادهکاوی، سازمانها میتوانند از حجم انبوه دادههای خود به عنوان یک دارایی استراتژیک استفاده کنند و اطلاعات ارزشمندی را استخراج نمایند که در نهایت منجر به افزایش کارایی، کاهش هزینهها و اتخاذ تصمیمات هوشمندانهتر خواهد شد.
بیشتر بخوانید: بررسی و تشریح استایل کژوال
نظرات کاربران