متدولوژی و روشهای داده کاوی
متدولوژی
تکنیکهای دادهکاوی میتوانند به عنوان ابزاری برای توسعه و بهبود کیفیت سیستم آموزشی و همچنین ارتقاء مدیریت منابع آموزشگاهها استفاده شوند. متدولوژی و روشهای داده کاوی را از بخش تکنولوژی سایت تفریحی جیران همراه ما باشید.
برای مثال، سؤالات جالب متعددی برای این حوزه وجود دارد که میتوان به آنها با استفاده از دادهکاوی پاسخ داد:
- بهبود کیفیت آموزش بر اساس ارزیابی دانشجویان از دروس امکانپذیر است؟
- دورهها را با چه کیفیتی میتوان به دانشجویان برای جذب بیشتر آنها ارائه نمود؟
- دلایل اصلی مؤثر بر عملکرد استاد چیست؟
- پیشبینی عملکرد استاد امکانپذیر است؟
- چه عواملی موفقیت دانشجویان را تحت تأثیر قرار میدهند؟
پژوهش حاضر بر دو سؤال آخر متمرکز است. مدلسازی عملکرد استاد روش سودمندی برای هم اساتید و هم دانشجویان است زیرا آن میتواند به درک بهتر دستاوردهای آموزشی کمک کند.
موارد پیشنهادی
روشهای دادهکاوی
تکنیکهای دادهکاوی برای استخراج دانش ارزشمند از حجم زیادی از دادهها استفاده میشود. تکنیکهای دادهکاوی مختلفی در طول دهههای گذشته معرفی شدهاند. انتخاب مناسبترین تکنیک برای استخراج دادهها، گامی است که منجر به نقشه راه صحیحی میشود. هدف اصلی، ساخت یک مدل کلاسبندی دادهکاوی است که ما را قادر به دستهبندی عواملی که بر عملکرد دانشجویان اثر میگذارد میسازد. در این مقاله، چهار تکنیک دادهکاوی مشهور که J48 DT، MLP، NB و SMO هستند استفاده شدهاند.
طراحی آزمایشی
برای پیادهسازی متوالی چهار وظیفهی کلاسبندی، ما از میزکار وکا استفاده کردیم. آزمایشها در 4 مرحلهی متوالی انجام شدند. در مرحلهی اول، ارزیابی مشخصه با استفاده از الگوریتم OneR برای مشخص کردن مشخصههایی که بیشترین تأثیر بالقوه بر هر کلاس در مجموعه داده دارند انجام شد [11]. روش رتبهبندی وکا برای توجیه رتبهی مشخصهها با استفاده از اعتبارسنجی 5 طرفه به کار رفته است. نتایج نشان میدهند که مشخصههایQ23، Q27، Q21، Q22، Q28، Q25 و Q24 بیشترین تأثیر را بر مجموعه داده دارند در حالی که مشخصههای دیگر مانند حضور، استاد، کلاس و Q1 به دلیل اینکه کمترین تأثیر را بر مجموعه داده دارند کنار گذاشته شدهاند.
در مرحلهی دوم، مشخصههایی که بیشترین تأثیر را دارند (مطابق با نتایج به دستآمده از مرحلهی قبلی، 24 مشخصهای که در نظر گرفته شدند) انتخاب شده و چهار تکنیک دادهکاوی پیشنهادی بعد از حذف آخرین 10 مشخصه با اثر کمتر بر روی مجموعه داده که (حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5) هستند اجرا شدند. جدول 1 دقت پیشبینی در زمانی که الگوریتم ذکر شده بر روی مجموعه دادهها پس از انجام ارزیابی مشخصه اعمال شده است را نشان میدهد.
جدول 1. دقت پیشبینی نتایج پس از فرایند ارزیابی مشخصه و زمانی که الگوریتمها بر روی همهی مجموعه دادهها اجرا شدند
الگوریتم | دقت عملکرد پس از پروسهی ارزیابی مشخصه برای مشخصههایی با بیشترین تأثیر | دقت عملکرد در زمانی که الگوریتمها بر روی همهی مجموعه دادهها برای همهی مشخصهها اجرا شدند |
J48 DT | 85.1% | 84.8% |
NB | 84.3% | 83.3% |
SMO | 85.8% | 84.5% |
MLP | 84.6% | 82.5% |
در مرحله سه، همهی مجموعه دادههای ارزیابی دانشجویان ترکیه آزمون شده و با چهار الگوریتم کلاسبندی بیان شده تحلیل شدند. مجموعه داده به دو مجموعه که 66% برای آموزش و 34% برای تست استفاده شده بود تقسیم شد. مدل با استفاده از مجموعهی آموزش ساخته شده و با استفاده از مجموعهی تست آزمون شد. مقایسهای از دقت همهی کلاسبندها در جدول 1 ارائه شده است. نتایج نشان دادند که الگوریتم J48 DT به عملکرد بهتری در مقایسه با الگوریتمهای دیگر با دقت 84.8% دست یافته است.
در مرحلهی چهار، برخی آزمایشها برای بررسی عملکرد استاد انجام شدند. هدف از این آنالیز، تعیین عملکرد فردی هر استاد و بررسی عوامل مؤثر بر موفقیت آنها است. چهار الگوریتم پیشنهادی بر روی مجموعه دادهای که به صورتی که در زیر توضیح داده شد سازماندهی شده است اجرا شدند. اطلاعات ارزیابی از دروس که توسط هر استاد آموزش داده شده است در یک فایل مجموعه داده ترکیب شدند. از آنجایی که ما سه استاد داریم، مجموعه داده به سه فایل مجزا گروهبندی شد. نتایج آزمایشات به طور خلاصه در جدول 2 و 3 نشان داده شدهاند.
جدول 2. اساتید، دروس، و تعداد دانشجویانی که برای هر استاد ارزیابی شدند
استاد | کد درس | تعداد کل دانشجویان |
1 | 2، 7، 10 | 776 |
2 | 1، 6، 11، 13 | 1444 |
3 | 3، 4، 5، 8، 9، 12، 13 | 3601 |
جدول 3. دقت عملکرد فردی هر استاد
الگوریتم | دقت عملکرد برای استاد 1 | دقت عملکرد برای استاد 2 | دقت عملکرد برای استاد 3 |
J48 DT | 85.4% | 85.7% | 82.8% |
NB | 85.5% | 86.8% | 82.0% |
MLP | 86.2% | 87.4% | 82.8% |
SMO | 87.0% | 85.4% | 83.0% |
در مرحلهی پنجم، چهار الگوریتم پیشنهادی بر روی مجموعه دادهی هر استاد به صورتی که در مرحلهی چهار پس از حذف مشخصههایی با بدترین رتبه که کمترین اثر بر مجموعه داده مانند مرحلهی 2 داشتند اجرا کردیم.
آنها حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5 هستند و 24 بهترین مشخصه در نظر گرفته شدند. نتایج در جدول 4 بیان شدهاند.
جدول 4. دقت عملکرد اساتید برای مشخصههایی که بالاترین اثر را بر روی مجموعه داده دارند
الگوریتم | دقت عملکرد برای استاد 1 | دقت عملکرد برای استاد 2 | دقت عملکرد برای استاد 3 |
J48 DT | 85.6% | 86.4% | 83.0% |
NB | 85.9% | 87.3% | 82.8% |
MLP | 85.6% | 87.8% | 83.5% |
SMO | 85.2% | 86.4% | 83.8% |
نتایج و بحث و بررسی
روشها و تکنیکهای مختلفی از دادهکاوی در این مقاله استفاده شدند. مجموعه داده تست شده و با استفاده از چهار کلاسبند دادهی مختلف که J48 DT، MLP، NB، SMO هستند آنالیز شد. مقایسهیدقت همه الگویتمها در طول فرایند پیشبینی انجام شد. مشخص شد که استفاده از روش ارزیابی مشخصه بر روی مجموعه داده جهت پیشبینی عملکرد استاد سودمند است. مهمترین مشخصهها در مجموعه داده انتخاب شده سپس الگوریتمهای ذکر شده در بالا بر روی مجموعه داده اجرا شدند. جدول 1 مشخصههایی که بیشترین تأثیر بر موفقیت دانشجویان دارد را نشان میدهد. این به این معنی است که این مشخصهها اهمیت بیشتری در پیشبینی عملکرد استاد داشته و تجارب آنها را توصیف میکند. از طرف دیگر جدول 1 نشان میدهد که SMO با سطح دقت 85.8% بهتر از الگوریتمهای دیگر عمل میکند. علاوه بر این، از جدول 1 همچنین میتوان مشاهده کرد که الگوریتم J48 DT در زمانی که بر همهی مجموعه داده اعمال میشود با سطح دقت 84.8% عملکرد بهتری دارد.
موضوع جالب دیگری که از نتایج مشاهده میشود این است که عملکرد یک استاد اساساً تحت تأثیر تعداد دروسی است که آموزش میدهد. جدول 4 نشان میدهد که همهی الگوریتمهای کلاسبندی دقت پیشبینی کمتری در زمانی که بر روی فایل مجموعه دادهی استاد 3 اجرا شدهاند در مقایسه با دقت پیشبینیبه دستآمده از الگوریتمهایی که بر روی فایل مجموعه دادههای استاد 1 و 2 اجرا شدهاند دارد. با مقایسهی همهی کلاسبندها، الگوریتمهایSMO و MLP به ترتیب با دقتهای 87.0% و 86.2% بهترین عملکرد در میان همهی کلاسبندها را در مجموعه دادهی استاد 1 همانطور که جدول 3 نشان میدهد داشتند. در حالی که دقت SMO کاهش مییابد، MLP تا رسیدن به بهترین عملکرد با دقت 87.2% برای مجموعه دادهی استاد 2 همانطور که در جدول 3 نشان داده شده است ادامه مییابد. از طرف دیگر نتایج نشان میدهند که دقت عملکرد در زمانی که مشخصههای با رتبهی بد حذف شدهاند نسبت به وقتی که الگوریتمها روی همهی مشخصههای مجموعه داده اجرا شدهاند افزایش مییابد. جدول 4 دقت عملکرد اساتید برای مشخصههایی که بالاترین تاثیر بر مجموعه داده دارند را پس از حذف مشخصههای بد نشان میدهد. میتوان از نتایج استنباط کرد که دقت عملکرد همهی الگوریتمها در جدول 4 بهتر از دقت به دست آمده از این الگوریتمها با همهی مشخصههایی که در جدول 3 است به غیر از MLP و SMO که عملکرد خوبی بر روی مجموعه دادهی استاد 1 در جدول 3 دارند در حالی که عملکرد آنها در زمان اجرا بر روی مجموعه دادهی استاد 1 پس از حذف مشخصههای بد همانطور که در جدول 4 نشان داده شده است کاهش مییابد.
نتیجهگیری
ما نتیجه گرفتیم که استفاده از دادههای ارزیابی دانشجویان برای دروس جهت پیشبینی عواملی که بر موفقیت آنها و همچنین پیشبینی عملکرد اساتید مؤثر است سودمند میباشد. علاوه بر این، آننقطه نظر دیگری برای بهبود کیفیت آموزشی است، که برای جذب دانشجویان حیاتی میباشد در حالی که اکثر محققان از معدل تجمعی و مشخصههای ارزیابی داخلی برای پیشبینی عملکرد دانشجویان جهت ارتقا سیستم آموزشی استفاده مینمایند. علاوه بر این حذف مشخصههای بد که اثر کمتری بر مجموعه داده دارند دقت عملکرد الگوریتمها را افزایش میدهد.
بیشتر بخوانید: بررسی و تشریح استایل کژوال
نظرات کاربران