متدولوژی و روش‌های داده کاوی

متدولوژی و روش‌های داده کاوی

متدولوژی

تکنیک‌های داده‌کاوی می‌توانند به عنوان ابزاری برای توسعه و بهبود کیفیت سیستم آموزشی و همچنین ارتقاء مدیریت منابع آموزشگاه‌ها استفاده شوند. متدولوژی و روش‌های داده کاوی را از بخش تکنولوژی سایت تفریحی جیران همراه ما باشید.

متدولوژی و روش‌های داده کاوی

برای مثال، سؤالات جالب متعددی برای این حوزه وجود دارد که می‌توان به آن‌ها با استفاده از داده‌کاوی پاسخ داد:

  • بهبود کیفیت آموزش بر اساس ارزیابی دانشجویان از دروس امکان‌پذیر است؟
  • دوره‌ها را با چه کیفیتی می‌توان به دانشجویان برای جذب بیشتر آن‌ها ارائه نمود؟
  • دلایل اصلی مؤثر بر عملکرد استاد چیست؟
  • پیش‌بینی عملکرد استاد امکان‌پذیر است؟
  • چه عواملی موفقیت دانشجویان را تحت تأثیر قرار می‌دهند؟

پژوهش حاضر بر دو سؤال آخر متمرکز است. مدل‌سازی عملکرد استاد روش سودمندی برای هم اساتید و هم دانشجویان است زیرا آن می‌تواند به درک بهتر دستاوردهای آموزشی کمک کند.


موارد پیشنهادی


روش‌های داده‌کاوی

تکنیک‌های داده‌کاوی برای استخراج دانش ارزشمند از حجم زیادی از داده‌ها استفاده می‌شود. تکنیک‌های داده‌کاوی مختلفی در طول دهه‌های گذشته معرفی شده‌اند. انتخاب مناسب‌ترین تکنیک برای استخراج داده‌ها، گامی است که منجر به نقشه راه صحیحی می‌شود. هدف اصلی، ساخت یک مدل کلاسبندی داده‌کاوی است که ما را قادر به دسته‌بندی عواملی که بر عملکرد دانشجویان اثر می‌گذارد می‌سازد. در این مقاله، چهار تکنیک داده‌کاوی مشهور که J48 DT، MLP، NB و SMO هستند استفاده شده‌اند.

طراحی آزمایشی

برای پیاده‌سازی متوالی چهار وظیفه‌ی کلاسبندی، ما از میزکار وکا استفاده کردیم. آزمایش‌ها در 4 مرحله‌ی متوالی انجام شدند. در مرحله‌ی اول، ارزیابی مشخصه با استفاده از الگوریتم OneR برای مشخص کردن مشخصه‌هایی که بیشترین تأثیر بالقوه بر هر کلاس در مجموعه داده دارند انجام شد [11]. روش رتبه‌بندی وکا برای توجیه رتبه‌ی مشخصه‌ها با استفاده از اعتبارسنجی 5 طرفه به کار رفته است. نتایج نشان می‌دهند که مشخصه‌هایQ23، Q27، Q21، Q22، Q28، Q25 و Q24 بیشترین تأثیر را بر مجموعه داده دارند در حالی که مشخصه‌های دیگر مانند حضور، استاد، کلاس و Q1 به دلیل اینکه کمترین تأثیر را بر مجموعه داده دارند کنار گذاشته شده‌اند.

در مرحله‌ی دوم، مشخصه‌هایی که بیشترین تأثیر را دارند (مطابق با نتایج به دستآمده از مرحله‌ی قبلی، 24 مشخصه‌ای که در نظر گرفته شدند) انتخاب شده و چهار تکنیک داده‌کاوی پیشنهادی بعد از حذف آخرین 10 مشخصه با اثر کمتر بر روی مجموعه داده که (حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5) هستند اجرا شدند. جدول 1 دقت پیش‌بینی در زمانی که الگوریتم ذکر شده بر روی مجموعه داده‌ها پس از انجام ارزیابی مشخصه اعمال شده است را نشان می‌دهد.

جدول 1. دقت پیش‌بینی نتایج پس از فرایند ارزیابی مشخصه و زمانی که الگوریتم‌ها بر روی همه‌ی مجموعه داده‌ها اجرا شدند
الگوریتم دقت عملکرد پس از پروسه‌ی ارزیابی مشخصه برای مشخصه‌هایی با بیشترین تأثیر دقت عملکرد در زمانی که الگوریتم‌ها بر روی همه‌ی مجموعه داده‌ها برای همه‌ی مشخصه‌ها اجرا شدند
J48 DT 85.1% 84.8%
NB 84.3% 83.3%
SMO 85.8% 84.5%
MLP 84.6% 82.5%

در مرحله سه، همه‌ی مجموعه داده‌های ارزیابی دانشجویان ترکیه آزمون شده و با چهار الگوریتم کلاسبندی بیان شده تحلیل شدند. مجموعه داده به دو مجموعه که 66% برای آموزش و 34% برای تست استفاده شده بود تقسیم شد. مدل با استفاده از مجموعه‌ی آموزش ساخته شده و با استفاده از مجموعه‌ی تست آزمون شد. مقایسه‌ای از دقت همه‌ی کلاسبندها در جدول 1 ارائه شده است. نتایج نشان دادند که الگوریتم J48 DT به عملکرد بهتری در مقایسه با الگوریتم‌های دیگر با دقت 84.8% دست یافته است.

در مرحله‌ی چهار، برخی آزمایش‌ها برای بررسی عملکرد استاد انجام شدند. هدف از این آنالیز، تعیین عملکرد فردی هر استاد و بررسی عوامل مؤثر بر موفقیت آن‌ها است. چهار الگوریتم پیشنهادی بر روی مجموعه داده‌ای که به صورتی که در زیر توضیح داده شد سازمان‌دهی شده است اجرا شدند. اطلاعات ارزیابی از دروس که توسط هر استاد آموزش داده شده است در یک فایل مجموعه داده ترکیب شدند. از آنجایی که ما سه استاد داریم، مجموعه داده به سه فایل مجزا گروه‌بندی شد. نتایج آزمایشات به طور خلاصه در جدول 2 و 3 نشان داده شده‌اند.

جدول 2. اساتید، دروس، و تعداد دانشجویانی که برای هر استاد ارزیابی شدند
استاد کد درس تعداد کل دانشجویان
1 2، 7، 10 776
2 1، 6، 11، 13 1444
3 3، 4، 5، 8، 9، 12، 13 3601
جدول 3. دقت عملکرد فردی هر استاد
الگوریتم دقت عملکرد برای استاد 1 دقت عملکرد برای استاد 2 دقت عملکرد برای استاد 3
J48 DT 85.4% 85.7% 82.8%
NB 85.5% 86.8% 82.0%
MLP 86.2% 87.4% 82.8%
SMO 87.0% 85.4% 83.0%

در مرحله‌ی پنجم، چهار الگوریتم پیشنهادی بر روی مجموعه داده‌ی هر استاد به صورتی که در مرحله‌ی چهار پس از حذف مشخصه‌هایی با بدترین رتبه که کمترین اثر بر مجموعه داده مانند مرحله‌ی 2 داشتند اجرا کردیم.

آن‌ها حضور، استاد، کلاس، Q1، دشواری، تعداد تکرارها، Q2، Q3، Q13، Q5 هستند و 24 بهترین مشخصه در نظر گرفته شدند. نتایج در جدول 4 بیان شده‌اند.

جدول 4. دقت عملکرد اساتید برای مشخصه‌هایی که بالاترین اثر را بر روی مجموعه داده دارند
الگوریتم دقت عملکرد برای استاد 1 دقت عملکرد برای استاد 2 دقت عملکرد برای استاد 3
J48 DT 85.6% 86.4% 83.0%
NB 85.9% 87.3% 82.8%
MLP 85.6% 87.8% 83.5%
SMO 85.2% 86.4% 83.8%

نتایج و بحث و بررسی

روش‌ها و تکنیک‌های مختلفی از داده‌کاوی در این مقاله استفاده شدند. مجموعه داده تست شده و با استفاده از چهار کلاسبند داده‌ی مختلف که J48 DT، MLP، NB، SMO هستند آنالیز شد. مقایسه‌یدقت همه الگویتم­ها در طول فرایند پیش‌بینی انجام شد. مشخص شد که استفاده از روش ارزیابی مشخصه بر روی مجموعه داده جهت پیش‌بینی عملکرد استاد سودمند است. مهم‌ترین مشخصه‌ها در مجموعه داده انتخاب شده سپس الگوریتم‌های ذکر شده در بالا بر روی مجموعه داده اجرا شدند. جدول 1 مشخصه‌هایی که بیشترین تأثیر بر موفقیت دانشجویان دارد را نشان می‌دهد. این به این معنی است که این مشخصه‌ها اهمیت بیشتری در پیش‌بینی عملکرد استاد داشته و تجارب آن‌ها را توصیف می‌کند. از طرف دیگر جدول 1 نشان می‌دهد که SMO با سطح دقت 85.8% بهتر از الگوریتم‌های دیگر عمل می‌کند. علاوه بر این، از جدول 1 همچنین می‌توان مشاهده کرد که الگوریتم J48 DT در زمانی که بر همه‌ی مجموعه داده اعمال می‌شود با سطح دقت 84.8% عملکرد بهتری دارد.

موضوع جالب دیگری که از نتایج مشاهده می‌شود این است که عملکرد یک استاد اساساً تحت تأثیر تعداد دروسی است که آموزش می‌دهد. جدول 4 نشان می‌دهد که همه‌ی الگوریتم‌های کلاسبندی دقت پیش‌بینی کمتری در زمانی که بر روی فایل مجموعه داده‌ی استاد 3 اجرا شده‌اند در مقایسه با دقت پیش‌بینیبه دستآمده از الگوریتم‌هایی که بر روی فایل مجموعه داده‌های استاد 1 و 2 اجرا شده­اند دارد. با مقایسه‌ی همه‌ی کلاسبندها، الگوریتم‌هایSMO و MLP به ترتیب با دقت‌های 87.0% و 86.2% بهترین عملکرد در میان همه‌ی کلاسبندها را در مجموعه داده‌ی استاد 1 همان‌طور که جدول 3 نشان می‌دهد داشتند. در حالی که دقت SMO کاهش می‌یابد، MLP تا رسیدن به بهترین عملکرد با دقت 87.2% برای مجموعه داده‌ی استاد 2 همان‌طور که در جدول 3 نشان داده شده است ادامه می‌یابد. از طرف دیگر نتایج نشان می‌دهند که دقت عملکرد در زمانی که مشخصه‌های با رتبه‌ی بد حذف شده‌اند نسبت به وقتی که الگوریتم‌ها روی همه‌ی مشخصه‌های مجموعه داده اجرا شده‌اند افزایش می‌یابد. جدول 4 دقت عملکرد اساتید برای مشخصه‌هایی که بالاترین  تاثیر بر مجموعه داده دارند را پس از حذف مشخصه‌های بد نشان می‌دهد. می‌توان از نتایج استنباط کرد که دقت عملکرد همه‌ی الگوریتم‌ها در جدول 4 بهتر از دقت به دست آمده از این الگوریتم‌ها با همه‌ی مشخصه‌هایی که در جدول 3 است به غیر از MLP و  SMO که عملکرد خوبی بر روی مجموعه داده‌ی استاد 1 در جدول 3 دارند در حالی که عملکرد آن‌ها در زمان اجرا بر روی مجموعه داده‌ی استاد 1 پس از حذف مشخصه‌های بد همان‌طور که در جدول 4 نشان داده شده است کاهش می‌یابد.

نتیجه‌گیری

ما نتیجه گرفتیم که استفاده از داده‌های ارزیابی دانشجویان برای دروس جهت پیش‌بینی عواملی که بر موفقیت آن‌ها و همچنین پیش‌بینی عملکرد اساتید مؤثر است سودمند می‌باشد. علاوه بر این، آننقطه نظر دیگری برای بهبود کیفیت آموزشی است، که برای جذب دانشجویان حیاتی می‌باشد در حالی که اکثر محققان از معدل تجمعی و مشخصه‌های ارزیابی داخلی برای پیش‌بینی عملکرد دانشجویان جهت ارتقا سیستم آموزشی استفاده می‌نمایند. علاوه بر این حذف مشخصه‌های بد که اثر کمتری بر مجموعه داده دارند دقت عملکرد الگوریتم‌ها را افزایش می‌دهد.


بیشتر بخوانید:


 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

19 − 17 =

پست بعدی

احتمال در رفتن استخوان نوزاد

ی ژوئن 21 , 2020
احتمال در رفتن استخوان نوزاد اگر کودک رامحکم از جا […]
احتمال در رفتن استخوان نوزاد