پروپوزال داده کاوی در بیمه (docx) 1 صفحه
دسته بندی : تحقیق
نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )
تعداد صفحات: 1 صفحه
قسمتی از متن Word (.docx) :
واحد بین الملل
پاياننامه كارشناسي ارشد
در رشتهی کامپیوتر - مهندسی نرم افزار
ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی
مطالعه موردی: شرکت سهامی بیمه ایران
به کوشش:
فرامرز کرمی زاده
استاد راهنما:
دکترغلامحسین دستغیبی فرد
بهمن ماه 1392
171069031623000
186309036766500
201549049149000
به نام خدا
اظهار نامه
اینجانب فرامرز کرمی زاده (908891) دانشجوی مقطع کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرم افزار واحدبین الملل دانشگاه شیراز اظهار می نمایم که این پایان نامه حاصل پژوهش خودم بوده و در جاهایی که از منابع دیگران استفاده کرده ام نشانی دقیق و مشخصات کامل آن را نوشته ام. همچنین اظهارمی کنم که تحقیق و موضوع پایان نامه ام تکراری نیست و تعهد می نمایم که بدون مجوز دانشگاه دستاوردهای آن رامنتشرننموده و یا در اختیار غیر قرار ندهم. کلیه حقوق این اثر مطابق با آیین نامه مالکیت فکری و معنوی متعلق به دانشگاه شیراز است .
نام و نام خانوادگی : فرامرز کرمی زاده
تاریخ و امضا:
176784052832000
17202158509000
تقدیم به
همسرمهربان و فداکارم
که در تمام مراحل زندگی، یار و یاورم بوده اند و مرا در سخت ترین شرایط تحصیل علم ذره ای تنها نگذاشته اند و مدام طی کردن پله های ترقی را برایم آسان نموده است.
تقدیم به مادرم
که همیشه خواستار سلامتی و مشتاق دیدن پیشرفت های فرزندانش بوده است. تقدیم به پدرم، خواهرانم و برادرانم که همیشه مشوق و مهیا کننده شرایط تحصیلم بوده اند.
این نوشتار حاصل تلاشی برگرفته از قلوب پرمهر و عطوفت شما بوده است و اکنون به عنوان دارایی معنوی و علمی ام هرچند که درمقابل وسعت روح شما ناچیز است به شما تقدیم می گردد.
214884046291500
سپاسگزاری
اکنون که این رساله با توفیقات خداوند متعال به پایان رسیده است از استاد ارجمند جناب آقای دکتر غلامحسین دستغیبی فرد که با راهنمایی های متعهدانه مرا در انجام این رساله یاری نموده اند کمال تشکر را دارم. همچنین از اساتید محترم جناب آقای دکتر اشکان سامی و جناب آقای دکتر سیدمصطفی فخراحمد که به عنوان اساتید مشاور و داور این رساله ازمساعدت ایشان بهره مند بوده ام صمیمانه تشکر و قدردانی می نمایم. همچنین از ریاست اداره آمار و اتکایی شرکت سهامی بیمه ایران جناب آقای محمد حضرتی اسطلخ کوهی که با در اختیار قراردادن امکانات لازم اینجانب را در انجام این تحقیق یاری نموده اند و آقای مهندس بابک فولادی نیا که درانجام بخش های عملی پایان نامه و نگارش این رساله مشاورات فراوانی را به اینجانب ارائه کرده اند نیز قدردانی می نمایم.
1634490398272000
چکیده
ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی
مطالعه موردی: شرکت سهامی بیمه ایران
به کوشش:
فرامرز کرمی زاده
بررسی اطلاعات بیمه های اتومبیل نشان داده عواملی چون نوع استفاده خودرو، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، مبلغ حق بیمه، میزان تعهدات بیمه نامه، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه، تاخیردرتمدید بیمه نامه، در سود و زیان شرکت های بیمه تاثیر داشته اند.
هدف این پایان نامه شناخت عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکت های بیمه با استفاده از روش داده کاوی و سپس انتخاب الگوریتمی که بهترین میزان دقت پیش بینی برای تشخیص این عوامل را داشته اند می باشد.
نتیجه حاصل از این پژوهش نشان می دهد که روشهای داده کاوی با استفاده از الگوریتم های دسته بندی با دقت بالای 91% و الگوریتم های درخت تصمیم با دقت بالای 96% و الگوریتم های خوشه بندی با ایجاد خوشه های قابل قبول قادر به ارائه مدلی برای تشخیص عوامل اثرگذار و تعیین میزان اثر آنها در سود و زیان بیمه نامه شخص ثالث خودرو خواهند بود.
کلیدواژگان: داده کاوی ـ بیمه شخص ثالث خودرو ـ سود و زیان
فهرست مطالب
عنوان صفحه
فصل اول: مقدمه TOC \o "1-3" \h \z \u 1-1تعریف داده کاوی PAGEREF _Toc385885024 \h 41-2تعریف بیمه PAGEREF _Toc385885025 \h 41-3هدف پایان نامه PAGEREF _Toc385885026 \h 51-4مراحل انجام تحقیق PAGEREF _Toc385885027 \h 51-5ساختار پایان نامه PAGEREF _Toc385885028 \h 6فصل دوم: ادبیات موضوع و تحقیقات پیشین2-1داده کاوی و یادگیری ماشین PAGEREF _Toc385885030 \h 82-2ابزارها و تکنیک های داده کاوی PAGEREF _Toc385885031 \h 92-3روشهای داده کاوی PAGEREF _Toc385885032 \h 112-3-1روشهای توصیف داده ها PAGEREF _Toc385885033 \h 122-3-2روشهای تجزیه و تحلیل وابستگی PAGEREF _Toc385885034 \h 122-3-3روشهای دسته بندی و پیشگویی PAGEREF _Toc385885035 \h 122-3-4درخت تصمیم PAGEREF _Toc385885036 \h 132-3-5شبکه عصبی PAGEREF _Toc385885037 \h 142-3-6استدلال مبتنی بر حافظه PAGEREF _Toc385885038 \h 142-3-7ماشین های بردار پشتیبانی PAGEREF _Toc385885039 \h 152-3-8روشهای خوشه بندی PAGEREF _Toc385885040 \h 162-3-9روش K-Means PAGEREF _Toc385885041 \h 162-3-10شبکه کوهنن PAGEREF _Toc385885042 \h 162-3-11روش دو گام PAGEREF _Toc385885043 \h 172-3-12روشهای تجزیه و تحلیل نویز PAGEREF _Toc385885044 \h 172-4دسته های نامتعادل]صنیعی آباده 1391[. PAGEREF _Toc385885045 \h 182-4-1راهکار مبتنی بر معیار PAGEREF _Toc385885046 \h 182-4-2راهکار مبتنی بر نمونه برداری PAGEREF _Toc385885047 \h 192-5پیشینه تحقیق PAGEREF _Toc385885048 \h 202-6خلاصه فصل PAGEREF _Toc385885049 \h 23فصل سوم: شرح پژوهش3-1انتخاب نرم افزار PAGEREF _Toc385885051 \h 263-1-1Rapidminer PAGEREF _Toc385885052 \h 263-1-2مقایسه RapidMiner با سایر نرم افزار های مشابه PAGEREF _Toc385885053 \h 273-2داده ها PAGEREF _Toc385885054 \h 313-2-1انتخاب داده PAGEREF _Toc385885055 \h 313-2-2فیلدهای مجموعه داده صدور PAGEREF _Toc385885056 \h 313-2-3کاهش ابعاد PAGEREF _Toc385885057 \h 313-2-4فیلدهای مجموعه داده خسارت PAGEREF _Toc385885058 \h 373-2-5پاکسازی داده ها PAGEREF _Toc385885059 \h 373-2-6رسیدگی به داده های از دست رفته PAGEREF _Toc385885060 \h 373-2-7کشف داده دور افتاده PAGEREF _Toc385885061 \h 393-2-8انبوهش داده PAGEREF _Toc385885062 \h 413-2-9ایجاد ویژگی دسته PAGEREF _Toc385885063 \h 413-2-10تبدیل داده PAGEREF _Toc385885064 \h 413-2-11انتقال داده به محیط داده کاوی PAGEREF _Toc385885065 \h 423-2-12انواع داده تعیین شده PAGEREF _Toc385885066 \h 423-2-13عملیات انتخاب ویژگیهای موثرتر PAGEREF _Toc385885067 \h 433-3نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی PAGEREF _Toc385885068 \h 443-4ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی PAGEREF _Toc385885069 \h 463-5معیارهای ارزیابی الگوریتمهای دسته بندی PAGEREF _Toc385885070 \h 473-6ماتریس درهم ریختگی PAGEREF _Toc385885071 \h 473-7معیار AUC PAGEREF _Toc385885072 \h 483-8روشهای ارزیابی الگوریتم های دسته بندی PAGEREF _Toc385885073 \h 493-8-1روش Holdout PAGEREF _Toc385885074 \h 493-8-2روش Random Subsampling PAGEREF _Toc385885075 \h 503-8-3روش Cross-Validation PAGEREF _Toc385885076 \h 513-8-4روش Bootstrap PAGEREF _Toc385885077 \h 513-9الگوریتمهای دسته بندی PAGEREF _Toc385885078 \h 523-9-1الگوریتم KNN PAGEREF _Toc385885079 \h 533-9-2الگوریتم Naïve Bayes PAGEREF _Toc385885080 \h 543-9-3الگوریتم Neural Network PAGEREF _Toc385885081 \h 543-9-4الگوریتم SVM خطی PAGEREF _Toc385885082 \h 563-9-5الگوریتم رگرسیون لجستیک PAGEREF _Toc385885083 \h 583-9-6الگوریتم Meta Decision Tree PAGEREF _Toc385885084 \h 593-9-7الگوریتم درخت Wj48 PAGEREF _Toc385885085 \h 613-9-8الگوریتم درخت Random forest PAGEREF _Toc385885086 \h 633-10معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) PAGEREF _Toc385885087 \h 653-10-1الگوریتم FPgrowth PAGEREF _Toc385885088 \h 663-10-2الگوریتم Weka Apriori PAGEREF _Toc385885089 \h 673-11معیارهای ارزیابی الگوریتمهای خوشه بندی PAGEREF _Toc385885090 \h 673-12الگوریتم های خوشه بندی PAGEREF _Toc385885091 \h 693-12-1الگوریتم K-Means PAGEREF _Toc385885092 \h 693-12-2الگوریتم Kohonen PAGEREF _Toc385885093 \h 733-12-3الگوریتم دوگامی PAGEREF _Toc385885094 \h 77فصل چهارم: ارزیابی و نتیجه گیری4-1مقایسه نتایج PAGEREF _Toc385885096 \h 834-2الگوریتمهای دسته بندی PAGEREF _Toc385885097 \h 844-3الگوریتم های دسته بندی درخت تصمیم PAGEREF _Toc385885098 \h 844-4الگوریتم های خوشه بندی PAGEREF _Toc385885099 \h 964-5الگوریتم های قواعد تلازمی(مبتنی بر قانون) PAGEREF _Toc385885100 \h 984-6پیشنهادات به شرکت های بیمه PAGEREF _Toc385885101 \h 994-7پیشنهادات جهت ادامه کار PAGEREF _Toc385885102 \h 101منابع و مأخذفهرست منابع فارسی PAGEREF _Toc385885103 \h 102فهرست منابع انگلیسی PAGEREF _Toc385885104 \h 103
فهرست جدولها
عنوان صفحه
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی24
جدول شماره 3-2: فیلدهای اولیه داده های صدور26
جدول شماره 3-3: فیلدهای نهایی داده های صدور27
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها28
جدول 3-5: فیلدهای استخراج شده از داده های خسارت28
جدول 3-6: نتایج نمودار boxplot31
جدول 3-7: انواع داده استفاده شده33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records)38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means57
اجرا برای 9 خوشه در الگوریتم K-Means60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی69
جدول 4-1: مقایسه الگوریتم های دسته بند70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم70
جدول 4-3: ماتریس آشفتگی قانون شماره 171
جدول 4-4: ماتریس آشفتگی قانون شماره 272
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73
عنوان صفحه
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76
جدول 4-12: ماتریس آشفتگی قانون شماره 476
جدول 4-13: ماتریس آشفتگی قانون شماره 577
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78
جدول 4-16: ماتریس آشفتگی قانون شماره778
جدول 4-17: ماتریس آشفتگی قانون شماره879
جدول 4-18: مقایسه الگوریتم های خوشه بندی79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81
فهرست شکلها
عنوان صفحه
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42
شکل 3-8: نمودار AUC الگوریتم KNN42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49
شکل 3-17 : نمودار radial الگوریتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوریتم Wj4850
شکل 3-19 : نمودار tree الگوریتم Wj4851
شکل 3-20 : نمودار AUC الگوریتم Random forest52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53
عنوان صفحه
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63
شکل 3-31 : Predictor Importance for دوگامی64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75
فصل اول
194500518986500
مقدمه
شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد.
از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد.
پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند.
بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد.
امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند.
داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.
تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی"
داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند:
1-جدا سازی داده مفید از داده بیگانه
2-یکپارچه سازی داده های مختلف تحت یک قالب واحد
3-انتخاب داده لازم از میان دیگر داده ها
4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین
5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی
6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها
7-انتشار دانش استخراج شده به کاربران نهایی
تعریف بیمه
بیمه: بيمه عقدي است كه به موجب آن يك طرف تعهد مي كند در ازاء پرداخت وجه يا وجوهي از طرف ديگر در صورت وقوع يا بروز حادثه خسارت وارده بر او را جبران نموده يا وجه معيني بپردازد. متعهد را بيمه گر طرف تعهد را بيمه گذار وجهي را كه بيمه گذار به بيمه گر مي پردازد حق بيمه و آنچه را كه بيمه مي شود موضوع بيمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[.
هدف پایان نامه
در این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است.
مراحل انجام تحقیق
در این پایان نامه با استفاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند.
ساختار پایان نامه
این پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند.
فصل دوم
193548028194000
پیشنهادات به شرکت های بیمه
در این تحقیق نقایص و کاستی های روال فعلی درج اطلاعات بیمه گذار و زیان دیده تا حدودی مشخص گردید. همچنین نوع برخورد با بیمه گذاران ضررده و بدون زیان که اکنون انجام می شود دارای نواقصی بوده که با رفع آنها منفعت بیشتری نصیب شرکتهای بیمه می شود. بر همین اساس پیشنهاد می گردد:
محاسبه تخفیفات بالای 70% برای رانندگانی که تا این حد محتاط بوده اند که توانسته اند چندین سال متوالی بدون خطر باشند و افزایش میزان تخفیف عدم خسارت که حالت تشویقی بیشتری برای رانندگان خواهد داشت. قابل ذکر است که درحال حاضر برای بیشتر از 70 % تخفیف معادل همان 70% محاسبه می شود. ضمناً در حال حاضر راننده بیمه نمی شود بلکه خودرو بیمه می شود وتخفیف می تواند با فروش خودرو به فرد دیگری منتقل شود که این موضوع هم به ضرر شرکت بیمه در شناسایی افراد محتاط و تشخیص ریسک و هم به ضرر فرد محتاط می باشد. بنابراین توصیه می شود شرکت های بیمه تمرکز خود و ملاک تعیین اکثریت حق بیمه را فرد قرار دهند.
محاسبه حق بیمه بیشتر برای خودروهای دارای ساختار ضعیف و غیر ایمن و به تبع آن حق بیمه کمتر برای خودروهای ایمن تر .
اعمال تخفیف بیشتر برای آژانس ها، راهداری و راهسازی، سرویس کارمندان و آمبولانس و خودروهای شخصی و خودروهای کم تردد. میتوان کم تردد بودن خودرو را بر اساس شغل راننده نیز تعیین کرد. مثلا یک کارمند نسبت به یک پیمان کار، کم تردد تر است.
حق بیمه گران تر برای تاکسی های درون شهری و ضریب بیشترحق بیمه نسبت به تاکسی های درون شهری برای تاکسی های بین شهری .
اعمال تخفیف و تشویق برای کسانی که بدون تاخیر تمدید بیمه مینمایند. در حال حاضر فقط برای تاخیر جریمه وجود دارد در صورتی که وجود تشویق برای تمدید به موقع بیمه نامه نیز میتواند بسیار موثر باشد.
اعمال تخفیف برای خودروهای گروه کم خطر مانند مینی بوس و اتوبوس.
اعمال تخفیف برای خودروهای صفرکیلومتر و اعمال حق بیمه کمتر برای خودروهای جدید تر نسبت به خودروهای مستهلک.
کاهش حق بیمه بخش تعهدات مازاد برای کسانی که تعهدات بیشتری را نسبت به تعهدات معمول خریداری میکنند بصورت پلکانی یا تصاعدی.
مشتریان ضررده که بیش از دوخسارت جانی یا 3 خسارت مالی داشته اند حق بیمه بیشتری پرداخت نمایند و یا بصورت6 ماهه بیمه شوند تا پوشش دوره ریسک آنها به نصف تقلیل یابد.
درج مشخصات فردی بیمه گذار مانند سن، شغل، میزان تحصیلات، تاریخ صدور گواهینامه، نوع گواهینامه، و یا وضعیت سلامت فرد در صدور بیمه نامه جهت استفاده های آتی علم داده کاوی که قطعاً منجر به یافتن دانش قطعی تر در این زمینه خواهد شد.
درج اطلاعات دقیق تر در مورد حادثه، محل حادثه، و مشخصات فردی زیان دیده و مقصر جهت استفاده های آتی علم داده کاوی.
پیشنهادات جهت ادامه کار
در تحقیقات آتی محققان میتوانند:
با وسیع تر کردن محدوده تحقیق و استفاده از داده های چند سال متوالی همچنین استفاده از فیلدهای شغل و میزان تحصیلات بیمه گذار، شغل و میزان تحصیلات راننده مقصرو زیاندیده ، محل و ساعت دقیق حادثه درصورت ثبت آنها توسط شرکت های بیمه به قوانین دقیقتر و کامل تری دسترسی پیدا کنند.
استفاده از الگوریتم های بیشتری ماننده پیش بینی کننده ها، دسته بند ها و خوشه بند هایی که در این پژوهش از آنها استفاده نشده و یا بدلیل کم بودن میزان دقت از آنها صرف نظر شده و یا به آنها استناد نشده را بکار بگیرند.
بررسی داده های سال های یکسان استانهای دیگر و مقایسه با نتایج این تحقیق.
مقایسه یافته های این تحقیق و پژوهش های مشابه با نتایج تحقیقات دیگر کشورها .
منابع و مأخذ
منابع فارسی
]ایزدپرست1389[ سید محمود ایزدپرست، (1389)، "ارائه چارچوبی برای پیش بینی خسارت مشتریان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوی" ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
]رستخیز پایدار 1389[ ندا رستخیز پایدار، (1389)، "بخش بندي مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) "، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
]صنیعی آباده 1391[ صنیعی آباده محمد، (1391)، "داده کاوی کاربردی"، چاپ اول، نشرنیازدانش، تهران-ایران
]عنبری 1389[ الهام عنبری، (1389)، "طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي"، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
] فولادی نیا و همکاران 1392 [ فولادی نیا بابک، کرمی زاده فرامرز، دستغیبی فرد غلامحسین، سامی اشکان، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، هفتمین کنفرانس داده کاوی ایران، 19 و 20 آذر، تهران
]فولادی نیا 1392[ فولادی نیا بابک، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، پابان نامه کارشناسی ارشد، دانشکده آموزشهای الکترونیکی، دانشگاه شیراز
]موركي عليآباد1390[ سمانه موركي عليآباد ، (1390)، "طبقهبندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيكهاي دادهكاوي (مورد مطالعه: بيمهگذاران بيمه آتشسوزي شركت بيمه كارآفرين "( ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
منابع انگلیسی
[Allahyari Soeini et. al 2012] Allahyari Soeini R and Vahidy Rodpysh K (2012), “Applying Data Mining to Insurance Customer Churn Management”, “Third International Conference, ICICA 2012, Chengde, China, September 14-16, 2012. Proceedings, Part I (Communications in Computer and Information Science)
[Alpaydin 2010] Alpaydin E. (2010), “Introduction to Machine Learning”, The MIT Press Cambridge, Massachusetts London, England.
[Bolton & Hand 2002] Bolton R. J. & Hand D. J. (2002), “Statistical fraud detection: a review”, Statistical Science, vol. 17, no. 3, pp. 235–55.
[Brockett et. al 1998]Brockett P. L. Xia X. & Derrig R. A. (1998), “Using kohonen”s selforganizing feature map to uncover automobile bodily injury claims fraud”, The J. of Risk and Insurance, Vol. 65, No. 2, pp. 245-74.
[Derrig et. al 2006] Derrig, R. , Johnston, D. & Sprinkel, E. (2006), “Auto Insurance Fraud: Measurements and Efforts to Combat It”, Risk Management and Insurance Review, Vol 9(2), pp.109 – 130.
[Derrig & Ostazewski 1995] Derrig R. A. & Ostazewski K. M. (1995), “Fuzzy techniques of pattern recognition in risk and claim classification”, The J. of Risk and Insurance, Vol. 62, No. 3, pp. 447-82.
[Gupta 2006] Gupta, G. K. (2006), ” Introduction to Data Mining with case studies”. Prentice Hall of India, New Delhi.
[Han and Kamber 2001] Han J. and Kamber K, Data Mining: Concepts and Techniques, San Francisco, Morgan Kaufmann Publishers, 2001.
[Jiawei Han, 2010] Jiawei Han, Micheline Kamber, and Jian Pei(2010), ”Data Mining, Concepts and Techniques”, 3rd ed, University of Illinois at Urbana-Champaign &
Simon Fraser University.
[Koh & Geravis 2010] Koh H. C. and Geravis G. (2010), ”Fraud Detection Using Data Mining Techniques:Applications In The Motor Insurance Industry”, Journal of Proceedings of Business And Information, Volume 7, No 1, pp. 49.
[Kumar and Verna 2012] Kumar R. AND Verma R. (2012), “ Classification Algorithms for Data Mining: A Survey, International Journal of Innovations in Engineering and Technology (IJIET), Vol. 1, Issue 2, August 2012.
[Lin & Yeh 2012]Lin Kuo-Chung and Yeh Ching-Long (2012), “Use of Data Mining Techniques to Detect Medical Fraud in Health Insurance”, International Journal of Engineering and Technology Innovation, vol. 2, no. 2, pp. 42-53.
[Liu et. al 2012 ]Liu Jenn-Long, Chen Chien-Liang and Yang Hsing-Hui (2012), “Efficient Evolutionary Data Mining Algorithms Applied to the Insurance Fraud Prediction”, International Journal of Machine Learning and Computing, Vol. 2, No. 3, pp. 308-314.
[Osmar 1999] Osmar, R. Zaïane (1999), “Principles of Knowledge Discovery in Databases”, University of Alberta.
[Patil et. al 2012 ] Patil S. P. , Patil U. M. and Borse S. (2012), “ The novel approach for improving apriori algorithm for mining association rule”, World Journal of Science and Technology 2012, 2(3):75-78, Proceedings of “National Conference on Emerging Trends in Computer Technology (NCETCT-2012), Held at R. C. Patel Institute of Technology, Shirpur, Dist. Dhule, Maharashtra, India.
[Phua et. al 2004]Phua C. , Alahakoon D. & Lee V. (2004), “Minority report in fraud detection: classification of skewed data”, Sigkdd Explorations, vol. 6, no. 1, pp. 50-9.
[Pradhan et. al 2011 ] Pradhan R. , Pathak K. K. and Singh V. P. (2011), “ Application of Neural Network in Prediction of Financial Viability”, International Journal of Soft Computing and Engineering (IJSCE), ISSN: 2231-2307, Volume-1, Issue-2, May 2011.
[Ramamohan et. al 2012 ] Ramamohan Y. , Vasantharao K. , Chakravarti C. K. , Ratnam A. S. K (2012), “ A Study of Data Mining Tools in Knowledge Discovery Process”, International Journal of Soft Computing and Engineering (IJSCE), Volume-2, Issue-3, July 2012.
[Ristianini and Shawe 2000] Ristianini N, Shawe-Taylor J. “An introduction to support vector machines and other kernel-based learning methods”, Cambridge, UK:Cambridge University Press; 2000.
[Sirikulvadhana 2002] Sirikulvadhana, Supatcharee (2002), “Data Mining as a Financial Auditing Tool”, M. Sc. Thesis in Accounting Swedish School of Economics and Business Administration.
[Tan et al 2006] Pang-Ning Tan, Michael Steinbach and Vipin Kumar, “Introduction to Data Mining”, Addison Wesley, 2006.
[Wilson 2003] Wilson, H. J (2003), “An analytical approach to detecting insurance fraud using logistic regression”, Journal of Finance and Accountancy, Vol. 1, pp. 1-15.
[Wilson and Martinez 1997] Wilson D. Randall and Martinez Tony R “Improved Heterogeneous Distance Functions”, Journal of Artificial Intelligence Research, Volume 6, pages 1-34.
[Xindong et al 2007] XindongWu , Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J, McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2007) . “Top 10 Algorithms in data mining”, Survey paper. Springer–Verlag London Limited.
ABSTRACT
PROPOSING A MODEL TO DETECT IMPACT FACTOR AND THEIR EFFECT IN AUTOMOBILE THIRD PARTY INSURANCE PROFIT AND LOSS OF INSURANCE COMPANY USING DATA MINING
CASE STUDY: IRAN INSURANCE COMPANY
By
Faramarz Karami Zadeh
Past research on auto insurance show, factors such as type of car, compliance or non-compliance vehicle with driver's license, amount of premium, level of commitment in insurance certificate, quality of auto vehicle, driver’s age, driver’s education, lack of compliance with the insurance premiums, delays in the extended hull insurance,… may affect loss or profit of insurance companies.
The goal of this thesis is to recognize these factors in 3rd party insurance and their impact on the profit and loss of insurance companies by data mining techniques.
The result of this study has shown that classification and decision tree algorithms provide over 91% and 96% accuracy respectively.
Also clustering algorithms can create acceptable clusters.
Key Words: Data Mining - Automobile Third Party Insurance - profit and loss
2059305635000
190690566357500
175450587947500
Shiraz University
International Branch
M. S. Thesis
In Software Engineering of Computer
PROPOSING A MODEL TO DETECT IMPACT FACTOR AND THEIR EFFECT IN AUTOMOBILE THIRD PARTY INSURANCE PROFIT AND LOSS OF INSURANCE COMPANY USING DATA MINING
BY
FARAMARZ KARAMIZADEH
Supervised by
Dr. GH. DASTGHAIBY FARD
February 2014
165925538862000