صفحه محصول - مبانی نظری و پیشینه تحقیق داده کاوی 12

مبانی نظری و پیشینه تحقیق داده کاوی 12 (docx) 64 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 64 صفحه

قسمتی از متن Word (.docx) :

وزارت علوم، تحقیقات و فناوری دانشگاه علوم و فنون مازندران پایان‌نامه مقطع کارشناسی ارشد رشته: مهندسی فناوری اطلاعات عنوان: مدیریت دانش مشتریان بانک مهر اقتصاد با استفاده از تکنیکهای داده‌کاوی اساتید راهنما: دکتر جواد وحیدی، دکتر بابک شیرازی استاد مشاور: دکتر حسین علیزاده دانشجو: سیده عطیه علیکیا امیری ) تابستان 1392( این پایان‌نامه را تقدیم میدارم به: روح پاک پدرم که عالمانه به من آموخت که چگونه در عرصه زندگی، ایستادگی را تجربه نمایم. و به مادرم، دریای بی‌کران فداکاری و عشق که وجودم برایش همه رنج بود و وجودش برایم همه مهر. و خواهرانم که حضورشان همیشه مایهی دلگرمی و امید من است. و سپاس ... سپاس خدای را که سخنوران، در ستودن او بمانند و شمارندگان، شمردن نعمت‌های او ندانند و کوشندگان، حق او را گزاردن نتوانند. و سلام و درود بر محمد و خاندان پاك او، طاهران معصوم، هم آنان که وجودمان وامدار وجودشان است، و نفرين پيوسته بر دشمنان ايشان تا روز رستاخيز... و سپاسگزارم از اساتید گرامی و بزرگوار جناب آقای دکتر جواد وحیدی و جناب آقای دکتر بابک شیرازی که در کمال سعه‌صدر، با حسن خلق و فروتنی، از هیچ کمکی در این عرصه بر من دریغ ننمودند و زحمت راهنمایی این پایاننامه را بر عهده گرفتند. و از استاد گرامی، جناب آقای دکتر حسین علیزاده که زحمت مشاوره این پایاننامه را عهده‌دار بودند که بدون مساعدت ایشان، این پروژه به نتیجه مطلوب نمی‌رسید. و از استاد گرامی، جناب آقای پروفسور ایرج مهدوی که زحمت داوری این پایاننامه را متقبل شدند، کمال تشکر و قدردانی را دارم. این پژوهش از حمایت موسسه مالی و اعتباری مهر برخوردار بوده است. فهرست مطالب TOC \o "1-5" \h \z \u فصل دوم PAGEREF _Toc522521614 \h 2 ادبیات و پیشینه تحقیق PAGEREF _Toc522521615 \h 2 2-1- مقدمه PAGEREF _Toc522521616 \h 3 2-8- داده‌کاوی PAGEREF _Toc522521617 \h 5 2-8-1- مقايسه روش‌های آماری و داده‌کاوی PAGEREF _Toc522521618 \h 7 2-8-2- مفهوم داده‌کاوی PAGEREF _Toc522521619 \h 9 2-8-3- داده‌کاوی و کشف دانش PAGEREF _Toc522521620 \h 11 2-8-4- فرايند داده‌کاوی PAGEREF _Toc522521621 \h 14 2-8-5- معرفی روش‌های داده‌کاوی PAGEREF _Toc522521622 \h 21 2-8-5-1- دسته‌بندی PAGEREF _Toc522521623 \h 23 2-8-5-2- درخت تصمیم PAGEREF _Toc522521624 \h 24 2-8-5-3- شبکه‌های عصبی PAGEREF _Toc522521625 \h 25 2-8-5-4- پیش بینی PAGEREF _Toc522521626 \h 27 2-8-5-5- خوشه‌بندی PAGEREF _Toc522521627 \h 28 2-8-5-5- انواع خوشه‌بندی PAGEREF _Toc522521628 \h 29 2-8-5-5-2- معیارهای ارزیابی در خوشه‌بندی PAGEREF _Toc522521629 \h 31 2-8-5-6- تحلیل انحراف PAGEREF _Toc522521630 \h 33 2-8-5-7- قواعد وابستگی (انجمنی) PAGEREF _Toc522521631 \h 34 2-8-5-8- تحلیل توالی PAGEREF _Toc522521632 \h 34 2-8-6- نرم‌افزار داده‌کاوی PAGEREF _Toc522521633 \h 36 2-8-7- کاربردهای داده‌کاوی PAGEREF _Toc522521634 \h 37 2-8-7-1- داده‌کاوی در صنعت بانكداری PAGEREF _Toc522521635 \h 38 2-9- پیشینه تحقیق PAGEREF _Toc522521636 \h 39 2-9-1- کاربرد داده‌کاوی در بخش‌بندی و مدل‌سازی رفتاری مشتریان در صنعت بانکداری PAGEREF _Toc522521637 \h 41 2-9-2- کاربرد داده‌کاوی در ارزیابی اعتبار مشتریان PAGEREF _Toc522521638 \h 44 2-9-3- کاربرد داده‌کاوی در زمینه کشف تقلب PAGEREF _Toc522521639 \h 46 2-9-4- کاربرد داده‌کاوی در تحلیل روی‌گردانی مشتری PAGEREF _Toc522521640 \h 47 2-10- جمع‌بندی مطالب فصل PAGEREF _Toc522521641 \h 54 منابع و مآخذ PAGEREF _Toc522521642 \h 57 فصل دوم ادبیات و پیشینه تحقیق center17607000 2-1- مقدمه افزایش روزافزون سطح رقابت در میان کسبوکارهای امروزی سبب گشته سازمانها جهت ربودن گوی سبقت از رقیبان، به دنبال رویکردهای نوینی باشند. بنابراین مطالعات و تحقیقات گستردهای جهت کسب مزیت رقابتی توسط سازمانها صورت گرفت. در این میان عامل مشتری از اهمیت خاصی برخوردار است و مطالعات ویژهای به این مبحث مهم اختصاص یافته است. صنعت بانکداری از جمله صنایعی است که در آن مشتریان، به دلیل ارتباطات مستقیم با سازمان اهمیت ویژهای دارند. از طرفی رواج کسبوکار الکترونیک در سازمانها و بانکها و مؤسسات مالی‌ و اعتباری سبب برجای ماندن داده‌های غنی حاصل از تعاملات و ارتباطات مشتری با سازمان شده که این داده‌ها در صورت بهرهبرداری درست و استخراج دانش و الگو از میان آنها به گنجینهای غیر قابل توصیف بدل خواهند شد. از طرفی، به طور خاص در صنعت بانکداری، به نظر میرسد مسائلی چون مشکلات موجود در نظام اقتصادی کشور، افزایش میزان عرضه بر تقاضا در صنعت بانکداری، دولتی بودن بسیاری از بانکهای کشور و عرضه خدمات بانکی مشابه و... توجه به مشتری و جایگاه او در نظام بانکی را با بیمهری مواجه نموده است. وجود این مسائل خود میتواند فرصتی باشد تا بانک با بهرهگیری از ابزارهای مدیریت دانش مشتری، نیازها و توقعات مشتریان را زودتر از سایر رقبا پیشبینی نموده و گوی سبقت را از رقیبان برباید [11]. مدیریت دانش مشتری ابزاری است که سعی دارد با تمرکز بر چگونگی پیشرفت و توسعه سازمان به کمک دانش کسب شده از روی داده‌های حاصل از روابط با مشتریان و کسب مشتریان جدید و تأمین رضایت مشتریان ارزش افزوده را برای سازمان به ارمغان آورد. در این تحقیق ابزار داده‌کاوی جهت کشف دانش پنهان در میان حجم عظیم داده‌های مربوط به مشتریان انتخاب شده است. این ابزار با وجود روش‌های متنوع موجود در آن و امکان تحلیل انبوهی از داده‌ها، محدودیت‌های روش‌های سنتی گزارش گیری و روش‌های آماری را برطرف نموده است. امروزه کاربردهای جالب و وسیع این ابزار در اکثر علوم و به طور خاص صنعت بانکداری مورد توجه محققان و متخصصین امر قرار گرفته است. این فصل تاریخچه بانکداری و داده‌کاوی، مفاهیم و کاربردهای آن تشکیل شده است. در بخش داده‌کاوی به تعاریف و مفاهیم و تفسیر مختصری از الگوریتم‌های موجود در زمینه علم داده‌کاوی خواهیم پرداخت. در ادامه به نمونههایی از کاربردهای داده‌کاوی به خصوص در صنعت بانکداری اشاره شده و در نهایت پیشینه تحقیق بررسی خواهد شد. 2-8- داده‌کاوی سرعت روزافزون انباشت داده‌های حاصل از پردازش و تعاملات و تبادلات و ارتباطات موجود در فضای کسبوکار، به خصوص با وجود پیشرفت سیستمهای فناوری اطلاعات و ارتباطات، مجموعه وسیعی از داده‌ها را پدید آورده است. طبق آخرین تحقیقات محققان، ظرفیت ذخیرهسازی داده‌ها در سراسر دنیا هر نه ماه دو برابر و داده‌های در دسترس نیز هر پنج سال دو برابر می‌شوند. همچنین دانشمندان پیشبینی کرده‌اند پایگاه‌های داده هر 5 سال یک بار به طور کامل فراموش ‌شده و داده‌های موجود در آن‌ها فقط در انبارهای داده ذخیره ‌میشوند. هرچند در نگاه اول ممکن است به نظر برسد این داده‌ها بیفایده هستند، اما این داده‌ها میتوانند در صورت وجود ابزارهای مناسب، حکم معادن طلا را برای سازمانها، کسبوکارها و شرکتها داشته باشند. با این حال که ما از نظر دادهای غنی هستیم اما از نظر دانشی بسیار فقیریم [31]. اکثر سازمانها با فقر دانش مواجهاند و میتوان ادعا نمود این مسئله به سبب عدم شناخت سازمانها از ابزارهایی نظیر داده‌کاوی است که برخلاف ابزارهای گزارش گیری و آمارگیری قدیم میتوانند حجم عظیمی از داده‌ها را تحلیل نموده و الگوهای پنهان مفیدی از دل این داده‌ها آشکار نمایند. داده‌کاوی به کشف الگوهای پنهان و استخراج دانش و اطلاعات از پایگاه داده‌های بسیار بزرگ اشاره دارد. داده‌کاوی الگوریتمهایی چون دسته‌بندی، خوشه‌بندی، قوانین انجمنی و ... را بر روی مجموعهای از داده‌ها اعمال نموده و بعد از تحلیل محتویات دادهای مدلهایی را به عنوان خروجی تولید مینماید. روش‌های آماری اساس کار داده‌کاوی را تشکیل میدهند. 2-8-1- مقايسه روش‌های آماری و داده‌کاوی با پیشرفت روزافزون علوم در گذر زمان روش‌های قدیمی موجود جای خود را به روش‌های نوین میسپارند تا محدودیت‌های روش‌های گذشته را برطرف نمایند. علم آمار که یکی از شاخههای علوم ریاضیست نیز از این امر مستثنی نبوده و دست‌خوش تغییرات بسیاری گشته است. آمار، علمی است که به جمع آوری، توضیح و تفسیر داده‌ها میپردازد. اشتراک تکنیکهای آماری و داده‌کاوی بیشتر در تخمین و پیش‌بینی است. همچنین از آزمونهای آماری در ارزیابی نتایج داده‌کاوی نیز استفاده میشود. از این منظر میتوان روش‌های آماری را اساس کار داده‌کاوی دانست. داده‌کاوی به صورت يك محصول قابل خريداري نميباشد، بلكه يك رشته علمي و فرآيندي است كه بايد به صورت يك پروژه پيادهسازي شود. داده‌ها اغلب حجيم ميباشند و به تنهایی قابل استفاده نيستند، بلكه دانش نهفته در داده‌ها قابل استفاده ميباشد. بنابراين بهرهگيري از قدرت فرآيند داده‌کاوی جهت شناسايي الگوها و مدلها و نيز ارتباط عناصر مختلف در پايگاه داده جهت كشف دانش نهفته در داده‌ها و نهايتاً تبديل داده به اطلاعات، روز به روز ضروريتر ميشود [11]. پايه و اساس داده‌کاوی به دو مقوله آمار و هوش مصنوعي تقسيم شده است، كه روشهاي هوش مصنوعي به عنوان روشهاي يادگيري ماشين در نظر گرفته ميشوند. تفاوت اساسي بين روشهاي آماري و روش‌های يادگيري ماشين بر اساس فرضها و يا طبيعت دادههايي كه پردازش ميشوند. تفاوتهاي موجود بين روش‌های آناليز آماری و روش‌های داده‌کاوی در جدول 2-3 نشان داده شده است. جدول 2-3 مقایسه روش‌های تحلیل آماری و داده‌کاوی [11 به نقل از 14] روشتحلیل آماریداده‌کاویفرضیهآمارشناسان همیشه با یک فرضیه شروع بکار میکنند.دادهکاو به فرضیه احتیاجی ندارد.نوع داده‌هااز داده‌های عددی استفاده میکند.ابزارهای داده‌کاوی میتوانند از انواع مختلف داده و نه فقط داده عددی استفاده کنند.ایجاد روابطآمارشناسان باید رابطههایی ایجاد کنند که با فرضیه ارتباط دارد.الگوریتم‌های داده‌کاوی به صورت اتوماتیک روابط را ایجاد میکنند.صحت داده‌هاآنها میتوانند داده‌های نابجا و نادرست را در طول تحلیل مشخص کنند.داده‌کاوی به داده‌های صحیح و درست نیاز دارد.قابلیت تفسیرآنها میتوانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.نتایج داده‌کاوی نسبتاً پیچیده است و نیاز به متخصصانی جهت تحلیل و بیان نتایج به مدیران دارد. 2-8-2- مفهوم داده‌کاوی برای داده‌کاوی تعاریف بسیار زیادی ارائه شده است که البته بسیاری از این تعاریف بسیار نزدیک به یکدیگرند. در بعضی منابع داده‌کاوی را با اصطلاحاتی نظیر کشف دانش معادل قرار دادهاند که باید این‌گونه اصلاح شود، داده‌کاوی یک گام اساسی در فرایند کشف دانش است. اصطلاحات و عبارات بسيار ديگري نيز معادل با داده‌کاوی بکار رفتهاند كه معاني مشابه و گاهی متفاوت دارند مانند، كاوش دانش از پايگاه داده، استخراج دانش، تحليل الگوي داده، لايروبی داده و باستانشناسي [11]. داده‌کاوی یک گام از فرایند کشف دانش از پایگاه داده است و به الگوریتمهایی که برای استخراج الگو از داده‌ها بکار میرود، گفته میشود. اطلاعات حاصل میتواند به عنوان ورودی برای تشکیل مدل دسته‌بندی و یا پیشبینی، یا بهبود یک مدل موجود بکار رود [53]. داده‌کاوی جستجو و یا کاوش دانش (الگوهای دلخواه) از مقادیر زیاد داده‌های موجود است [31]. در تعریفی دیگر داده‌کاوی به این صورت تعریف شده است: به‌کارگیری الگوریتم‌های یادگیری ماشین برای یافتن الگوهای نهفته از ارتباطات موجود در بین عناصر دادهای موجود در یک مجموعه داده بسیار بزرگ که میتواند منجر به افزایش سود شود [26]. داده‌کاوی يك متدولوژي بسيار قوي و با پتانسيل بالا ميباشد كه به سازمانها كمك ميكند كه بر مهم‌ترین اطلاعات از مخزن داده هاي خود تمركز نمايند [52]. داده‌کاوی به فرايند استخراج اطلاعات نهفته، قابل فهم، قابل تعقيب از پایگاه داده‌های بزرگ و استفاده از آنها در تصميمگيريهاي تجاري مهم اطلاق ميشود [13]. فرایند داده‌کاوی را میتوان به عنوان سیستمی تصمیمیار تلقی نمود که سازمان و مدیران آن را قادر میسازد از داده‌های خام به گنجینههای دانشی دست یابند و از این دانش در مسیر اتخاذ استراتژی‌های سازمانی بهره گیرند. اگر هرم داده‌ها را به صورت زير در نظر بگيريم: شکل 2-6 سیر تکامل در هرم دانش [11] با آگاهي از تعريف داده‌کاوی و نگاهي به هرم بالا بهتر ميتوان به نقش داده‌کاوی در سازمانها پي برد. داده‌کاوی سبب ميشود كه سازمانها از سطح داده به سطوح بالاتر دانش و الگوهاي ناشناخته برسند. الگوهاي استخراج شده ميتوانند رابطهاي بين ويژگيها و مشخصات سيستم مانند نوع تقاضا و نوع مشتري، پيشبينيهاي آينده بر اساس مشخصات سيستم، قوانين (اگر-آنگاه) بين متغيرهاي سيستم، دستهبنديها و خوشهبنديهاي اشياء و ركوردهاي شبيه به هم در يك سيستم و غيره باشند [11 به نقل از 52]. 2-8-3- داده‌کاوی و کشف دانش داده‌کاوی را میتوان به عنوان ابزاری جهت کشف دانش از پایگاههای داده تعریف نمود. داده‌کاوی یک گام در فرایند کشف دانش از پایگاه داده است که با استفاده از الگوریتم‌های کشف و تحلیل داده‌ها تعداد خاصی الگو یا مدل را از روی داده‌ها تولید میکند. الگوی زیر مراحل استخراج دانش مشتری به کمک داده‌کاوی در سازمان را نمایش می‌دهد. شکل 2-7 گام‌های فرایند تولید دانش از پایگاه داده‌ها [31و53] این الگو گام‌های فرایند کشف دانش از پایگاه داده را در [53] به صورت زیر نشان داده است: چنانچه از نمایش الگوی فوق برداشت میشود، ابتدا باید شناسایی دامنه فعالیت‌های کسبوکار صورت گرفته و دسترسی به داده‌ها مقدور گردد. داده‌ها در اینجا میتواند مجموعهای از حقایق، الگوها و یا خبرگی باشد. در مرحله بعد با توجه به اهداف تعیین شده مورد نظر ذینفعان سازمان (مدیران، کارمندان، سرپرستان شعب، کاربران، خبرگان و مشاورین فناوری اطلاعات)، رکوردهای مورد نیاز توسط دادهکاو از میان حجم عظیم داده‌های سازمان مورد نظر انتخاب میشوند. در این مرحله حجم انبوه داده‌ها به داده‌های هدف کاهش داده میشود. برای آماده‌سازی بخش داده‌های انتخابی باید عملیات پیشپردازشی روی آنها صورت گیرد. این عملیات شامل جمع آوری اطلاعات لازم برای مقداردهی به مقادیر رکوردهای از قلم افتاده، تشخیص داده‌های متفاوت و هماهنگی آنها با بقیه، جمع آوری اطلاعات لازم برای اصلاح یا حذف داده‌های نامناسب میباشد. محصول این مرحله داده‌های پیش‌پردازش شده خواهد بود. گام بعد گزینش داده‌ها با هدف کاهش حجم آنها و یافتن ویژگیهایی از داده‌ها با توجه به هدف تعیین شده برای کسبوکار خواهد بود. با کاهش حجم داده‌ها یا روش‌های تغییرات آن‌ها حجم داده‌ها میتواند به مقدار مفید و مؤثری کاهش یابد. مرحله بعد اعمال یک یا چند الگوریتم (مانند کلاسیفایرها و یا شبکه‌های عصبی و ...) از بین الگوریتم‌های موجود و یا ابتکاری داده‌کاوی بر روی دادههاست. حاصل این مرحله یک یا چند مدل و یا الگو خواهد بود. در گام بعد با تحلیل، ارزیابی و تفسیر الگوهای معنادار کشف شده، دانش استخراج میگردد. دانش استخراج شده میتواند به صورت قواعدی مستند شود. یک الگو زمانی میتواند به عنوان دانش تلقی شود که : به سادگی برای افراد قابل فهم باشد. اعتبار آن از یک حد آستانهای پایینتر نباشد. دانش جدیدی متناسب با اهداف تعیین شده سازمان ارائه دهد. کاربردی باشد [1]. 2-8-4- فرايند داده‌کاوی داده‌کاوی، فرایندی خلاقانه است که دانش و مهارتهای گوناگونی را میطلبد. وجود یک استاندارد جهت انجام این فرایند به تبدیل مشکلات کسبوکار به مسائل داده‌کاوی، گزینش روش‌های داده‌کاوی و تبدیل داده‌ها متناسب با نوع کسبوکار، معنا دادن به ارزیابی اثربخشی و مستندسازی نتایج اهمیت فراوان دارد. چرخه CRISP-DM فرایند استانداردی است که با هدف ارائه چارچوبی برای اجرای پروژههای داده‌کاوی بزرگ، یا هزینه کمتر، قابلیت اطمینان بیشتر، قابلیت مدیریت بیشتر و سریعتر توسعه یافت [50]. مدل مرجع CRISP-DM نمای کلی از چرخه عمر یک پروژه داده‌کاوی را نشان می‌دهد. این مدل شامل فازهای یک پروژه، کارهای لازم برای انجام هر فاز و خروجیهای هر فاز است. چرخه عمر یک پروژه داده‌کاوی چنانچه در شکل 2-8 نشان داده شده است به شش فاز شکسته میشود. توالی فازها اجباری نیست بلکه این ترتیب مرسومترین، مهمترین و پر تکرارترین وابستگی بین فازها را نشان می‌دهد. در مورد پروژههای خاص این ترتیب بستگی به این دارد که خروجی کدام فاز و یا عمل خاص نیازمند اجرای فاز بعدی است [50]. حلقه بیرونی مربوط به طبیعت پروژههای داده‌کاوی است. بدین معنی که پروژه داده‌کاوی با تولید یک راهکار خاص در زمان مشخص پایان نمییابد بلکه با اجرای یک دور فرایند داده‌کاوی در سازمان و اجرای آن راهکار در سازمان، ممکن است نتایجی حاصل شود که سؤالات جدیدی از کسبوکار را برانگیزد و این نیازمند تکرار دو و یا چند باره چرخه خواهد بود. شکل 2-8 متدولوژي فرآيند استاندارد ميان صنعتي داده‌کاوی (CRISP-DM) [50] مدل فرایند CRISP-DM شامل فازهای زیر میباشد: گام درك موقعيت كسبوكار گام درك داده‌ها گام پيشپردازش داده‌ها گام مدل‌سازی گام ارزيابي گام به‌کارگیری در ادامه هر یک از این گامها به طور خلاصه توضیح داده میشود. درک موقعیت کسب و کار: این گام، بخش آغازین مدل CRISP-DM میباشد که بر روی درک و تعیین اهداف و نیازمندیها از منظر کسب‌وکار و تبدیل این دانش به تعریف یک مسئله داده‌کاوی و طراحی طرح اولیه پروژه برای دستیابی به این اهداف تمرکز دارد. در اين گام بايد متخصص دادهكاو از توان و تجربه متخصص كسب و كار بهرهمند گردد [50]. البته در يك پروژه موفق داده‌کاوی اين مشاركت در گام اوليه متوقف نخواهد شد، بلكه در سراسر فرآيند داده‌کاوی ادامه خواهد داشت [53]. درك داده‌ها: گام درک داده‌ها با جمع آوری داده‌های اولیه آغاز میشود و با فعالیتهایی جهت آشنایی با داده‌ها، شناسایی مشکلات موجود در کیفیت داده‌ها، اکتشاف داده‌ها و یا تشخیص زیرمجموعههای جالب جهت تشکیل فرضیهها برای اطلاعات مخفی پیگیری میشود. ارتباط نزدیکی بین دو گام درک موقعیت کسب و کار و درک داده‌ها وجود دارد. ساختار مسئله داده‌کاوی و طرح پروژه به درک حداقلی از داده‌های در دسترس نیازمند است [50]. در کل میتوان گفت گام درک داده‌ها بر اساس سه گام جمع آوری داده‌ها، به‌کارگیری تحلیل اکتشافی برای دستیابی به یک دید اولیه و ارزیابی کیفیت داده‌ها استوار است [11]. پيشپردازش داده‌ها: فاز آماده‌سازی داده‌ها کلیه فعالیت‌های مربوط به ساخت مجموعه داده (دادهای که میتواند به عنوان ورودی ابزار مدل‌سازی مورد استفاده قرار گیرد) از داده‌های خام اولیه را در بر میگیرد. پس از گردآوري داده‌ها بايد خطاهاي احتمالي موجود در آنها را از بين برده و داده‌ها را تميز نمود [31]. فعالیت‌های مربوط به آماده‌سازی داده‌ها شامل ساخت جدول، ثبت داده‌ها و انتخاب ویژگی، پاک‌سازی داده‌ها، تشکیل ویژگی‌های جدید و تغییر شکل داده‌ها متناسب با ابزارهای مدل‌سازی میباشد [50]. اهمیت پیش‌پردازش داده‌ها به این دلیل است که اكثر دادههايي كه در پايگاههاي دادهاي وجود دارند و پيشپردازش نشده‌اند، ناقص و نويزدار هستند و داراي مشكلات احتمالي زير ميباشند: مقادير دور افتاده يا حدي، مقادیر گم شده، صفات تكراري، دادههايي كه در فرم مناسب براي مدلسازي نيستند و دادههايي كه با عقل سليم جور در نميآيند. براي اين منظور در داده‌کاوی روشهاي مختلف تميز كردن و تغيير شكل داده‌ها ارائه گرديده است [11]. مدلسازي: در این گام، روش‌های متفاوت مدل‌سازی انتخاب و بکار گرفته میشود، و پارامترهای آنها به صورت مقادیر بهینه تنظیم میشود. بعضی از روشها ساختار دادهای خاصی را میطلبند. بین فازهای آماده‌سازی و مدل‌سازی داده‌ها ارتباط نزدیکی برقرار است. اغلب مشکلات داده‌ها حین مدل‌سازی درک میشود و یا ایدههایی برای ساخت داده‌های جدید به ذهن میرسد [50]. این گام شامل بخشهای زیر است [11]: انتخاب و استفاده از تكنيك مدلسازي مناسب دستكاري و تنظيم مدل براي دستيابي به نتايج بهينه در صورت نياز برگشت به گام پيشپردازش ارزيابي: در پروژهای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام به‌کارگیری، مدلها باید به طور دقیق ارزیابی شوند و گام‌های اجرایی ساخت مدلها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [50]. مدلهاي داده‌کاوی بايد به فرآيند تصميمگيري كمك كنند [31]. پس مدل زماني مفيد است كه تفسير پذير باشد زيرا انسان‌ها مايل به استفاده از اصول پیچیده در فرایند تصمیمگیری جعبه سیاه مانند خود نیستند [11]. به‌کارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندیها، فاز به‌کارگیری میتواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند داده‌کاوی تکرارپذیر باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گام‌های استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [50]. هر کدام از گام‌های مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول 2-4 آمده است. جدول 2-4 فعالیت‌های مربوط به فازهای CRISP-DM و خروجی هر فعالیت [50] درك كسبوكاردرك داده‌هاآماده‌سازی داده‌هامدلسازيارزيابيبه‌کارگیری-تعیین اهداف کسبوکاردرک اهداف کسب و کار و معیارهای موفقیت آن-ارزیابی وضعیتموجودی منابع، نیازمندیها، فرضیات، محدودیتها، ریسکها و احتمالات، مجموعه اصطلاحات و هزینهها و فایدهها-تعیین اهداف داده‌کاویاهداف داده‌کاوی، عوامل موفقیت داده‌کاوی-تولید طرح پروژهطرح پروژهتخمین اولیه ابزارها و تکنیکها-جمع آوری داده‌های اولیهگزارش جمع آوری داده‌های اولیه-توصیف داده‌هاگزارش توصیف داده‌ها-مرور داده‌هاگزارش مرور داده‌ها-ارزیابی کیفیت داده‌هاگزارش کیفیت داده‌ها-جمع آوری داده‌هاتوصیف مجموعه داده-انتخاب دادهمنطق انتخاب/حذف داده‌ها-پاک‌سازی داده‌هاگزارش پاک‌سازی داده‌ها-ساختاردهی داده‌هاتفکیک ویژگیهاتولید رکوردها-یکپارچگی داده‌ها-داده‌های یکپارچه-سازماندهی داده‌هاداده‌های مجدد سازماندهی شده-انتخاب روش مدل‌سازیروش مدل‌سازیفرضیات مدل‌سازی-تولید تستطرح تست-ساخت مدل-تنظیمات پارامترهای مدلشرح مدل-ارزیابی مدلارزیابی مدلپارامترهای اصلاح شده-ارزیابی نتایجارزیابی داده‌هاکاوش نتایج بر مبنای معیارهای موفقیت کسبوکارمدلهای بهبود یافته-بازبینی فرایندبازبینی فرایند-تعیین اقدامات بعدیلیستی از اقدامات و تصمیمات ممکن-به‌کارگیری طرحطرح توسعه-نظارت و نگهداری طرحطرح نگهداری و نظارت-گزارش نهایی پروژهگزارش نهاییارائه نهایی-بازبینی پروژهمستندات تجربی 2-8-5- معرفی روش‌های داده‌کاوی روش‌های داده‌کاوی در یک تقسیمبندی کلی به دو دسته روش‌های توصیفی و روش‌های پیشبینانه تقسیم میشوند. روش‌های توصیفی به خواص عمومی داده‌ها میپردازند. بدین ترتیب که الگوهایی قابل تفسیر توسط انسان از داده‌ها استخراج میکنند. در رویکرد پیشبینانه هدف پیشبینی رفتارهای آینده است. در این روشها از چند متغیر جهت پیشبینی مقادیر آینده استفاده میشود. تقسیمبندی برخی روش‌های داده‌کاوی در شکل 2-9 نشان داده شده است. شکل 2-9 دسته‌بندی کلی عملکردهای داده‌کاوی در ادامه برخی از این روشها به طور مختصر معرفی خواهند شد. 2-8-5-1- دسته‌بندی این روش از رایجترین، محبوب‌ترین و قابل درکترین روش‌های داده‌کاوی می‌باشد. در این روش هر یک از نمونه‌ها به یکی از گروه‌ها یا دسته‌ها تخصیص می‌یابد. در روش دسته‌بندی هر نمونه با تعدادی خصوصیت که یکی از این خصوصیتها صفت کلاس مربوط به آن نمونه است، شناخته میشود. برای دسته‌بندی نمونهها جهت استخراج مدل، وجود صفت کلاس برای هر نمونه الزامی است. هدف از دسته‌بندی، یافتن مدلی بر اساس خصوصیت قابل پیشبینی یا کلاس هر نمونه به عنوان تابعی از سایر ویژگی‌های آن نمونه میباشد [1]. این روش به انتساب نمونهها به دستهها بر اساس صفتی قابل پیشبینی اشاره دارد [2]. مطابق شکل 2-9 از الگوریتم‌های شاخص این روش میتوان درخت تصمیمگیری، شبکه‌های عصبی و ناوی بیز را نام برد. این الگوریتمها معمولاً به یک مقدار هدف نیاز دارند تا هر داده را به یکی از مجموعه کلاسهای از پیش تعریف شده منتسب کنند. به چنین الگوریتمهایی که برای یادگیری نیاز به مقدار هدف دارند الگوریتم‌های با ناظر گویند. دسته‌بندی در مسائل تجاری مانند مدیریت ریسک، تبلیغات هدفمند و تحلیل روی‌گردانی مشتری کاربرد دارد. 2-8-5-2- درخت تصمیم مهم‌ترین مدلی که در این رویکرد استفاده میشود، درخت تصمیمگیری میباشد. در این روش درختی ساخته میشود و در هر گره از آن آزمونی بر روی یک از ویژگیها انجام میشود و داده با توجه به مقدار مشخصههای خود در راستای یکی از فرزندان گره هدایت میشود، تا جایی که داده به برگ برسد. هر برگ نشان دهنده یک دسته میباشد [11]. جدول 2-5 نمونهای از یک مسئله دسته‌بندی را نشان می‌دهد. X1 تا Xm ویژگیهایی هستند که به کمک آنها کلاس (C1 یا C2) هر یک از نمونههای U1 تا Un مشخص میشود. aij مقدار مربوط به ویژگی j از نمونه i است. جدول 2-5 نمونه داده‌های مورد نیاز در یک مسئله مدل‌سازی به روش دسته‌بندی [1] YXm. . .X2X1C2a1m. . .a12a11U1C1a2m. . .a22a21U2....... . ..........C2anm. . .an2an1Un از دلایل استفاده از درخت تصمیم میتوان به موارد زیر اشاره نمود: 1. پس از تشکیل درخت تصمیم پیچیدگی محاسباتی به صورت لگاریتمی شده و کاهش مییابد. 2. میتوان قواعدی به صورت اگر-آنگاه از درخت تصمیم استخراج و از آن به صورت جداگانه استفاده نمود [11]. درخت تصمیم برخلاف شبکه‌های عصبی به تولید قانون میپردازد و نتایج بدست آمده از درخت در قالب یک سری قوانین توضیح داده میشود. 3. در درخت تصمیم برخلاف شبکه‌های عصبی لزومی ندارد داده‌ها به صورت عددی باشند. از ویژگی‌های درخت تصمیم میتوان به عدم حذف داده‌ها در زمان دسته‌بندی، استفاده آسان، درک ساده مدل حاصل با وجود پیچیدگی کار الگوریتم ساخت درخت تصمیم و ... اشاره نمود [31]. 2-8-5-3- شبکه‌های عصبی شبكه عصبي مصنوعي يك سيستم پردازش اطلاعات است كه ویژگی‌های عملكردي مشابه شبكه عصبي بيولوژيكي دارد. شبكههاي عصبي مصنوعي به عنوان مدل‌های رياضي تعميم يافته از نرون‌های بيولوژيكي يا شناخت انسان بر اساس مفروضات زير توسعه يافته است: پردازش اطلاعات در واحدهاي بسيار سادهاي كه نرون ناميده می‌شوند رخ می‌دهد. سیگنال‌های نرون‌ها از طريق اتصالات انتقال می‌یابد. هر ارتباط يك وزن دارد كه در يك شبكه عصبي متداول، در سيگنال ورودي ضرب می‌شود. هر نرون يك تابع فعال سازي دارد (كه عمدتاً غيرخطي است) كه ورودي شبكه جمع و سیگنال‌های ورودي وزن را به خروجی تبديل می‌کند. می‌توان هر شبكه عصبي را با ویژگی‌های زير تشريح نمود: الگوي ارتباطات بين وزن‌ها (كه معماري شبكه ناميده می‌شود) روش تعيين وزن‌ها در ارتباطات (که يادگيري يا آموزش ناميده می‌شود) تابع فعالسازي عمدتاً شبکه‌های مختلف در جنبه هاي فوق متفاوت هستند و بدين طريق از هم متمايز می‌شوند. هر شبكه عصبي از تعداد زيادي واحد ساده پردازش كننده كه نرونها، واحدها، سلول‌ها و يا گره‌ها ناميده ميشوند، تشكيل شده است. هر نرون با نرون‌های ديگر به وسيله اتصالات مستقيم مرتبط است كه هر اتصال با يك وزن نمايندگي می‌شود. در واقع وزن‌ها اطلاعاتي را كه براي حل مسئله مورد استفاده قرار می‌گیرد بازنمایی ميكند. هر نرون يك وضعيت دروني دارد كه فعالسازي يا سطح فعاليت ناميده می‌شود و تابعی از ورودی‌هایی است كه دريافت می‌کند. هر نرون فعاليت خود را به عنوان يك سيگنال به ساير نرون‌ها ارسال می‌کند. البته لازم به توجه است كه هر نرون تنها يك سيگنال در هر لحظه از زمان قادر است ارسال كند [11]. 2-8-5-4- پیش بینی این تکنیک از روش‌های مهم و قدیمی داده‌کاوی است که میتواند جهت پاسخگویی به مسائلی از قبیل میزان جذب سرمایهگذاری ماه آینده بانک، پیشبینی ارزش سهام در روز آینده و ... مورد استفاده قرار گیرد. در پیشبینی مجموعهای از اطلاعات به عنوان ورودی به الگوریتم داده میشود. خروجی یک معادله ریاضی متناسب با این ورودی خواهد بود. برای پیشبینی یک متغیر در آینده داده‌ها را به فرمول ایجاد شده میدهیم و حاصل پیشبینی مورد نظر خواهد بود. تفاوت این روش با روش‌های دسته‌بندی در این است که در روش دسته‌بندی متغیر هدف، مقادیری گسسته دارد اما در مورد روش پیشبینی مقادیر هدف پیوستهاند [1]. از مدلهای رایج در زمینه پیشبینی میتوان به رگرسیون اشاره نمود. رگرسیون خطی و منطقی از پرکاربردترین روش‌های رگرسیوناند. رگرسیون خطی رویکردی برای مدل‌سازی رابطه بین متغیرهای اسکار Y و متغیرهای پیشبینی کننده X است. امروزه برای مدل‌سازی روابط غیرخطی و پیچیده بین متغیرهای ورودی خروجی از روشهایی مانند شبکه عصبی استفاده میشود. 2-8-5-5- خوشه‌بندی خوشه‌بندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی با هم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با داده‌های موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با داده‌های موجود در سایر خوشه‌ها متفاوتاند. در خوشه‌بندی موضوعات زیر مورد توجه است: چه تعداد از خوشه‌ها میتواند دانش نهفته در داده‌ها را کشف نماید؟ مسئله تعداد خوشه‌ها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد. معیارهای شباهت و تفاوت داده‌ها چیست؟ این معیارها خود به واسطه روش‌های مختلفی محاسبه میگردد، اما در بیشتر روش‌های خوشه‌بندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روش‌های مختلفی چون فاصله اقلیدسی، فاصله مینکوفسکی و یا فاصله مانهاتان محاسبه شود. بعد از تعیین تعداد خوشه‌ها و معیار شباهت یا فاصله داده‌ها، داده‌ها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11]. خوشه‌بندی یک الگوریتم بدون ناظر در داده‌کاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2]. تفاوت این روش با طبقهبندی در این است که در طبقه‌بندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مي‌يابد ولي در خوشه‌بندي هيچ اطلاعي از کلاسهاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند. به طور خاص در صنعت بانکداری از الگوریتم‌های خوشه‌بندی در بخش‌بندی مشتریان به گروههای مشخص بر طبق الگوهای رفتاری آنها کاربرد دارد. شناسایی گروههای مشتریان بسیار برای بانک حائز اهمیت بوده و میتواند در تصمیمگیریهای کنونی و اتخاذ راهبردهای میانمدت و بلندمدت بانک راهگشا باشد. 2-8-5-5- انواع خوشه‌بندی امروزه الگوریتم‌های متنوعی در زمینه خوشه‌بندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]: 1- خوشه‌بندی سلسله‌مراتبی در این نوع خوشه‌بندی خوشه‌ها به صورت متوالی به دو شیوه انباشتی و یا تقسیمکنندگی توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل داده‌ها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشه‌ها ادامه مییابد. 2- خوشه‌بندی مبتنی بر مدل در این روش یک مدل احتمالی مشخص برای داده‌ها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که داده‌ها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود. 3- خوشه‌بندی مبتنی بر بخش‌بندی نام دیگر این روش خوشه‌بندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف میباشد. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینهسازی آن، ساختار معنیداری (خوشه‌ها) را در داده‌های مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشه‌بندی مبتنی بر بخش‌بندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیشترین شباهت و با مراکز دیگر خوشه‌ها بیشترین عدم شباهت را داشته باشند. 2-8-5-5-2- معیارهای ارزیابی در خوشه‌بندی تکنیکهای خوشه‌بندی برای تخصیص هر داده به خوشه مربوطه بر اساس یکی از معیارهای شباهت و یا عدم شباهت (یا فاصله) عمل میکنند. داده، در صورتی که بیشترین شباهت را با داده‌های یک خوشه و یا بیشترین فاصله را با خوشههای دیگر داشته باشد، به خوشه منتسب میشود. زمانی که مشاهدات به گونه‌ای خوشه‌بندی شوند که هر خوشه در حداکثر تراکم باشد و حداکثر فاصله را با دیگر خوشه‌ها داشته باشند، خوشه بندی خوبی انجام‌گرفته است [11]. معیار شباهت، معیاری عددی است که میزان شباهت دو شیء داده را نسبت به یکدیگر نشان می‌دهد. هر چقدر دو شیء به یکدیگر شبیهتر باشند این معیار مقدار بالاتری دارد و معمولاً مقداری بین 0 و 1 دارد. معیارهای ارزیابی شباهت در جدول 2-6 نشان داده شده است. n: تعداد ابعاد (ویژگی‌های) ورودی، p و q: اشیاء داده ورودی، pk و qk: kامین ویژگی یا شیء داده ورودی میباشند. جدول 2-6 معیارهای محاسبه شباهت در خوشه‌بندی نام معیارفرمول محاسبهکسینcos(d1∙d2)d1d2d1 و d2 دو بردار متن میباشندجاکاردT(p,q)=p∙qp2+p2-p∙q معیار فاصله نیز مقداری عددی است که میزان تفاوت دو شیء داده را نشان می‌دهد. هر چقدر دو شیء داده به یکدیگر شبیهتر باشند این معیار مقدار پایینتری خواهد داشت. معیارهای ارزیابی فاصله در جدول 2-7 ارائه شده است. جدول 2-7 معیارهای محاسبه فاصله در خوشه‌بندی نام معیارفرمول محاسبهفاصله اقلیدسیdist=k=1n(pk-qk)2مینکوسکیdist=(k=1npk-qkr)1rسیتی بلاک یا مانهاتانdist=(k=1npk-qkr)1r if r=1ماهالانوبیسmahalanobis(p,q)=(p-q)-1(p-q)T 2-8-5-6- تحلیل انحراف این روش جهت یافتن دادههایی که بسیار متفاوت از داده‌های دیگر عمل میکنند یا تغییرات چشمگیری نسبت به رفتار مشاهده شده قبلی دارند. این داده‌ها، داده‌ها پرت نام دارند. از کاربردهای این روش میتوان به کشف تقلب در کارتهای اعتباری اشاره نمود جایی که شناسایی رفتار غیر نرمال از بین میلیونها تراکنش کاری دشوار و تا حدودی ناممکن مینماید. کشف نفوذ در شبکه و تشخیص کلاه‌برداری در معاملات از دیگر کاربردهای این روش میباشد. این الگوریتم در سادهترین حالت با استفاده از سطح زیر منحنی نرمال و در نظر گرفتن مقدار معینی از انحراف معیار نمونههای متفاوت با سایرین را شناسایی مینماید [1]. یک سوءاستفاده مالی در بانک میتواند مدیران بانک را متحمل هزینههای زیادی نماید. با به‌کارگیری این الگوریتم میتوان به کشف رفتارهای مشکوک مشتریان پرداخت و در نتیجه هزینههای ناشی از این‌گونه سوءاستفادهها را کاهش داد. 2-8-5-7- قواعد وابستگی (انجمنی) این روش برای یافتن الگوهای پر تکرار، وابستگیها، ارتباطات یا ساختارهای علی موجود در میان مجموعهای از عناصر و یا اشیاء در پایگاه داده‌های تراکنشی و یا پایگاه داده‌های رابطهای و دیگر مخازن اطلاعات به کار میرود. مثلاً اینکه چه نوع خدمات بانکی اغلب به صورت همزمان توسط یک مشتری مطالبه میشود میتواند به صورت یک قاعده از پایگاه داده‌های بانک استخراج شود [31]. قواعد وابستگی برای بیان حقایق موجود در مجموعهای از داده‌ها به کار میروند. بدین ترتیب که اگر بعضی وقایع رخ دهند آنگاه وقایع دیگری نیز رخ خواهند داد. اگر یک قاعده وابستگی را با X⟹Y نشان دهیم (یعنی در صورتی که X اتفاق بیافتد Y هم اتفاق میافتد)، مسئله قواعد وابستگی در اصل یافتن قواعدی است که از حداقل پشتیبانی برقرار بوده و به اندازه کافی به آنها اعتماد داشته باشیم. 2-8-5-8- تحلیل توالی تحلیل توالی برای یافتن الگوهای موجود در بین یک مجموعه داده است. تحلیل توالی و قواعد انجمنی هر دو شامل مجموعهای از حالات، تراکنشها و یا ارتباطات هستند. تفاوت این دو روش در این است که تقدم و تأخر رخدادها در تحلیل توالی بسیار حائز اهمیت است و توالی انتقالهای بین حالتهای مختلف تحلیل میشود. در صورتی که در قواعد انجمنی تراکنش‌های مختلف یک مشتری ارزش یکسان دارند. مثلاً در تحلیل توالی اینکه یک مشتری بانک از خدمات انتقال وجه بعد از واریز سود بهره گیرد یا پیش از واریز سود اهمیت دارد. اما در کشف قواعد انجمنی اینکه کدام فعالیت زودتر یا دیرتر انجام شده اهمیتی ندارد و دو تراکنش واریز سود و برداشت وجه مجموعه اقلام یکسانی را میسازند. شکل 2-10 توالی از بازدیدهای وب را نشان می‌دهد. هر گره شامل یک گروه URL است. هر خط جهت دار انتقال بین این گرهها را نشان می‌دهد و وزن هر انتقال نشان دهنده احتمال انتقال بین این گرههاست [1]. شکل 2-10 نمونهای از توالی بازدیدها در وب 2-8-6- نرم‌افزار داده‌کاوی ابزارهای داده‌کاوی که جهت مدیریت دانش مشتری انتخاب میشوند باید قادر باشند تا اطلاعات ضروری را از میان انبوه داده‌های در دسترس استخراج کنند. برای حصول این منظور ابزارهای داده‌کاوی باید خصوصیات زیر را داشته باشند: محیط کاربر پسند. بهرهوری بالا قابلیت انجام عملیات اساسی لازم هزینه اجرای نسبتاً پایین [30]. در حال حاضر چندین نرم‌افزار جهت داده‌کاوی توسط شرکتهای معتبر نرمافزاری عرضه شده است. نرم‌افزار مورد استفاده در این تحقیق SPSS Clementine 12.0 میباشد. SPSS از شرکتهای عمده آماری است که حاوی تعدادی از محصولات داده‌کاوی میباشد. SPSS توسط شرکت بریتانیایی ISL در اواخر سال 1998 ارائه شد و بسته داده‌کاوی Clementine را ارائه نمود. Clementine از اولین نرم افزارهایی بود که به مفهوم جریان داده‌کاوی پرداخت و به کاربر این امکان را داد که کارهایی چون پاکسازی داده‌ها، تبدیل داده‌ها و آموزش مدل را در همان محیط گردش کار انجام دهند. این نرم‌افزار شامل ابزارهایی برای مدیریت چرخه پروژه داده‌کاوی دارا میباشد. 2-8-7- کاربردهای داده‌کاوی امروزه کاربردهای بسیار زیادی از داده‌کاوی در بسیاری از زمینهها از جمله بازاریابی، علوم پزشکی، شرکتهای بیمه و مخابرات، شرکتهای تبلیغاتی و همه سازمانهایی که به علت تراکنشهای بالا و سروکار داشتن با مشتریان، دارای پایگاه داده‌های بزرگ میباشند، شناخته شده است. این علم میتواند پیشبینی‌هایی با دقت بالا برای سازمانها انجام دهد، همچنین به مدیران و متخصصان و کارشناسان کمک می‌کند که بتوانند آینده شرکت و کسب و کار خود را با دقت‌های بسیار بالا پیشبینی کنند، داده‌کاوی به مراکز صنعتی کمک می‌کند که درک و بینش صحیحی از نحوه کارکرد دستگاه‌های صنعتی پیچیده خود بدست آورند. در واقع داده‌کاوی ابزاری بسیار کارا برای استفاده از داده‌هایی است که تولید می‌شوند اما استفاده‌ای از آن‌ها نمی‌شود. داده‌کاوی علمی است که باعث تغییر و تحول در هر صنعت و کسب و کاری می‌شود و اکنون بسیاری از شرکت‌های معتبر در سرتاسر دنیا توانسته‌اند با استفاده از روش‌های داده‌کاوی سود سالیانه خود را به اندازه چشم گیری افزایش دهند تا جایی که این شرکت‌ها در کنار واحدهایی مانند تحقیق و توسعه، تکنولوژی اطلاعات، برنامهریزی و غیره، اقدام به تأسیس واحدهای داده‌کاوی نموده‌اند. همچنین کاربردهای زیادی از داده‌کاوی در زمینه صنعت بانکداری شناخته و بکار گرفته شده است. از این میان میتوان به کاربرد این ابزار در بازاریابی و مدیریت ارتباط با مشتریان (نظیر پروفایل سازی جهت جذب، حفظ و توسعه مشتری، مراقبت از مشتری، تحلیل روی‌گردانی مشتری)، کاربرد داده‌کاوی در کشف تقلب و سوءاستفادههای مالی (مانند فساد مالی، سوءاستفاده از داراییها و تقلب در گزارشگری مالی)، کاربرد داده‌کاوی در پیشبینی عملکرد بانک، داده‌کاوی جهت ارزیابی اعتبار مشتریان بانک و داده‌کاوی جهت ارزیابی عملکرد بانکها اشاره نمود [1]. 2-8-7-1- داده‌کاوی در صنعت بانكداری بخش بانكداري طبق الگوي پورتر براي فعاليت در محيط رقابتي امروز با پنج نيروي رقابتي مواجه است كه يكي از آن‌ها قدرت چانه زني مشتري است. افزايش رقابت بين بانک‌ها، تغيير قوانين و معرفي فناوری‌های جديد و خصوصاً زيرساخت اينترنتي سبب افزايش آگاهي مشتريان به همه امور شده است و در نتيجه قدرت چانه زني مشتري را بيشتر كرده است، به طوري كه مشتري قادر است در كمترين زمان به بانك ديگري رجوع كند [11]. شکل 2-11 نیروهای رقابتی پورتر [11 به نقل از 6] صنعت بانكداري در جهان تحت تغييرات شديد در طريقه انجام كسب و كار می‌باشند. بانک‌های پیشرو از ابزارهاي داده‌کاوی براي بخشبندي، تعيين سودمندی، دسته بندي اعتبار، پيشبيني قصور در بازپرداختها، بازاريابي، تشخيص تراکنش‌های متقلبانه و غيره استفاده می‌کنند. این ابزار به عنوان یک ابزار رقابتی در بانک شناخته شده است [11]. داده يكي از با ارزش‌ترین دارایيهاي شرکت‌ها می‌باشد، اما فقط در صورتي كه بدانيم چگونه دانش در آن‌را آشكار كنيم. داده كاوی امکان استخراج دانش موجود در دادههاي تاريخي و پيش بيني پيامدهاي موقعيتهاي آينده را در اختیار میگذارد. داده‌کاوی ابزار ارزشمندي می‌باشد كه با کمک آن يك سازمان می‌تواند با شناسايي اطلاعات مفيد بالقوه از مقدار اطلاعات جمع آوري شده، مزيت واضحي نسبت به رقبايش كسب نمايد [11]. كاهش هزينهاي ذخيره سازي داده‌ها و افزايش راحتي در ذخيرهسازي داده‌ها، توسعه الگوریتم‌های قوي و مؤثر يادگيري ماشين براي پردازش داده‌ها و كاهش هزينه قدرت محاسباتي از عواملی است که باعث گسترش و علاقه به داده‌کاوی گشته است [11]. 2-9- پیشینه تحقیق از آنجاکه هوشمندی سازمانی بر کشف دانش به واسطه بهرهگیری از منابع دادهای تأکید داشته و این امکان جهت پشتیبانی اتخاذ تصمیمات در سازمانها کاربرد دارد، جای تعجب نیست که اخیراً مسائلی چون مدیریت دانش مشتری، مدیریت ارتباط با مشتری، داده‌کاوی و ترکیب این زمینهها مطالعات بسیاری را به خود اختصاص دادهاند. در این میان بانکها به دلیل ماهیت ارتباط خود با مشتریان و حجم زیاد تراکنشها و داده‌های برجای مانده از آنها توجه ویژهای را میطلبند. مدهوشی و همکاران در [21] اثر مدیریت دانش مشتری (CKM) بر مدیریت ارتباط با مشتری (CRM) را توسط ابزارهای آماری بررسی و تحلیل نمودند. در این مطالعه برای جمع آوری داده‌ها، پرسشنامهای بین 1440 نفر از مدیران، معاونان و کارشناسان شعب بانک ملی استان مازندران توزیع شد. داده‌های حاصل توسط نرمافزارهای SPSS و LISREL مورد تجزیه و تحلیل قرار گرفت. تست نتایج آزمون با روش آلفای کرونباخ، ضریب ثابت 94.78 را نشان داد. نتایج آزمون کولموگروف-اسمیرنوف نشان داد که متغیرهای CKM و CRM نرمال هستند. به منظور تست اولویت اجزای CKM و CRM آزمون کروسکال-والیس را اجرا شد. سپس با استفاده از تست رگرسیون همبستگی، ارتباط بین CKM و CRM مورد مطالعه قرار گرفت. در نتیجه آنها نشان دادند که ارتباط معنیداری بین CKM و CRM وجود دارد. در نهایت تحلیل برازش منحنی ریشه متوسط خطای مربعی کمتر 0.10 و شاخصهای مناسب بودن برازش بیشتر از 0.90 را نشان داد که این نتایج حاکی از تأثیر CKM بر CRM در بانک ملی ایران، شعب مازندران بوده است. همان‌طور که پیش از این اشاره شد تا به امروز زمینه‌های بسیاری از کاربرد داده‌کاوی در صنعت بانکداری شناخته شده و این زمینهها مطالعات و تحقیقات زیادی را به خود تخصیص دادهاند. از جمله این کاربردها میتوان به کاربرد داده‌کاوی در بخش‌بندی مشتریان و مدل‌سازی رفتاری آنها با اهداف پیشبینی ارزش طول عمر مشتری (CLV) یا ارائه سرویس مناسب به مشتریان بالقوه در مسیر اجرای CRM، کاربرد داده‌کاوی در رتبهبندی اعتبار مشتریان متقاضی وام، کاربرد داده‌کاوی در زمینه تحلیل روی‌گردانی مشتریان بانک، کاربرد داده‌کاوی در زمینه کشف تقلب و سوءاستفادههای مالی، کاربرد داده‌کاوی در زمینه پیشبینی عملکرد بانک و کاربرد داده‌کاوی در ارزیابی عملکرد بانکها و ... اشاره نمود [1]. از این رو در بخش پیشینه تحقیق، بررسی مطالعات صورت گرفته به تفکیک کاربرد مطرح خواهد شد. 2-9-1- کاربرد داده‌کاوی در بخش‌بندی و مدل‌سازی رفتاری مشتریان در صنعت بانکداری با در نظر گرفتن این اصل که برای موفقیت در کسب و کار درک کامل مشتریان ضروری است و از آنجا که مشتریان سازمان نیازها و روحیات متفاوتی دارند میتوان گفت استفاده از استراتژیهایی چون بازاریابی مستقیم جهت ارائه و معرفی خدمات و محصولات جدید سازمان به مشتریان چندان کارامد نخواهد بود. از این رو تکنیکهای رتبهبندی مشتریان به مدیران امکان خواهد داد تا با هر مشتری بر اساس علایق و خواستههای او برخورد نموده و از ویژگی‌های مربوط به هر دسته جهت اتخاذ استراتژی‌های متناسب بهره گیرد. مؤمنی و همکاران در [8] به لزوم ارتباط با مشتری در بانکها پرداختهاند. در این مقاله اشاره شده که طبق قاعده معروف 80/20 پارتو معمولاً 20 درصد مشتریان، 80 درصد سودآوری سازمان را منجر میشوند. بنابراین دسته‌بندی مشتریان میتواند ابزار شناسایی این گروه طلایی و ارائه خدمات بیشتر به آنها بوده و سود بیشتر سازمان را برای سازمان به ارمغان آورد. در ادامه به کاربردهای داده‌کاوی در صنعت بانکداری اشاره شده و به طور خاص داده‌کاوی جهت امتیازدهی و برآورد اعتبار مشتریان پرداخته شده است. در این مطالعه مشتریان از نظر اعتبار به چهار دسته تقسیم شده و مشتریان متقاضی اعتبار جدید نیز بر مبنای مدل حاصل دسته‌بندی میشوند. هسيه در [35] به تحقيقي تحت عنوان «مدل يكپارچه داده‌کاوی و رتبهبندي رفتاري براي تجزيه و تحليل رفتار مشتريان بانک» پرداخته است. اين تحقيق مدلي ادغامی از داده‌کاوی و مدل رتبهبندي مشتريان جهت مديريت كارتهاي اعتباري مشتریان در بانك ارائه ميدهد. در اين تحقيق جهت ساخت مدلي براي شناسايي الگوي رفتاري مشتريان از شبكههاي عصبي و روش خود سازمان دهنده، استفاده گرديده است. در ابتدا مشتريان بانك با استفاده از تكنيكهای SOM خوشهبندي گرديده و سپس با استفاده از قوانين وابستگي متغيرهاي رفتاري كه بيشترين ارتباط را با يكديگر دارند شناسايي گرديدهاند. اين تحقيق مشتريان بانك را به سه گروه اصلي تقسيم مينمايد. اين مطالعه نشان ميدهد كه شناسايي مشخصههاي مشتريان با استفاده از مدل رتبهبندي رفتاري مفيد ميباشد و توسعه استراتژيهاي بازاريابي را تسهيل مينمايد. حسینی در [11] از تكنيكهاي هوشمند داده‌کاوی جهت مدیریت ارتباط با مشتریان بانک پارسیان بهره گرفته است. او در پایاننامه خود با تركيب دو دسته از متغيرها، 30 متغير براي بررسي الگوي رفتاري مشتريان شناسايي نموده و با استفاده از شبكه عصبي كوهنن ماتريس نرونهاي خروجي شبكه 3*5 را تشخيص داده و مشتريان را در 13 خوشه تقسیم نمود. در ادامه این تحقیق ارائه سرويسهاي بانكي مناسب به مشتريان بالقوه با استفاده از تكنيكهاي داده‌کاوی را مورد بررسی قرار داده و نتايج بدست آمده حاكي از آنست كه از 21 سرويس در نظر گرفته شده بانک پارسیان كه شامل اعلام موجودي، دريافت صورت حساب، پرداخت قبض، برداشت وجه، انتقال وجه، عمليات مربوط به چك از كانالهاي مختلف بانكي شامل دستگاه ATM، اينترنت، موبايل، تلفن و پايانههاي خريد POS ميباشد، 12 سرويس در گروه مورد نظر بيشترين استفاده را داشته است. کشف این مسئله که كدام دسته از مشتريان سودمندي لازم را براي نگهداري دارند و جلوگيري از هزينههاي اضافي تبليغات به صورت گسترده با ارائه سرويسهاي مناسب به مشتريان بالقوه، از نتایج این بررسی اعلام شده است. مقاله [23] به خوشه‌بندی مشتریان با خصوصیات رفتاری مشابه (RFM) با هدف تخمین وفاداری مشتری جهت تسهیل اتخاذ استراتژی و پیشنهاد سرویسهای متناسب هر گروه با ترکیب روش‌های داده‌کاوی و ارزش طول عمر مشتری (CLV)، پرداخته است. در این تحقیق از داده‌های جمعیت شناختی و داده‌های مربوط به تراکنشهای مالی مشتریان (RFM) مربوط به شرکت ایرانی ساپکو به عنوان ورودی استفاده شد. این مقاله رویه جدیدی را بر مبنای مدل RFM توسعه یافته که شامل یک پارامتر اضافی است معرفی مینماید. در این رویه، روش RFM وزن دار با الگوریتم K-Means در داده‌کاوی ترکیب شده و از روش دیویس- بولدین برای محاسبه مقدار بهینه K استفاده شده است و نهایتاً مشتریان بر مبنای وفاداری به محصولات شرکت ساپکو ایران دسته‌بندی شدند. نتایج حاصل نشان داد قابلیت سازمان برای جلب وفاداری مشتریان خود با استراتژیهایی که با توجه به این دسته‌بندی بکار برد در مقایسه با روش معمول انتخاب تصادفی که در اکثر سازمانها در ایران بکار میرود، افزایش چشمگیری داشته است. 2-9-2- کاربرد داده‌کاوی در ارزیابی اعتبار مشتریان عبدو و همکاران در [29] به مطالعه داده‌های مشتریان یک بانک مصری که از این بانک وام گرفته بودند پرداختند. در این مطالعه مشتریان بانک از لحاظ اعتبار دسته‌بندی شدند. الگوریتم‌های بکار رفته در این مقاله شبکه‌های عصبی احتمالی و چند لایه و رگرسیون لاجیت و ورودیهای این الگوریتمها اطلاعات شخصی مشتری شامل سن، درآمد ماهانه، جنسیت، وضعیت تأهل، وضعیت مسکن، مقدار وام، مدت بازپرداخت و... بوده است. در این تحقیق عملکرد شبکه‌های عصبی احتمالی و چند لایه با روش‌های مرسوم مانند آنالیز تفکیکی، رگرسیون منطقی و آنالیز بر اساس حداقل انحراف از میزان متوسط مقایسه شده است. نتایج حاصل بیانگر این مسئله است که رگرسیون لاجیت با 88% پیشبینی صحیح عملکرد بهتری نسبت به روش‌های مرسومی که نام برده شد، داشته است؛ و در مقایسه کلی شبکه عصبی با 96% دقت بهترین عملکرد را داشته است. لی و همکاران در [22] یک روش ترکیبی جدید برای انتخاب داده‌های ورودی دسته‌بندی مشتریان بانک جهت ارزیابی اعتبار آنان معرفی کردهاند. در این مقاله رویکردی ترکیبی که حاصل ترکیب رویکردهای انتخاب ویژگی موجود (آنالیز ترکیبی خطی، تئوری مجموعههای ناهموار، درخت تصمیم و روش Fscore) با روش ماشین بردار پشتیبان است برای انتخاب متغیرها معرفی شده و در ادامه مقایسهای بین رویکردهای ترکیبی بر پایه SVM به منظور انتخاب ویژگیها صورت گرفته است. در این تحقیق از داده‌های معروف مربوط به کارتهای اعتباری UCI مربوط به کشور آلمان و استرالیا استفاده شد. تمرکز مقاله بر یافتن مرتبطترین ویژگیها با اهداف منظور است و بیان میشود که مسئله مهم نه فقط کاهش حجم متغیرهای ورودی بلکه حذف نویزهای ورودی نیز میباشد. نتایج حاصل نشان میدهند که عملکرد روشها به صورت ترکیبی در انتخاب ویژگی‌های ورودی بسیار بهتر از عملکرد هر یک از این روشها به طور منفرد است. [18] ایجاد یک ارتباط محکم و بلند مدت و مثمر ثمر با مشتریان را هسته اصلی CRM، و درک درست از مشتری را اساس افزایش ارزش طول عمر مشتری (CLV) دانسته است. در این مقاله، هدف از بخش‌بندی مشتری، ایجاد گروههای سودآور و در حال رشد بر پایه ویژگی‌های مشترک آنهاست که سازمان را قادر میسازد تا هر گروه را با پیشنهاداتی خاص مورد هدف قرار دهد. این امر بدون استفاده از روشها و راهکارهای هوشمند برای تحلیل داده‌ها میسر نیست. تمرکز این مقاله بر روی بخش‌بندی استراتژی محور مشتریان سازمان در جهت تلاش برای به حداکثر رساندن پتانسیل مشتری که با اهمیت‌ترین منبع در کسب و کار است، میباشد. این مقاله بر بخش‌بندی اعتبار مشتریان در صنعت بانکداری تمرکز دارد و در مطالعه موردی خود از شبکه‌های عصبی چند لایه با بازخورد رو به جلو برای بخش‌بندی مشتریان به دو دسته استفاده نموده است: مشتریانی که با پرداخت مشکل دارند یا با پرداخت مشکلی ندارند. 2-9-3- کاربرد داده‌کاوی در زمینه کشف تقلب چن و همکاران در [24] به دسته‌بندی مشتریان جهت کشف تقلب و سوءاستفادههای مالی و شناسایی بعضی از عوامل کلیدی برای تشخیص تقلب خریداران و فروشندگان در معاملات آنلاین توسط کارت اعتباری پرداختهاند. به این منظور از داده‌های مربوط به یک دوره سه ماهه مزایدات آنلاین فروش لپ تاپ استفاده شده است. تکنیک مورد استفاده در این تحقیق رگرسیون لاجیت بوده که برخی از ویژگی‌های مربوط به داده‌های اولیه ورودی آن مبلغ اولیه پیشنهادی، مدت زمان انجام مزایده، سود مزایده، میزان اعتبار فروشنده و قیمت بهایی مزایده بوده است که اعتبار فروشنده به عنوان یک عامل مهم در تشخیص تقلب استفاده شده است. در نهایت دقت مدل پیشنهادی 91% محاسبه شده که دقت نسبتاً قابل قبولی میباشد. 2-9-4- کاربرد داده‌کاوی در تحلیل روی‌گردانی مشتری مسئله حفظ مشتری و افزایش وفاداری او به سازمان از مسائلی است که هسته اصلی بحث ارتباط با مشتری را تشکیل می‌دهد. با تحلیل داده‌های بر جای مانده از مشتریانی که سازمان را ترک نمودهاند، قوانین و الگوهایی حاصل میشود که میتوان به کمک آنها مشتریانی که احتمال میرود در آینده نزدیک سازمان را ترک کنند و به سوی رقیب بروند شناسایی نمود. بدین ترتیب مدیران میتوانند با اخذ تصمیماتی جهت بهبود ارتباط با این‌گونه مشتریان مانع از روی‌گردانی آنان گردند. در [19] از الگوریتم‌های داده‌کاوی جهت ساخت مدلی به منظور پیشبینی روی‌گردانی مشتریانی که از کارت اعتباری استفاده میکنند استفاده شده است. این تحقیق بر روی پایگاه داده مشتریان یک بانک چینی صورت گرفته و از چهار دسته متغیر اطلاعات مشتری، اطلاعات کارت اعتباری، داده‌های مربوط به ریسک مشتری و اطلاعات مربوط به تراکنشها استفاده شده که در مجموع شامل 135 متغیر میباشد. از بین این متغیرها 95 متغیر با توجه به همبستگی بین آنها برای انجام مراحل بعدی انتخاب شدند. در این تحقیق مشتری روی‌گردان فردی تعریف شده که در طول دوره مشاهده دوازده ماهه هیچ تعاملی را با بانک نداشته است. در این تحقیق الگوریتم‌های رگرسیون و درخت تصمیم جهت دسته‌بندی مشتریان انتخاب شده و نتایج تحقیق نشان داد که عملکرد مدلهای رگرسیونی کمی بهتر از عملکرد درختهای تصمیم بوده است. در این تحقیق یک فاصله یک ساله به عنوان دوره ارزیابی عملکرد در نظر گرفته شد. [28] تأکید میکند که روی‌گردانی مشتری در بانکهای چینی مورد تأکید زیادی قرار گرفته است. این بانکها تلاش میکنند با منابع محدودی که در اختیار دارند به حداکثر رضایت مشتریان دست یابند. در این مقاله از یک روش یادگیری جدید به نام جنگلهای تصادفی متوازن بهبود یافته (IBRF) جهت تعدیل مشکل بحث برانگیز عدم توازن در توزیع داده‌ها در تحلیل روی‌گردانی مشتری استفاده شده است. در این مطالعه اثربخشی رویکرد جنگل تصادفی استاندارد و روش‌های مختلف نمونهبرداری نیز در پیشبینی روی‌گردانی مشتری نیز بررسی شده و با عملکرد IBRF مورد مقایسه قرار گرفت. این روش بر روی داده‌های واقعی مربوط به روی‌گردانی مشتری یک بانک چینی اعمال شده و مشخص شد که این روش به طور قابل توجهی دقت پیشبینی را در مقایسه با سایر الگوریتمها مانند شبکه‌های عصبی مصنوعی، درختهای تصمیم و ماشین بردار پشتیبان بهتر عمل کرده است. این روش در مقایسه با سایر الگوریتم‌های جنگل تصادفی مانند الگوریتم جنگل تصادفی متوازن و الگوریتم جنگل تصادفی وزندار بهتر عمل کرده است. [20] بیان میکند که از منظر اقتصاد و مدیریت ریسک، درک ویژگی‌های مشتری جهت حفظ مشتری ضروری به نظر میرسد و لازم است سازمانها بین مشتریان معتبر و مشتریان بد تمایز قائل شوند. این مقاله تئوری مجموعههای ناهموار را که یک روش تصمیمگیری بر اساس قوانین است، برای استخراج قوانین مرتبط با روی‌گردانی مشتری بکار میگیرد. سپس از گراف شبکه جریان که یک رویکرد وابسته به مسیر است برای کشف قوانین و متغیرهای تصمیمگیری استفاده مینماید و در نهایت ارتباط بین قوانین و انواع مختلف روگردانی را نشان می‌دهد. این تحقیق بر روی نمونهای 21000 نفره از مشتریان صورت گرفته و آنها را به سه دسته مشتریان پایدار، روی‌گردانی داوطلبانه و روی‌گردان غیر داوطلبانه تقسیم میکند. متغیرهای ورودی این تحقیق را متغیرهای جمعیتشناختی، روان‌شناختی و تراکنشهای مربوط به این گروه از مشتریان تشکیل میدهند. نتایج نشان داد که این مدل ترکیبی پیشگویی خوبی از روی‌گردانی مشتری داشته و اطلاعات مفیدی برای تصمیم گیران در تدوین استراتژی‌های بازاریابی فراهم میکند. جدول 2-8 پژوهش‌های انجام‌گرفته در زمینه کاربرد داده‌کاوی در صنعت بانکداری شماره مرجعهدفروش‌های مورد استفادهورودیهاکاربرد داده‌کاوی در بخش‌بندی و مدل‌سازی رفتاری مشتریان در صنعت بانکداری[23]بخش‌بندی مشتریان جهت تخمین وفاداری مشتریداده‌های جمعیتشناختی، داده‌های وزندار مربوط به تراکنشهای مالی (WRFM) مشتریان شرکت ایرانی ساپکوخوشه‌بندی با استفاده از روش K-means و SOM[8]دسته‌بندی مشتریان جهت شناسایی مشتریان طلایی طبق اصل 20/80 پارتواطلاعات مربوط به مشتریان وام گیرنده از بانکشبکه‌های عصبی[35]شناسایی الگوی رفتاری مشتریانمتغیرهای جمعیتشناختی، متغیرهای RFM مشتریان بانک و لیستی از خدمات قابل ارائه توسط بانکشبکه‌های عصبی، خوشه‌بندی توسط تکنیکهای خود سازمان دهنده (SOM) و الگوریتم Apriori برای شناسایی وابستگی متغیرهای رفتاری[11]بخش‌بندی مشتریان جهت مدیریت ارتباط با آنان و کشف سرویسهای مرتبط با هر بخشمتغیرهای جمعیتشناختی، متغیرهای RFM مشتریان بانک و لیستی از خدمات ارائه شده توسط بانک.مورد مطالعه: بانک پارسیانشبکه‌های عصبی، خوشه‌بندی توسط تکنیکهای خود سازمان دهنده (SOM) و الگوریتم Apriori برای کشف وابستگی بین خدمات ارائه شده توسط بانک با مشتریان.کاربرد داده‌کاوی در ارزیابی اعتبار مشتریان[22]دسته‌بندی مشتریان بانک جهت ارزیابی اعتبار آنهاداده‌های مربوط به کارت اعتباری UCI مربوط به کشور آلمان و استرالیارویکردی ترکیبی که حاصل ترکیب رویکردهای انتخاب ویژگی موجود (آنالیز ترکیبی خطی، تئوری مجموعههای ناهموار، درخت تصمیم و روش Fscore) با روش ماشین بردار پشتیبان[18]بخش‌بندی اعتبار مشتریان در صنعت بانکداری به دو دسته: مشتریانی که با پرداخت مشکل دارند یا با پرداخت مشکلی ندارندمجموعه داده‌های اعتباری مشتریانشبکه‌های عصبی چند لایه با بازخورد رو به جلو[29]دسته‌بندی مشتریان از لحاظ اعتبار بازپرداخت واماطلاعات شخصی مشتری (همچون سن، درآمد ماهانه، جنسیت، وضعیت مسکن و...) و اطلاعات وام (شامل مقدار وام و مدت بازپرداخت وام و ...)الگوریتم شبکه‌های عصبی احتمالی و چند لایه و رگرسیون لاجیتکاربرد داده‌کاوی در زمینه کشف تقلب[24]دسته‌بندی مشتریان جهت کشف تقلب و سوءاستفادههای خریداران و فروشندگان در معاملات آنلاین توسط کارت اعتباریداده‌های مربوط به یک دوره سه ماهه مزایدات آنلاین فروش لپ تاپ (شامل ویژگی‌های مبلغ اولیه پیشنهادی، مدت زمان انجام مزایده، سود مزایده، میزان اعتبار فروشنده و قیمت بهایی مزایده)رگرسیون لاجیتکاربرد داده‌کاوی در تحلیل روی‌گردانی مشتری[19]پیشبینی روی‌گردانی مشتریان از کارت اعتباریپایگاه داده 12 ماهه مشتریان یک بانک چینی (شامل 95 متغیر از 135 متغیر مربوط به اطلاعات مشتری، اطلاعات کارت اعتباری، داده‌های مربوط به ریسک مشتری و اطلاعات مربوط به تراکنشها)الگوریتم‌های رگرسیون و درخت تصمیم جهت دسته‌بندی مشتریان[28]روی‌گردانی مشتری در بانکهای چینی جهت دستیابی به حداکثر رضایت مشتریانداده‌های واقعی مربوط به روی‌گردانی مشتری یک بانک چینیجنگلهای تصادفی متوازن بهبود یافته (IBRF)[20]استخراج قوانین مرتبط با روی‌گردانینمونهای 21000 نفره از مشتریان (شامل متغیرهای جمعیتشناختی، روان‌شناختی و تراکنشهای مربوط به این گروه از مشتریان)تئوری مجموعههای ناهموار و گراف شبکه جریان نگاي در [25] به مرور و دسته بندي ادبيات در زمينه كاربردهاي داده‌کاوی در مديريت ارتباط با مشتري پرداخته است. در اين تحقيق ضمن بيان ضرورت كاربردهاي تکنیک‌های داده‌کاوی در مديريت ارتباط با مشتري به دستهبندي تکنیک‌ها و مقايسه روش‌های داده‌کاوی در اين زمينه پرداخته است. در انتها چارچوبي جهت انجام تحقيقات آتي در زمينه كاربردهاي داده‌کاوی در حوزه مدیریت ارتباط با مشتری ارائه شده است. 2-10- جمع‌بندی مطالب فصل در این فصل ابتدا به تعاریف و مفاهیم پایه مرتبط با موضوع تحقیق پرداخته شد و مفاهیمی چون مدیریت دانش، مدیریت دانش مشتری، مدیریت ارتباط با مشتری و داده‌کاوی معرفی شدند. در نهایت پیشینه تحقیق مورد بررسی قرار گرفت. به طور خلاصه میتوان گفت با تبدیل مشتری به یک دارایی مهم و ارزشمند سازمان و تعیین دانش به عنوان عامل پویایی و بقای سازمان، مباحثی چون مدیریت دانش مشتری در میان محققان جایگاه ویژهای یافت. مدیریت دانش میتواند مزایایی چون تسهیم و اشتراک دانش و صرفهجویی در زمان و ... را به دنبال داشته باشد. بهرهگیری از این مزایا منجر به حفظ بقای سازمان در محیط متلاطم و پر رقابت کسب و کار امروز خواهد بود. مدیریت ارتباط مشتری سنتی ابزاری جهت ارتباط با مشتریان و تلاش جهت حفظ وفاداری آنها بود. اما خلأ بزرگ آن عدم بهرهمندی از مدیریت دانش مشتریان بود. اما زمانی که مدیریت ارتباط مشتری، مدیریت دانش را جهت کسب دانش مشتری بکار گیرد فرایند مدیریت دانش مشتری خواهیم داشت. ابزار حاصل کمک خواهد کرد ارتباط سازمان با مشتریان از حالت منفعل خارج شده و با مشتری به عنوان شریک دانشی سازمان ارتباط برقرار نماید. مدیریت دانش مشتری با ترکیب هر دو رویکرد فناوری محور و دادهگرا در بحث مدیریت ارتباط با مشتری و رویکرد فرد گرا در بحث مدیریت دانش با هدف بهرهگیری از پتانسیل همافزای هر دوی آنهاست [41]. نتیجه این مسئله میتواند توصیف شیواتر دانش برای مشتری، دانش درباره مشتری و دانش از سوی مشتری باشد. بنابراین این امکان وجود خواهد داشت که محصولات و خدمات جدید به گروه مناسب از مشتریان تحویل شود. بنابراین ریسک شکست محصول جدید کاهش خواهد یافت [27]. از آنجا که به طور مشخص، در نظام بانکی، مشتری سودمندترین و مهمترین رکن این سازمان میباشد، تمرکز و مطالعه بر اطلاعات و رفتار مشتریان و کشف دانش موجود و بهرهگیری از دانش کشف شده جهت اتخاذ استراتژی‌های کسبوکار میتواند در مسیر جذب و حفظ مشتریان و افزایش حس رضایت آنها مؤثر باشد. در این مسیر ابزار داده‌کاوی جهت کشف دانش مشتریان گردید. فرایند داده‌کاوی به سازمانها کمک میکند تا انبوه داده‌های مشتریان را تحلیل نمایند و اطلاعات مفید را از آنها استخراج نموده و مزیت رقابتی را نسبت به دیگران کسب نمایند [30]. لازم به ذکر است جزییات دقیق روش انتخابی جهت داده‌کاوی در فصلهای آینده به تفصیل مورد بحث قرار خواهد گرفت. منابع و مآخذ [1] شهرابی، جمال، هداوندی، اسماعیل، "دادهکاوی در صنعت بانکداری"، انتشارات جهاد دانشگاهی واحد صنعتی امیرکبیر، 1390، صص 25-70. [2] مینائی، بهروز، نصیری، مهدی، حسنی، دانیال، شناسا، ابراهیم، آموزش گام به گام دادهکاوی با Clementine، انتشارات گروه مهندسی-پژوهشی ساحر، چاپ اول، پاییز 1390. [3] الهی، شعبان، حیدری، بهمن، مدیریت ارتباط با مشتری، تهران، شرکت چاپ و نشر بازرگانی، 1387. [4] افراز، ع.، مدیریت دانش (مفاهیم، مدلها، اندازهگیری و پیادهسازی)، چاپ اول، انتشارات دانشگاه صنعتی امیرکبیر، 1384. [5] تقوی، مهدی، اقتصاد کلان، انتشارات دانشگاه پیام نور، صص 176-185. [6] علی احمدی، علیرضا. ابراهیمی، مهدی. سلیمانی ملکان، حجت، برنامه ریزی استراتژیک فناوری اطلاعات و ارتباطات، انتشارات تولید دانش، تهران، 1383. [7] شامی زنجانی، مهدی، نجفلو، فاطمه، ارائه چارچوبی مفهومی برای نوعشناسی دانش مشتری: یک مطالعه موردی، مدیریت فناوری اطلاعات، دوره 3، شماره 9، صص 163-189، زمستان 1390. [8] مؤمنی، حمیدرضا و همکاران، "استفاده از تکنیک دادهکاوی در مدیریت ارتباط با مشتریان در نظام بانکی"، کنفرانس ملی فناوری اطلاعات و جهاد اقتصادی، دانشگاه سلمان فارسی، کازرون، اسفند 1390. [9] برزین پور، فرناز، اخوان، پیمان، زارع مقدم، زینب، ارائه چارچوب مفهومی عوامل و مؤلفههای مدیریت دانش مشتری در بانک ملی، نشریه علمی پژوهشی مدیریت فردا، سال هشتم، شماره 24، پاییز 1389. [10] شهرکی، علیرضا، چهکندی، محسن، ملاشاهی، علیرضا، بررسی سیستم مدیریت ارتباط با مشتری در نظام بانکی ایران، 2010. [11] حسینی بامکان ، سید مجتبی، پایان نامه کارشناسی ارشد، بکارگیری تکنیکهای داده کاوی جهت بهبود مدیریت ارتباط با مشتری در صنعت بانکداری (مطالعه موردی: بانک پارسیان)، استاد راهنما، دکتر محمدرضا تقوا، دانشکده حسابداری و مدیریت، دانشگاه علامه طباطبایی، 1388. [12] ترابی، مصطفی، عوامل مؤثر بر بكارگيري خدمات موبايل بانك توسط مشتريان مورد مطالعه بانک تجارت، پایان نامه کارشناسی ارشد، به راهنمای، دکتر تقوی فرد، دانشکده مدیریت و حسابداری، دانشگاه علامه طباطبائی، 1378. [13] ناوی، مانیا، شناسايي مولفه هاي تشكيل دهنده بار با استفاده از تكنيك داده كاوي، پایان نامه کارشناسی ارشد، استاد راهنما، دکتر محسن پارسا مقدم، دانشکده فنی و مهندسی، دانشگاه تربیت مدرس، 1387. [14] حسین زاده، لیلا، دسته بند ي مشتر يان هدف در صنعت بيمه با استفاده از داده كاوي، پایان نامه کارشناسی ارشد، استاد راهنما، دکتر شعبان الهی، دانشکده انسانی، دانشگاه تربیت مدرس، 1386. [15] جمالي فيروز آبادي، کامران، دارنده، احسان، ابراهيمي، سيد بابک، ارائه چارچوب مدیریت دانش مشتری (CKM) بر مبنای استقرار همزمان KM و CRM در سازمان، مجموعه مقالات مهندسی صنایع و نرمافزار، 1385. [16] نوروزیان، م، کاربرد مدیریت دانش در بخش دولتی، مجله تدبیر، شماره 176، 1385. [17] همایونی، سید مهدی، محتشمی، الهام، اسفندیاری، علیرضا، مدیریت دانش مشتری، کنفرانس بینالمللی مدیریت بازاریابی، شهریور 1385، صص 3-12. [18] Bosjank,z. , "Credit users segmentation for improved customer relationship management in banking", Applied Computational Intelligence and Informatics (SACI), IEEE , 2011, pp. 379 - 384. [19] Nie, Guangli, et al. "Credit card churn forecasting by logistic regression and decision tree." Expert Systems with Applications 38.12 (2011) : 15273-15285. [20] Lin, Chiun-Sin, Gwo-Hshiung Tzeng, and Yang-Chieh Chin. "Combined rough set theory and flow network graph to predict customer churn in credit card accounts." Expert Systems with Applications 38.1 (2011) : 8-15. [21] Madhoushi, Mehrdad and et al., "Survey of Customer Knowledge Management Impact on Customer Relationship Management: (Iranian study)", International Journal of Business and Social Science, Vol. 2, No. 20, November 2011. [22] Lee, Byungtae and et al., "Empirical analysis of online auction fraud: Credit card phantom transactions", Expert Systems with Applications, vol 37, pp. 2991–2999, 2010. [23] Hosseini, Seyed Mohammad Seyed, Anahita Maleki, and Mohammad Reza Gholamian. "Cluster analysis using data mining approach to develop CRM methodology to assess the customer loyalty." Expert Systems with Applications 37.7 (2010): pp. 5259-5264. [24] Chen, Fei-Long and et al., "Combination of feature selection approaches with SVM in credit scoring", Expert Systems with Applications, vol 37, pp. 4902–4909, 2010. [25] Ngai, Eric WT, Li Xiu, and D. C. K. Chau. "Application of data mining techniques in customer relationship management: A literature review and classification." Expert Systems with Applications 36.2 (2009): 2592-2602. [26] Nisbet, Robert, John Fletcher Elder, and Gary Miner. Handbook of statistical analysis and data mining applications. Academic Press, 2009. [27] Rezvani, Zeinab, New Product Development Based on Customer Knowledge Management, Master Thesis, Luleå University of Technology, pp.25-35, 2009. [28] Xie, Yaya, et al. "Customer churn prediction using improved balanced random forests." Expert Systems with Applications 36.3 (2009) : 5445-5449. [29] Abdou, Hussein et al., "Neural nets versus conventional techniques in credit scoring in Egyptian banking", Expert Systems with Applications, vol 35, pp. 1275–1292, 2008. [30] Ranjan, Jayanthi, A Review of Data Mining Tools In Customer Relationship Management ,Journal of Knowledge Management Practice, Vol. 9, No. 1, March 2008. [31] Han, Jiawei, and Micheline Kamber. Data mining: concepts and techniques. Morgan Kaufmann, 2006. [32] Paquette, Scott. "Customer knowledge management." Encyclopedia of Knowledge Management (2006): 90. [33] Rollins, Minna, and Aino Halinen. "Customer knowledge management competence: towards a theoretical framework." System Sciences, 2005. HICSS'05. Proceedings of the 38th Annual Hawaii International Conference on. IEEE, 2005. [34] Feng, Tian-Xue, and Jin-Xin Tian. "Customer knowledge management and condition analysis of successful CKM implementation." Machine Learning and Cybernetics, 2005. Proceedings of 2005 International Conference on. Vol. 4. IEEE, 2005. ]35[ Hsieh, Nan-Chen. "An integrated data mining and behavioral scoring model for analyzing bank customers." Expert Systems with Applications 27.4 (2004): 623-633. [36] Bose, Ranjit, and Vijayan Sugumaran. "Application of knowledge management technology in customer relationship management." Knowledge and process management 10.1 (2003): 3-17. [37] Gebert, Henning, et al. "Knowledge-enabled customer relationship management: integrating customer relationship management and knowledge management concepts [1]." Journal of knowledge management 7.5 (2003): 107-123. [38] Gibbert, Michael, Marius Leibold, and Gilbert Probst. "Five styles of customer knowledge management, and how smart companies use them to create value." European Management Journal 20, no 5 , pp 459-469 ,2002. [39] Bose, Ranjit. "Customer relationship management: key components for IT success." industrial management & data systems 102.2 (2002): 89-97. [40] Dyche, Jill. The CRM handbook: a business guide to customer relationship management. Addison-Wesley Professional, 2002. [41] Garcia-Murillo, Martha, and Hala Annabi. "Customer knowledge management." Journal of the Operational Research Society , pp. 875-884 ,2002. [42] Rowley J. Eight Enhancing Questions for Customer Knowledge Management in e-Business. Journal of Knowledge Management 2002; 6(5): 500-511. [43] Rowley, Jennifer E. "Reflections on customer knowledge management in e-business." Qualitative Market Research: An International Journal 5.4 (2002): 268-280. [44] Zack, Michael H. "Developing a knowledge strategy." The strategic management of intellectual capital and organizational knowledge (2002): 76-255. [45] Bhatt, Ganesh D. "Knowledge management in organizations: examining the interaction between technologies, techniques, and people." Journal of knowledge management 5.1, pp. 68-75, 2001. [46] Ling, Raymond, and David C. Yen. "Customer relationship management: An analysis framework and implementation strategies." Journal of Computer Information Systems 41.3 (2001): 82-97. [47] Davenport, Thomas H., Jeanne G. Harris, and Ajay K. Kohli. "How do they know their customers so well?." MIT Sloan Management Review 42.2 (2001): 63-73. [48] Davenport, Thomas H., and Laurence Prusak. Working knowledge: How organizations manage what they know. Harvard Business Press, 2000. [49] Mårtensson, Maria. "A critical review of knowledge management as a management tool." Journal of knowledge management 4, no 3 (2000): 204-216. [50] Wirth, Rüdiger, and Jochen Hipp. "CRISP-DM: Towards a standard process model for data mining." Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining. 2000. [51] uit Beijerse, Roelof P. "Questions in knowledge management: defining and conceptualizing a phenomenon." Journal of Knowledge Management 3.2 (1999): 94-110. [52] Chen, Ming-Syan, Jiawei Han, and Philip S. Yu. "Data mining: an overview from a database perspective." Knowledge and data Engineering, IEEE Transactions on 8.6 (1996): 866-883. [53] Fayyad, Usama and et al., "From Data Mining to Knowledge Discovery in Databases", AI Magazine, Vol. 17, Number 3, 1996. [54] Szulanski, Gabriel. "Exploring internal stickiness: Impediments to the transfer of best practice within the firm." Strategic management journal 17 (1996): 27-43. [55] Nonaka, Ikujiro, and Hirotaka Takeuchi. The knowledge-creating company: How Japanese companies create the dynamics of innovation. Oxford University Press, USA, 1995.

فایل های دیگر این دسته

مجوزها،گواهینامه ها و بانکهای همکار

ساونیپ دارای نماد اعتماد الکترونیک از وزارت صنعت و همچنین دارای قرارداد پرداختهای اینترنتی با شرکتهای بزرگ به پرداخت ملت و زرین پال و آقای پرداخت میباشد که در زیـر میـتوانید مجـوزها را مشاهده کنید