الگوریتم ژنتیک تشخیص تقلب کارت اعتباری
الگوریتم ژنتیک تشخیص تقلب کارت اعتباری – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 48000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۱۸۸ |
کد مقاله | COM188 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | تشخیص تقلب در کارت اعتباری با استفاده از الگوریتم ژنتیک و جستجوی پراکنده |
نام انگلیسی | Detecting credit card fraud by genetic algorithm and scatter search |
تعداد صفحه به فارسی | ۳۶ |
تعداد صفحه به انگلیسی | ۷ |
کلمات کلیدی به فارسی | تقلب, کارت های اعتباری, الگوریتم ژنتیک, جستجوی پراکنده, بهینه سازی |
کلمات کلیدی به انگلیسی | Fraud, Credit cards, Genetic algorithms, Scatter searchOptimization |
مرجع به فارسی | سیستم ها و برنامه های کاربردی تخصصیدانشگاه دوگاس، دپارتمان مهندسی صنایع، استانبول، ترکیهالزویر |
مرجع به انگلیسی | Expert Systems with Applications; ogus University, Industrial Engineering Department, Istanbul, Turkey; Yapi Kredi Bankasi, IT Department, Istanbul, Turkey; Elsevier |
کشور | ترکیه |
تشخیص تقلب در کارت اعتباری با استفاده از الگوریتم ژنتیک و جستجوی پراکنده
چکیده
در این مقاله ما نسبت به ارائه روشی اقدام خواهیم نمود که قابلیت ارتقای فرآیند تشخیص تقلب در کارت اعتباری، که هم اکنون در بانک ها بکار گرفته می شوند، را ارتقا می دهد. با توجه به این راه حل هر تراکنش نمره بندی شده و بر مبنای این نمرات تراکنش ها به عنوان موارد مشروع / قانونی یا نامشروع / تقلبی رده بندی می شوند. هدف نوعی غالب راه حل های تشخیص تقلب و کلاه برداری ها، کاهش تعداد نادرست دسته بندی تراکنش ها می باشد. با این وجود، در واقعیت و در صورتی که کارت های بانکی در اختیار افراد متقلب قرار داشته باشد کل محدوده دسترسی قابل استفاده بوده و رده بندی نادرست هر تراکنش دارای تأثیر چندانی بر روی این موضوع نمی باشد. بنابراین، هزینه رده بندی نادرست را می بایست با توجه به این مبحث مد نظر قرار داد. خصیصه کاهش معضلات مرتبط در حقیقت به عنوان هدف مطالعه جاری ما می باشد. با توجه به راه حل ارائه شده، ما یک ترکیب نوین از دو رویکرد فرا ابتکاری شناخته شده را عرضه می نماییم که تحت عناوین الگوریتم های ژنتیک و الگوریتم جستجوی پراکنده شناخته می شوند. این روش برای داده های حقیقی بکار گرفته شده و در مقایسه با راهکارهای جاری نتایج بسیار موفقی را حاصل آورده است.
کلمات کلیدی: تقلب، کارت های اعتباری، الگوریتم ژنتیک، جستجوی پراکنده، بهینه سازی
الگوریتم ژنتیک تشخیص تقلب کارت اعتباری
۱- مقدمه
این مطالعه نشأت گرفته از یک پروژه مشاوره ای صنعتی می باشد. شریک صنعتی ما (یک بانک اصلی در ترکیه) طی سالیان اخیر اقدام به استفاده از یک فرآیند تشخیص تقلب در کارت های اعتباری نموده است. با وجود آنکه چنین راهکاری به عنوان یک رویه موفق در نظر گرفته شده است، مسئولین بانکی اینگونه تصور می نمایند که قابلیت ارتقای متعاقب آن به واسطه دو دلیل یا دو انتظار ارائه شده وجود خواهد داشت. در ابتدا، وزن های پارامترها بکار گرفته شده را می توان با استفاده از رفتارهای کاربرد اخیر کارت ها و تقلب های رخ داده به گونه ای بهتر تعدیل نمود. دوماً، این موضوع مشخص شده است که یک راهکار خوب الزاماً به عنوان رویه ای به شمار نمی آید که قابلیت تشخیص تقلب های بسیار زیاد را داشته باشد، بلکه باید آن را رویه ای قلمداد کرد که حتی قابلیت تشخیص تقلب در آن ممکن است کمتر باشد، ولی در مقابل از توانایی کشف موارد دارای ریسک بالاتر برخوردار است.
تقلب را در این زمینه می توان به عنوان کاربرد غیرقانونی هرگونه سیستم یا کالایی در نظر گرفت. به طور متناظر، فعالیت های قانونی تحت عنوان فعالیت های مشروع خوانده می شوند. بر این مبنا، ممکن است در یکسری از حوزه های مختلف شامل بانکداری، بیمه، ارتباطات از راه دور، مراقبت های بهداشتی و خدمات عمومی با موارد متقلبانه و کلاهبرداریهای مختلفی روبرو شویم. در فرآیند بانکداری، تقلبات را می توان در سوء کاربرد کارت های اعتباری، کارت های بدهی، حساب های بانکداری داخلی و مراکز تلفنی (بانکداری تلفنی) مشاهده نمود. پول شویی و دیگر تقلبات شخصی را می توان جزء انواع دیگر تقلبات مرتبط با بانکداری خواند. زیان های به وجود آمده به واسطه چنین تقلباتی خود شامل مبالغ انبوه است و بنابراین به عنوان یک تهدید جدی در اقتصاد قانونی یا مشروع به شمار می آید. با توجه به اهمیت ذاتی این موضوع، بسیاری از دانشمندان به چنین مبحثی علاقه نشان داده و اقدام به انجام تحقیقاتی در این زمینه نموده اند. بر حسب داده های ارائه شده وبی ISI در خلال ۱۰ سال گذشته (۱۹۹۹ ـ ۲۰۰۹) تعداد موارد یافت شده به هنگام جستجوی کلمه کلیدی “تقلب” به ۱۳۶۱ مورد رسیده است.
در این مطالعه ما صرفاً بر روی تقلب های مربوط به کارت های اعتباری تمرکز خواهیم نمود. به هنگام تحلیل داده های شریک صنعتی خود و چندین بانک دیگر، مشاهده نمودیم که تنها چندین مورد از بین صدها هزار تراکنش به عنوان موارد متقلبانه به شمار آمده اند. بقیه تراکنش ها قانونی بوده اند. چنین موردی معرف وجود نوعی عدم تراز زیاد بین دو کلاسی می باشد که مشخص کننده تشخیص تقلب، بعنوان یک وظیفه چالش برانگیز، است.
تشخیص تقلب غالباً تحت عنوان مسئله داده کاوی در نظر گرفته شده است، که در آن هدف دسته بندی درست تراکنش ها به عنوان انواع مشروع یا نامشروع یا متقلبانه است. برای مشکلات مربوط به دسته بندی بسیاری از برآوردهای عملکرد تعریف شده اند که غالب آنها منوط به تعداد صحیح مواردی هستند که رده بندی به صورت درستی برای آنها انجام شده است. در بین این موارد ضریب دقت، نرخ ثبت یا میزان ضبط اطلاعات، برخورد، شاخص جینی و ترقی به عنوان معروف ترین موارد به شمار می آیند (Gadi، Wang و Lago، ۲۰۰۸، Kim و Han، ۲۰۰۳).
…
ادامه این مقاله به شرح ذیل سازماندهی شده است. در بخش بعد، با توجه به مسئله تشخیص تقلب، جزئیات آن همراه با سیستم تشخیص جاری بکار گرفته شده بوسیله شرکای صنعتی ما ارائه می شود. بخش ۳ به طور خلاصه تشریح کننده اصول اصلی الگوریتم های ژنتیک و جستجوی پراکنده می باشد و متعاقباً جزئیات پیاده سازی GASS را ارائه می دهد. نتایج بر حسب بانک های اطلاعاتی ساده به دست آمده و انتخاب بهترین پارامترهای راه حل در بخش ۴ مورد بررسی قرار می گیرد. تحلیل حساسیت با توجه به مقادیر پارامتری نیز انجام شده و در این بخش عرضه می گردد. در نهایت این مقاله از طریق فراهم آوردن نتیجه گیری مطالعاتی و نتایج اصلی حاصله در بخش ۵ به انتها خواهد رسید.
تشخیص تقلب در کارت اعتباری با الگوریتم ژنتیک و جستجوی پراکنده
۲- تعریف مسئله
دو نوع اصلی تقلب های CC وجود دارند. اولین مورد تقلبات جعلی می باشد که به وسیله گروه های سازماندهی شده جنایی اعمال می گردد. تأثیر کلی این مورد بسیار زیاد بوده و آنها غالباً بر روی دهها و حتی صدها مشتری یک بانک در یک زمان تأثیرگذار خواهند بود. غالب این کلاهبرداران تا زمان آغاز فعالیت بعدی خود به صورت غیرفعال باقی می مانند. نوع دوم تقلب CC شامل کاربرد غیرقانونی کارت گم شده یا به سرقت رفته می باشد. این نوع از تقلبات غالباً در ارتباط با گروه های جنایی نمی باشند و هر کلاهبردار به طور فعال صرفاً بر روی یک یا چند کارت تأثیر خواهد داشت.
راه حل های تشخیص کلاهبردرای کلاسیک، شامل سیستم های تخصصی، بر مبنای قواعدی هستند که به وسیله تحلیل های مشترک و تشخیص الگو انجام شده بر روی موارد کلاهبرداری های قبلی تولید شده اند. با این وجود، گروه های جنایی محلی و فراملی در ساختارها و رویکردهای متقلبانه خود بسیار پویا می باشند. در این محیط پویا، قدرت و توان مرتبط با حتی بهترین قواعد تخصصی به سرعت تنزل می نماید چرا که افراد متقلب یا کلاهبردار رفتار خود را به گونه ای تغییر می دهند که قابلیت شناسایی آنها با الگوهای ارائه شده وجود نداشته باشد. علاوه بر این نقص، چنین قواعدی صرفاً در زمینه تشخیص تقلب های جعلی کارساز می باشند و برای تشخیص موارد مفقوده یا به سرقت رفته تناسبی ندارند.
الگوریتم ژنتیک تشخیص تقلب کارت اعتباری
۳- الگوریتم GASS
در این بخش، ما در ابتدا اصول عملیاتی اصلی الگوریتم های ژنتیک و جستجوی پراکنده را تشریح نموده و متعاقباً مراحل الگوریتم GASS پیشنهادی را عرضه می داریم.
الگوریتم های ژنتیک خود حاصل آمده از سیر تکامل طبیعی می باشند. ایده اصلی آن است که فرصت تداوم زیست اعضای قویتر یک جمعیت بیشتر از اعضای ضعیف تر می باشد و در این راستا به هنگامی که نسل ها سیر تکامل خود را می پیمایند میانگین برازندگی جمعیتی نیز بهتر می گردد. به طور طبیعی نسل های جدید به وسیله تولید مثل دو عضو والد حاصل می شوند. با این وجود، در برخی از مواقع برخی از جهش های تصادفی ممکن است بر روی بعضی از افراد رخ داده که در مقابل سبب افزایش گوناگونی در جمعیت می شوند. الگوریتم ژنتیک به عنوان یک راه حل در شکل ۱ نشان داده شده است. این الگوریتم با تعدادی از راه حل های اولیه آغاز می گردد که عملکردی مشابه با والدین نسل جاری دارند. راه حل های جدید از این راه حل ها به وسیله فرآیند تولید مثل و عملگراهای جهشی حاصل می شوند. اعضایی که از برازندگی کمتری در این نسل برخوردار هستند حذف گردیده و اعضای مناسب تر به عنوان والدین برای نسل بعدی انتخاب می شوند. این راهکار تا وقتی تکرار می شود که یک تعداد از قبل مشخص شده نسل ها حاصل شده و بهترین راه حل مشخص شود.
الگوریتم ژنتیک تشخیص تقلب کارت اعتباری
۴- نتایج و مباحث
در این بخش ما در ابتدا روش کاربرد GASS را تشریح نموده و مکانیزم تصمیم گیری در ارتباط با چگونگی مشخص سازی بهترین راه حل اجرایی را ارائه خواهیم نمود. متعاقباً، یک سری از تحلیل های “وات ایف” بر روی مقادیر پارامتری راه حل انتخاب شده اعمال گردیده و نتایج آن مورد بحث قرار می گیرند.
۴ـ۱٫ تعیین بهترین راه حل
برای اهداف مرتبط با توسعه سیستمی، ما در ابتدا یک مجموعه آموزشی را شکل دادیم. با توجه به این هدف ۱۰۵۰ مورد تراکنش های تقلبی را در نظر گرفتیم (این مقادیر قبلاً به عنوان موارد تقلبی و در زمانی که در حال توسعه سیستم بودیم مشخص شده بودند). توجه داشته باشید که بررسی موارد کلاهبرداری زمانبر می باشد، بنابراین این بانک اطلاعات با استفاده از تراکنش های مربوط به زمان گذشته و با توجه به کفایت زمانی ایجاد شد. کلیه تراکنش های دیگر در دوره مرتبط به عنوان تراکنش های معتبر و قانونی در نظر گرفته شده اند (البته ما هرگز در صورت وجود موارد کلاهبرداری آنها را نادیده نمی انگاریم) و چنین مواردی خود تشکیل دهنده مبنایی برای مشخص سازی ویژگی های معتبر (غیرتقلبی) می باشند. برای اهداف آموزشی، ما به برخی از مثال های تراکنش های قانونی نیازمندیم و بنابراین اقدام به انتخاب تصادفی از بین تراکنش های قانونی نمودیم. ما کار خود را با مجموعه آموزشی آغاز کردیم (یعنی مجموعه ـ ۱)، اما تولید نسل های GA زمانبر می باشند. بنابراین، غالب تراکنش های مشروعی که در این مجموعه قرار داشته را از این فرآیند کنار گذاشته و صرفاً یک دهم از آنها را در مجموعه خود (مجموعه ـ ۲) جای دادیم. اما با این وجود همچنان سرعت اجرای الگوریتم ژنتیک در حد کفایت سریع نبود. بنابراین چندین هفته طول کشید تا قابلیت مشاهده نوعی همگرایی حاصله با ویژگی های اجرایی بدست آمده بر روی کامپیوترهای قدرتمند سرور را داشته باشیم. با این حال تراکنش های مورد بررسی می بایست برای کارکردهای روزانه بانکی مورد استفاده قرار می گرفتند.
۴ـ۲٫ تحلیل های حساسیت
همانگونه که در بالا ذکر شد، در این مطالعه ما بهترین مقدار از ۴۲ پارامتر همراه با پارامتر آستانه را مشخص نمودیم. مجموعه این ۴۲ پارامتر به چهار نوع متغیر گروه بندی شده اند. جهت مشخص سازی تعامل هر نوع متغیر، ما نقاط شک برانگیز (SP) از این گروه ها را کنسل ساخته و صرفاً موارد باقیمانده و آستانه دست نخورده را کنار گذاشتیم. در صورتی مقادیر محافظت شده راه حل انتخابی را به میزان ۱۰۰ در نظر گیریم، قابلیت مشاهده مقادیر جدید، پس از آن که متغیرهای SPs کنسل شدند، در جدول ۲، را خواهیم داشت.
بر مبنای این جدول، ما می توانیم مشاهده کنیم که متغیرهای آماری منطقه ای به عنوان مهمترین مؤلفه به حساب آمده در حالی که متغیرهای آماری روزانه در پایین ترین سطح خود قرار می گیرند. متغیرهای آمار منطقه ای مشخص کننده شهرهایی هستند که مشتریان از CC خود بیشترین استفاده را داشته و با توجه به آن شکل دهنده آمار شخصی خود در آن منطقه و مناطق دیگر به صورت مجزا می باشند. در صورتی که اینگونه تلقی کنیم که کاهش موارد را می توان به عنوان یک مؤلفه مناسب در خصوص اهمیت متغیرها تلقی نمود و بر اساس آن اقدام به ترسیم اهمیت متغیرها کرد، می توانیم شکل ۳ را حاصل نماییم.
الگوریتم ژنتیک تشخیص تقلب کارت اعتباری
۵- خلاصه و نتیجه گیری
در این مطالعه، ما مشکل تشخیص تراکنش های جعلی کارت های اعتباری را مشخص نموده و آن را مورد بررسی قرار دادیم. این بررسی بر مبنای پروژه کاربردی حقیقی است که در آن عملکرد سیستم تشخیص جعلی موجود بر حسب بازی با مقادیر پارامترها ارتقا می یابد.
هدف این مطالعه، متفاوت از مشکلات رده بندی نوعی می باشد، از آن نظر که ما دارای هزینه دسته بندی نادرست متغیر می باشیم. با توجه به آنکه الگوریتم های داده کاوی استاندارد دارای تناسب مطلوبی با این راه حل نمی باشند، ما از الگوریتم های فرا ابتکاری استفاده نمودیم. به همین دلیل، ما نسبت به ترکیب دو روش کاملاً شناخته شده اقدام نمودیم: الگوریتم ژنتیک و الگوریتم جستجوی پراکنده. در انتهای این مطالعه، ما عملکرد راه حل موجود را به میزان ۲۰۰% ارتقا دادیم.
با توجه به کارایی متغیرها در زمینه تشخیص موارد جعلی، آمارهای مرتبط با نواحی معروف و غیرمعروف برای دارندگان کارت اعتباری به عنوان مهمترین عامل در نظر گرفته شد.
برخی از انواع متغیرها نظیر MCC و آمارهای کشوری در مقاله جاری مورد بررسی قرار نگرفته اند. بنابراین، یافته های حاصله در این مطالعه را نمی توان برای کل مسئله تشخیص کلاهبرداری و جعل تعمیم داد، با این حال، در صورت دسترسی به چنین داده هایی روش توصیف شده در این مبحث را می توان به سادگی جهت برخورد با پدیده های مرتبط مورد استفاده قرار داد.
برای تحقیقات آتی، کاربرد برخی از الگوریتم های کارامد در ارتباط با مسئله دسته بندی، با توجه به هزینه های دسته بندی نادرست متغیر، مد نظر قرار گرفته و ویژگیهای مرتبط تحت بررسی و مطالعه قرار خواهند گرفت.