تکنیک های فیلترینگ ایمیل فیشینگ
تکنیک های فیلترینگ ایمیل فیشینگ – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 48000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۱۴۲ |
کد مقاله | COM142 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | تحقیقی در ارتباط با فراگیری بر مبنای تکنیک های فیلترینگ ایمیل فیشینگ |
نام انگلیسی | A survey of Learning Based Techniques of Phishing Email Filtering |
تعداد صفحه به فارسی | ۳۷ |
تعداد صفحه به انگلیسی | ۱۱ |
کلمات کلیدی به فارسی | فیلترینگ ایمیل فیشینگ, فراگیری ماشینی |
کلمات کلیدی به انگلیسی | Phishing Email Filtering, Machine Learning |
مرجع به فارسی | مرکز پیشرفته ملی IPv6 Centre (NAV6)، دانشگاه مالزیکالج علوم کامپیوتر دانشگاه مالزیکالج فن آوری اطلاعات و علوم کامپیوتر، دانشگاه یارموک، اردنژرنال بین الملی فن آوری های محتوای دیجتال و کاربردها آن (JDCTA) |
مرجع به انگلیسی | National Advanced IPv6 Centre (NAV6), UniversitiSains Malaysia, USM, Penang, Malaysia; Faculty of Information Technology and Computer Sciences, Yarmouk University, Irbid, Jordan |
کشور | مالزی – اردن |
تحقیقی در ارتباط با فراگیری بر مبنای تکنیک های فیلترینگ ایمیل فیشینگ
چکیده
ایمیل فیشینگ یکی از مسائل عمده دنیای امروزی وب می باشد که سبب به بار آمدن زیان های مالی زیادی برای سازمان ها و کاربران می گردد. رویکردهای مختلفی جهت فیلتر نمودن ایمیل های فیشینگ ارائه شده اند. مقاله جاری بر روی کاربردهای فراگیری ماشینی به منظور تشخیص و پیش بینی ایمیل های فیشینگ تمرکز دارد. بعلاوه، مبحث تطبیقی و تحلیل راهکارهای مناسب فیلترینگ موجود در بازار برای سازمان ها و کاربران شخصی نیز مطرح خواهد بود. تحقیق انجام شده را می توان بعنوان یک راهنما در این زمینه، با توجه به وجود طیف گسترده ای از مقالات مرتبط، بکار گرفت.
کلمات کلیدی: فیلترینگ ایمیل فیشینگ، فراگیری ماشینی
تکنیک های فیلترینگ ایمیل فیشینگ
۱- مقدمه
ایمیل فیشینگ نوع خاصی از پیام اسپم می باشد. چنین ایمیلی را می توان بعنوان نوعی بزه، در ارتباط با سیستم های مهندسی اجتماعی، بحساب آورد. این فرآیند بزهکارانه بطور ابتدا به ساکن متکی بر ایمیل های جعلی است که از نسخه اصلی آنها، متعلق به ایمیل های اصلی شرکت ها یا بانک های حقیقی، الهام گرفته است. در نتیجه، از طریق یک لینک جاسازی شده در داخل ایمیل، فرد فیشر یا رباینده اطلاعات سعی در تغییر مسیر کاربران به سمت وب سایت های قلابی مدنظر خود می نماید. این وب سایت های قلابی بگونه ای طراحی شده اند تا بصورت متقلبانه ای قابلیت ربودن اطلاعات و داده های مالی از قربانیان خود را داشته باشند. این اطلاعات شامل نام کاربری، رمز و شماره کارت اعتباری می باشند [۱-۳].
ایمیل های فیشینگ سبب ایجاد خطرات جدی برای تجارت الکترونیک می شوند، چرا که آنها بطور گسترده اقدام به کلاهبرداری از افراد و سازمان های مالی از طریق اینترنت می نمایند. مشکل ایمیل های فیشینگ بصورت فزاینده ای در حال رشد می باشد. تحقیق انجام شده بوسیله Gartner [4] بر روی حملات فیشینگ نشان دهنده آن است که تقریبا ۶/۳ میلیون مشتری در ایالات متحده بواسطه حملات فیشینگ پول خود را از دست داده اند. مجموع زیان های حاصله حول و حوش ۲/۳ بیلیون دلار آمریکا می شود، در حالی که تعداد قربانیان از ۳/۲ میلیون در سال ۲۰۰۶ به ۶/۳ میلیون در سال ۲۰۰۷ افزایش یافته است که معرف افزایش ۵/۵۶% است. یکی از جدیدترین گزارشات بوسیله گروه کاری ضد فیشینگ (APWG) – گزارش روند جرایم الکترونیک [۵] مشخص کننده این موضوع است که حملات فیشینگ بصورت سالیانه در حال افزایش می باشند.
از نقطه نظر آماری، فیشینگ در فصل اول سال ۲۰۰۱ به میزان ۱۲% در مقایسه با همین فصل در سال ۲۰۱۰ افزایش یافته است. معضل ایمیل فیشنگ سبب بروز مشکلات زیادی، چون کلاهبرداری از بانک ها، شرکت های مالی و کاربران، می گردد. مقاله جاری ارائه دهنده نوعی نگرش خاص در ارتباط با کاربرد سیستم فراگیری ماشینی به منظور تشخیص و پیش بینی ایمیل های فیشینگ می باشد. ارزیابی و مقایسه رویکردهای مختلف در این مبحث و در ارتباط با فیلترینگ ایمیل فیشینگ توجه زیادی را به خود جلب نموده است.
مقاله جاری به شرح ذیل سازماندهی شده است: بخش ۲ جزئیات انواع حملات فیشینگ را ارائه می نماید. بخش ۳ تکنیک های فراگیری ماشینی برای تشیخص و پیش بینی ایمیل فیشینگ را عرضه می دارد. بخش ۴ جزئیات نتایج مقایسه ای را ارائه می نماید. در نهایت بخش ۵ به نتیجه گیری می پردازد.
تکنیک های فیلترینگ ایمیل فیشینگ
۲– انواع حملات فیشینگ
فیشینگ به عنوان نوع خاص اسپم به شمار می آید که از دو تکنیک فیشینگ گمراه کننده و فیشینگ مبتنی بر بد افزار استفاده می نماید. اولین تکنیک در ارتباط با سیستم های مهندسی اجتماعی می باشد که وابسته به ارسال نوعی ایمیل جعلی است که ادعا دارد چنین ایمیلی از سوی یک شرکت یا بانک معتبر ارسال شده است. در نتیجه، از طریق درج یک لینک جاسازی شده در ایمیل، فرد فیشر یا کلاه بردار سعی در تغییر مسیر کاربران به سمت وب سایت های وبی جعلی می نماید. این سایت های جعلی به گونه ای طراحی شده اند که به صورت متقلبانه قابلیت ربودن اطلاعات و داده های مالی، نظیر نام کاربری، رمز عبور، شماره کارت اعتباری یا اطلاعات شخصی، از قربانیان خود را داشته باشند. تکنیک دوم شامل طرح های گول زننده فنی است که متکی به برنامه های مخرب نرم افزاری می باشد که از طریق ایمیل های گمراه کننده یا از طریق تشخیص و بکارگیری حفره های امنیتی در کامپیوتر های کاربران پراکنده گردیده تا بدین وسیله قابلیت ربایش مستقیم اطلاعات حساب آنلاین قربانیان خود را داشته باشند. در بعضی از مواقع، فیشر سعی در هدایت نادرست کاربر به سمت یک وب سایت جعلی یا حتی وب سایت مشروع یا معتبری که تحت کنترل پراکسی ها می باشد می نماید [۶]. هدف مطالعه کنونی بر روی فیشینگ گمراه کننده ای است که از سیستم مهندسی اجتماعی بهره می جوید. شکل ۱ نشان دهنده موقعیت ایمیل فیشینگ در تکنیک های حمله فیشینگ می باشد.
تکنیک های فیلترینگ ایمیل فیشینگ
۳– تکنیک های فراگیری ماشینی برای فیلتر نمودن ایمیل فیشینگ
در این مقاله، تکنیک های فراگیری ماشینی برای تشخیص و پیش بینی ایمیل فیشینگ به ۵ گروه که ذیلاً توصیف می شوند تقسیم شده اند. بر این مبنا توصیفات روش های فیلترینگ موجود نیز ارائه می گردند.
۳-۱. روش های مبتنی بر کیفی پر از کلمات
این روش یک فیلتر ایمیل فیشینگ فراگیر – مبنا می باشد که مراقب داده های ورودی، به عنوان مجموعه ای از کلمات بدون قالب، با قابلیت پیاده سازی آنها در یک بخش یا کل پیام ایمیل، می باشد [۷].
ماشین بردار حامی (SVM)
که به عنوان یکی از شایع ترین کلاسیفایر های به کار گرفته شده در زمینه تشخیص ایمیل فیشینگ مطرح می باشد. در سال ۲۰۰۶، کلاسیفایر SVM برای فیلتر نمودن ایمیل های فیشینگ ارائه شد (Chandrasekaran، Narayanan و همکاران، ۲۰۰۶). SVM بر مبنای نمونه های ایمیل آموزشی و فرآیند تبدیل از قبل تعیین شده کار می کند، که در آن قابلیت ایجاد نقشه ای از ویژگی های مرتبط جهت تولید فضای ویژگی تغییر شکل یافته، ذخیره سازی نمونه های ایمیل دو کلاس مربوطه با یک ابر صفحه در فضای ویژگی تغییر شکل یافته، وجود دارد. قواعد تصمیم با توجه به فرمول ذیل مشخص می گردند:
کلاسیفایر های بیز ساده
که به عنوان یک کلاسیفایر با احتمال ساده به شمار می آید که بر حسب قضیه بیزی با فرضیه های مستقل “ساده” قدرتمند کار می کند. در سال ۲۰۰۶، کلاسیفایر بیز در مایکروسافت برای فیلتر نمودن ایمیل فیشینگ پیشنهاد شد (Ganger، ۲۰۰۶). این کلاسیفایر که در دسته بندی متنی بکار گرفته می شود را می توان به عنوان نگارش مبتنی بر فراگیری فیلترینگ کلمات کلیدی در نظر گرفت. جهت اطمینان از دقت، کلیه ویژگی ها از نقطه نظر آماری مستقل می باشند.
فراوانی واژه ای – فراوانی سندی معکوس (TF-IDF)
این مورد را می توان در ارتباط با وزن ها یا اوزان کلمات، به عنوان یک ویژگی برای خوشه بندی، بکار گرفت. فراوانی سندی کلمه w به وسیله DF(w) اعمال می گردد که به عنوان تعداد پیام های ایمیلی، در مجموعه داده های جمع آوری شده، تعریف می شود که در آن کلمه w، همانگونه که در فرمول ذیل نشان داده شده است، حداقل برای یک بار در سند (متن) مربوطه پدیدار می شود [۹].
الگوریتم بوستینگ (Boosting)
این الگوریتم ترکیبی از فرضیه های مختلف، همانند «درختان تصمیم تک سطحی»، را در بر دارد. ایده اصلی این الگوریتم منوط به هر فاز فرآیند دسته بندی می باشد، که در آن یک فراگیر آسیب پذیر (نه خیلی دقیق) مورد آموزش قرار گرفته و متعاقبا نتایج خروجی را می توان جهت وزن نمودن مجدد داده ها برای مراحل متعاقب استفاده نمود. در این رابطه، وزن بیشتر به نمونه های ورودی که به درستی دسته بندی نشده اند تخصیص می یابد. این الگوریتم در مرجع [۱۰] اجرا شده است.
نزدیک ترین همسایه – k (k-NN)
این الگوریتم که به عنوان یک کلاسیفایر به شمار می آید به وسیله Gansterer برای فیلترینگ ایمیل فیشینگ پیشنهاد شده است [۱۱]. با استفاده از این کلاسیفایر، فرآیند تصمیم به شرح ذیل ایجاد می شود: بر مبنای داده آموزشی نزدیک ترین k، نمونه ها با استفاده از تابع مشابهت از قبل تعیین شده انتخاب می شوند. پس از آن، ایمیل x به عنوان مورد متعلق به کلاس مشابه با کلاس انبوه، در بین نمونه های k، بر چسب می خورد. برخی از رویکردها بر مبنای آخرین الگوریتم ها و در ارتباط با فیلترینگ ایمیل های فیشینگ ذیلاً ارائه می گردند.
تکنیک های فیلترینگ ایمیل فیشینگ
۳-۲. الگوریتم های چند کلاسیفایری مقایسه ای
این رویکردها به طور کلی منوط به مقایسه بین مجموعه هایی از کلاسیفایرها می باشد. در حال حاضر، تحقیقات بیشتر و بیشتری از الگوریتم های کلاسیفایر جدید، همانند جنگل های تصادفی (RF)، استفاده نموده اند. RFها به عنوان آن دسته از کلاسیفایرهایی به شمار می آیند که از قابلیت ادغام چندین عامل پیش بینی درختی برخوردار می باشند، که در آن هر درخت، منوط به مقادیر یک بردار تصادفی نمونه برداری شده مجزا، قابلیت کار با تعداد زیادی از متغیرها در یک مجموعه اطلاعاتی را خواهد داشت. الگوریتم دیگر همانند رگرسیون لجستیک (LR) یکی از گسترده ترین موارد استفاده شده مدل آماری در رشته های مختلف برای پیش بینی داده های باینری می باشد. سادگی را می توان بعنوان دلیل کاربرد آن بحساب آورد. کلاسیفایرهای شبکه عصبی (NNet) که حاوی سه لایه (لایه ورودی، لایه مخفی و لایه خروجی) می باشند نیز از جمله موارد مهم به شمار می آیند. قدرت الگوریتم NNet نشات گرفته از ویژگی عدم خطیت لایه های نورون مخفی می باشد. در نتیجه، این عدم خطیت بعنوان یک ویژگی مناسب برای شبکه به منظور فراگیری نقشه های پیچیده بشمار می آید. تابع سیگموید نیز یکی از توابع استفاده شده شایع در شبکه های عصبی به حساب می آید [۱۲].
۳-۳٫ سیستم هیبرید / ترکیبی
این رویکردها بر مبنای ترکیب الگوریتم های مختلف کلاسیفایر ها بوده و با کار توام با یکدیگر یا مشترک سبب ارتقای نتایج می گردند. برخی از رویکردهای این نویسندگان به شرح ذیل توصیف می شوند.
FRALEC
یک سیستم هیبرید یا ترکیبی است که به وسیله مرجع [۱۴] جهت دسته بندی ایمیل ها به دو کلاس ایمیل های مشروع / معتبر و ایمیل های فیشینگ ارائه شده است. این سیستم شامل سه فیلتر می باشد، اولی کلاسیفایر ساده بیز که قابلیت رده بندی محتوای بافتی ایمیل ها جهت قرار دادن آنها در دسته بندی های اقتصادی (معتبر) یا غیر اقتصادی (فیشینگ) را خواهد داشت. مورد دوم، یک کلاسیفایر قاعده مبنا است که قابلیت رده بندی ویژگی های غیر گرامری یا دستور زبانی ایمیل ها به سه دسته را دارد: شامل ایمیل های متقلب، معتبر و مضنون. سومی، کلاسیفایر مبتنی بر یک امولاتور یا نمونه ساز – فیلتر دسترسی های مجازی است، که اقدام به دسته بندی پاسخ ها از URL وب سایت ها، ارجاع داده شده به وسیله ابرلینک های داخل ایمیل ها، می نماید. فیلتر نمونه ساز یا امولاتور بر مبنای دو قاعده کار می کند: اولین قاعده آن است که ایمیل در ابتدا، در صورتی که بدنه یک ایمیل اقتصادی شامل فرم ها باشد، به یک کلاس جعلی تخصیص می یابد، قاعده دوم آن است که در صورتی که بدنه یک ایمیل اقتصادی شامل فرم ها، لینک ها یا تصاویری که در داخل آن نشان داده شده است نباشد، ایمیل مربوطه به دسته بندی کلاس مشروع / معتبر تخصیص می یابد. نویسنده از ۱۰۳۸ ایمیل استفاده نموده است، (۱۰ ایمیل به عنوان ایمیل مشروع یا معتبر و ۱۰۲۸ ایمیل به عنوان فیشینگ). میزان دقت با توجه به حصول بهترین نتیجه ۹۶% بوده است. با این وجود، از مجموعه اطلاعاتی، مشخص می گردد که تعداد ایمیل های معتبر قابل مشاهده در حد کفایت نمی باشند تا نتایج روشنی را برای ما آشکار سازند. این تکنیک زمان بر است، چرا که قبل از ارائه تصمیم نهایی لازم است تا به لایه های بسیاری سر کشی شود.
دسته بندی چند لایه ای
این مورد به عنوان روشی مطرح است که از سه کلاسیفایر پیشنهادی به وسیله مرجع [۱۵] استفاده می نماید. وی اذعان می دارد که روش دسته بندی چند لایه ای رده بندی ایمیل های فیشینگ دارای بهترین چیدمان در فرآیند دسته بندی می باشد. در این روش، ویژگی های ایمیل فیشینگ استخراج شده و در یک قالب ترتیبی با استفاده از یک کلاسیفایر تطبیقی چند لایه دسته بندی می گردد. در عین حال، خروجی ها به پروسه کلاسفایر تصمیم ارسال می شوند که در آنc1 ،c2 وc3 به عنوان کلاسیفایر های مرتبط در سه لایه تلقی می شوند. در صورتی که پیام مربوطه به وسیله هر کدام از لایه های کلاسیفایر ها به صورت نادرستی دسته بندی گردد لایه سومی قابلیت اتخاذ تصمیم نهایی در ارتباط با فرآیند دسته بندی را خواهد داشت. بهترین نتیجه از الگوریتم تطبیقیc1 (SVM)،c2 (AdaBoost)و c3 (Naive Bayes)حاصل می شود. میانگین دقت این سه الگوریتم لایه ای ۹۷% می باشد. با این وجود، این تکنیک از مشکل مصرف زمان طولانی و پیچیدگی تحلیل برخوردار است، چرا که این تکنیک نیازمند انجام مراحل بسیاری، قبل از رسیدن به تصمیم نهایی، می باشد و علاوه بر این لازم به ذکر است که بواسطه دسته بندی نادرست ۳% مجموعه های اطلاعاتی آن با مشکل روبرو می باشد.
پروفایل سازی ایمیل فیشینگ
این رویه به عنوان یک روش جدید مطرح شده به وسیله مرجع [۱۰] به شمار می آید. نویسندگان بر روی اطلاعات ابرلینک جاسازی شده از طریق استخراج ویژگی های ساختاری و اطلاعات WHOIS [16] جهت استخراج ۱۲ ویژگی شاخص ایمیل های فیشینگ متمرکز می باشند. این ویژگی ها به دو کلاس تقسیم شده و علاوه بر این ویژگی های استخراج بر حسب مقدار باینری مشخص می گردند. یک ایمیل در صورتی که دارای هر کدام از ۱۲ ویژگی مطرح شده باشد به صورت “۱” دسته بندی می گردد و در غیر این صورت به صورت “۰” دسته بندی خواهد شد. الگوریتم کلاسیفایر SVM و الگوریتم بوستینگ متعاقباً جهت ایجاد پیش بینی های کلاس چند برچسبی بکار گرفته شده اند، متعاقباً این الگوریتم ها با سه مجموعه اطلاعاتی حاصل آمده از اطلاعات ابرلینک جاسازی شده در ایمیل های فیشینگ زمان بندی شدند. کلاس های ایجادی شامل سایت هک شده، سایت میزبان و سایت مشروع یا معتبر می باشند. به علاوه، نویسندگان ۲۰۳۸ ایمیل حقیقی را با اعتبار سنجی متقابل ۴ تایی مورد آزمایش قرار دادند. دقت دسته بندی بالا گزارش شده است. با این وجود، این تکنیک وابسته به ایمیل های فیشینگی می باشد که صرفاً دارای ابرلینک های جاسازی شده هستند، در حالی که بسیاری از حملات ایمیل فیشینگ بدون ابرلینک ها ایجاد می شوند، بنابراین، چنین تکنیکی از نظر قاعده دسته بندی دچار ضعف می باشد.
تکنیک های فیلترینگ ایمیل فیشینگ
۳-۴. ویژگی های مدل مبنای کلاسیفایر ها
این رویکردها بر مبنای ساخت مدل های کامل با قابلیت ایجاد ویژگی های جدید با استفاده از الگوریتم ها و کلاسیفایر های تطبیقی فراوان، به منظور حصول نتایج نهایی، می باشند [۱۷]. برخی از رویکردها به شرح ذیل هستند.
PHONEY
تقلید یا شبیه سازی پاسخ کاربر که به وسیله [۱۸] به عنوان یک رویکرد نوین ارائه شد. این تکنیک قابلیت تشخیص حملات ایمیل فیشینگ با استفاده از واکنش های قلابی فیشرهایی که از کاربران حقیقی تقلید می کنند را داشته و بعلاوه از تکنیک خاصی جهت معکوس سازی کاراکتر قربانیان و دشمنان سود می جوید. تکنیک PHONEY بین MTA و MUA کاربر نصب شده و با کنترل کلیه ایمیل های ورودی از حملات فیشینگ جلوگیری می نماید. PHONEY اقدام به آنالیز محتویات در حال ورود ایمیل ها دارای لینک های جاسازی شده با قالب های HTML متصل بدان می نماید. بنابراین، کنترل به یک اسکنر محتوا تحویل داده می شود که در آن صفحه وبی مربوطه برای آنالیز دریافت و متعاقباً داده های مورد نیاز نیز از صفحات وبی استخراج می شوند. داده های استخراجی در ارتباط با ورودی های hashDB مقایسه می گردند که شامل کلیه اطلاعات همانند رمز یا نام کاربر، همراه با پارامترهای مورد نیاز دیگر می باشد. hashDB دارای دو فیلد است که معرف نام های نشانه همراه با مقادیر جعلی آنها می باشد. تکنیک PHONEY اقدام به ارزیابی و تست ۲۰ ایمیل فیشینگ مختلف در خلال ۸ ماه نموده است. با این حال، مشخص شد که حجم اندک اطلاعات جمع آوری شده قابلیت مخاطب قرار دادن مشکلات اساسی همانند ایمیل های فیشینگ را نداشته و چنین تکنیکی به واسطه نیاز جهت معکوس سازی کاراکترهای قربانی و فیشر، همانگونه که در شکل ۲ نشان داده شده است، زمان بر می باشد.
فیلتر فیشینگ آموزشی SmartScreen
این فیلتر که بوسیله مایکروسافت ارائه شده است از داده های بازخورد بیش از ۳۰۰٫۰۰۰ کاربر سایت هاتمیل استفاده می نماید [۱۱]. این تکنیک بر مبنای استخراج ویژگی های بیش از ۱۰۰٫۰۰۰ ایمیل با استفاده از الگوریتم فراگیری بر مبنای آمارهای بیزی کار می کند. تیم تخصصی مایکروسافت از آخرین تکنیک های اسپمینگ و فیشینگ استفاده می نماید. با این وجود، پس از تست این تکنیک از طریق مرورگر اینترنت اکسپلورر، بهترین نمره فراخوانی بدون مثبت کاذب ۸۹% بوده است [۲۰]. با این حال، تعداد بالای ویژگی های انتخابی در این تکنیک سبب صرف زمان طولانی، حافظه زیاد و نویز دسته بندی می شود.
PILFERS
این فرآیند به وسیله مرجع [۲۱] به عنوان یک روش پیشنهادی جهت تشخیص ایمیل های فیشینگ ارائه شده است. این تکنیک بر مبنای ۱۰ ویژگی مختلف، معرف ایمیل های فیشینگ، کار می کند. نه ویژگی مربوطه از خود ایمیل استخراج می شوند، در حالی که ویژگی دهم معرف عمر نام های لینک شده – به – دامنه می باشد، که می توان آن را از جستجوی WHOIS به هنگامی که ایمیل دریافت می شود حاصل آورد [۱۶]. ابزارS.A. [۲۲]، جهت مشخص نمودن این موضوع بکار گرفته می شود که آیا ایمیل ورودی دارای ویژگی های اسپم می باشد یا خیر. این تکنیک بر مبنای اعتبار سنجی – متقابل ۱۰ تایی، همراه با جنگل تصادفی و SVM، به عنوان کلاسیفایر های A جهت آموزش و تست مجموعه های اطلاعاتی، کار می کند. بر این مبنا آنها ۸۶۰ ایمیل فیشینگ و ۶۹۵۰ ایمیل مشروع یا معتبر را مورد تست قرار دادند. نتیجه PILFER با ویژگی های S.A. به ترتیب ۱۲/۰ % نرخ مثبت کاذب و ۳۵/۷% نرخ منفی کاذب بوده است که به معنای آن می باشد که تعداد قابل توجهی از ایمیل های فیشینگ و معتبر از دسته بندی مناسبی برخوردار نمی باشند.
زنجیرهای مارکوف دینامیکی آموزش دیده انطباقی و مدل نوین موضوعی کلاس پنهان
این مدل به وسیله مرجع [۲۳] پیشنهاد شده است و قابلیت بررسی فیلترینگ آماری ایمیل های فیشینگ و آموزش ویژگی های خصیصه ای ایمیل ها بر مبنای کلاسیفایر ها را داشته و متعاقباً می تواند با توجه به محتویات مختلف نسبت به شناسایی ایمیل های فیشینگ جدید نیز اقدام نماید. بر این مبنا، نویسنده ویژگی های جدیدی که به وسیله تکنیک های فراگیری ماشینی آموزش دیده اند، آن هم با استفاده از الگوریتم زنجیرهای با مدل های موضوعی – کلاس پنهان نوین، را پیشنهاد نموده است. در ابتدا، مجموعا ۲۷ ویژگی اصلی استخراج گردید. این ویژگی ها شامل موارد ذیل هستند: چهار مورد از ویژگی های ساختاری (نظیر مجموع کل بخش های بدنه)، هشت مورد از ویژگی های لینک (نظیر مجموع کل لینک ها)، چهار مورد از ویژگی های جزئی (نظیر کد HTML یا JavaScriptcode)، دو مورد از ویژگی های فیلتر اسپم (نظیر نتایج بولی اسپم کش: اسپم یا ایمیل های معتبر)، ۹ مورد از ویژگی های لیست شده کلمات (نظیر ریشه های نه- کلمه ای: حساب، به روز رسانی، تایید، تصدیق، ایمنی، مشخص سازی، ثبت، کلیک، عدم راحتی). در وهله دوم، ویژگی های استخراج شده به وسیله زنجیر مارکوف دینامیکی منوط به احتمال حاصل آوردن یک پیام متعلق به یک کلاس خاص می باشد. سوماً، ۵۰ ویژگی مدل موضوعی پنهان (خوشه های کلمات پدیدار شده توام در ایمیل ها) مد نظر قرار گرفتند [۲۴].
تکنیک های فیلترینگ ایمیل فیشینگ
مدل کلاسیفایر مقاوم
این مدل به وسیله مرجع [۲۶] پیشنهاد شده است و قابلیت شناسایی ایمیل های فیشینگ از طریق بکارگیری ویژگی های هیبرید یا ترکیبی همراه با ویژگی های انتخابی بر مبنای الگوریتم های تحصیل اطلاعات را خواهد داشت. نویسنده از هفت ویژگی انتخابی پس از رتبه بندی بسیاری از ویژگی ها به وسیله الگوریتم کسب اطلاعات استفاده نموده است. این ویژگی ها معرف خواص قدرتمندتر در مطالعه مربوطه می باشند و شامل لینک ها، مجموع کل لینک های ناپیدا، URLs غیر منطبق، فرم ها، اسکریپت ها، و کلمات مربوط به بدنه و کلمات لیست سیاه می باشند. نویسنده از شاخص ایمیل بر مبنای تبدیل کلیه ویژگی ها به مقادیر عددی در یک محدوده مختلف همانند احتمال آن که “تعداد لینک های نامشهود” زیر پنج مورد باشد، در حالی که کلمات لیست سیاه بدنه حاوی صدها کلمه است، استفاده نموده است. مقادیر ویژگی هایی که قبل از فرآیند دسته بندی نرمالیده شده اند مقید به محدوده [۰, ۱] هستند. جهت تشخیص ایمیل های فیشینگ، نویسنده پنج مرحله را پیشنهاد نموده است: در ابتدا، تولید ویژگی شامل هفت ویژگی فوق الذکر، دوم: انتخاب روش فراگیری ماشینی از طریق پنج الگوریتم فراگیری ماشینی تطبیقی، سوم: کسب اطلاعات به وسیله ویژگی های القائی، چهارم: ارزیابی ویژگی با قابلیت انتخاب یک فضای بردار کوچکتر ویژگی. پنجم، پالایش مجدد ماتریس ویژگی جهت بهینه سازی مجموعه های ویژگی. دقت نتیجه «داده های ویژگی اندک» با استفاده از الگوریتم درخت تصمیم برای فضای بردار کوچک، با استفاده از چهار مورد از هفت ویژگی، در بهترین حالت یعنی دقت ۸/۹۹% می باشد.
۳-۵. خوشه بندی ایمیل فیشینگ
خوشه بندی به عنوان فرآیند تعریف داده ها به صورت گروه بندی شده با توجه به مشابهت آنها می باشد. این مورد را می توان غالباً به عنوان الگوریتم های فراگیری ماشینی غیر کنترلی مد نظر قرار داد. این گروه تکنیک های فراگیری ماشینی منوط به فیلترینگ ایمیل های فیشینگ بر مبنای خوشه بندی ایمیل ها از طریق مودهای آنلاین یا آفلاین می باشد. یکی از شایع ترین تکنیک های خوشه بندی میانگین کا (k-means) می باشد. این الگوریتم به عنوان نوعی خوشه بندی آفلاین و غیر کنترل شده به شمار می آید که از طریق مشخص سازی خوشه k به عنوان مرکز فرضی خوشه کار خود را آغاز می کند. هرگونه آبجکت ایمیل تصادفی یا بردار ویژگی ها را می توان به عنوان یک مرکز اولیه در نظر گرفته و متعاقباً سه مرحله ذیل را اعمال داشت: مشخص نمودن مختصات مرکز، مشخص سازی فاصله هر آبجکت ایمیل (بردار) به گروه مرکز آبجکت های ایمیل بر مبنای یک فاصله حداقلی [۲۸] .
خوشه ایمیل های فیشینگ به صورت اتوماتیک
این سیستم به وسیله مرجع [۲۹] بر مبنای ویژگی های اورتوگرافیک یا املائی شامل ویژگی های HTML ، اندازه سند، محتوای متنی و اجزای دیگر ارائه شده است. چنین موردی از طریق حذف همزمان ویژگی های اضافی / حشو عملی می گردد. این سیستم اقدام به جمع آوری ویژگی های محتمل بر مبنای بررسی با الگوریتم خوشه بندی میانگین کای (k-means) تطبیقی نموده تا قابلیت تولید مقادیر تابع هدف (شبیه سازی فاصله بین کلیه بردار ویژگی ها و مرکز خوشه) در یک محدوده مقادیر قابل پذیرش در امتداد بسیاری از زیر مجموعه های ویژگی را داشته باشد. بهترین خوشه تعیین شده بوسیله مقدار نهایی مشخص کننده توزیع تابع هدف می باشد. نویسنده اقدام به تست ۲۰۴۸ ایمیل از یک بانک اطلاعات استرالیایی در خلال پنج ماه، بدون اطلاع از ایمیل های آن، نموده است. با این وجود، این تکنیک با ایمیل های عمومی ناشناخته مشکل دارد. مباحث بیشتری در خصوص ارتباط بین مقدار خوشه و مقادیر تابع هدف مورد بررسی قرار می گیرند. با این وجود، چنین مواردی مخصوصاً به واسطه آن که الگوریتم مقادیر کا از طریق صرفاً تکنیک آفلاین کار می کند، در حد کفایت و مطلوب نمی باشند.
هویت های تشخیص ناهنجاری
این سیستم به منظور تشخیص و فیلتر نمودن ایمیل های فیشینگ به وسیله [۳۲] پیشنهاد شد. این تکنیک با استفاده از برآورد کننده های ضعیف مبتنی بر فراگیری تصادفی (SLWE) در یک محیط زندگی حقیقی [۳۳]، و با استفاده از فیلترهای برآورد کننده احتمال های حداکثری (MLE) کار می کند. نویسنده از این تکنیک جهت تکمیل رفتار نرمال یک سیستم بهره گرفت. مدل وی ایمیل ها را به مستندات نرمال و غیر نرمال طبقه بندی نموده که ویژگی های مرتبط با آن ایمیل ها خود حاصل آمده از داده های فرا گرفته شده می باشند. این مدل قابلیت دسته بندی ایمیل ها بر مبنای دسته بندی متنی (TC) آنها را خواهد داشت. هر کدام از ایمیل ها می بایست به دسته های Ci تخصیص یابند، که در آن ایمیل های مشروع به عنوان موارد نرمال تلقی شده و ایمیل های فیشینگ نیز به عنوان موارد غیر طبیعی یا ناهنجار دسته بندی می شوند. بدین روش، دو کلاس مربوطه را می توان مورد شناسایی قرار داد: ایمیل های معمولی یا معتبر و ایمیل های فیشینگ. الگوریتم کسب اطلاعات ۲۰۰ ویژگی را از بین ۱۰۰۰ ویژگی انتخاب می نماید. این الگوریتم نیازمند آموزش و فراگیری جهت ایجاد قواعد خاص می باشد، آن هم به هنگامی که موراد مورد ارزیابی در هر یک از بازه های ورودی زمانی به روز رسانی می شوند. نویسنده از دو مجموعه اطلاعاتی استفاده نموده است: ۱۲۰۰ ایمیل معمولی و ۶۰۰ ایمیل فیشینگ از بخش اینباکس کاربران. نتیجه مثبت صحیح ۹۷% و مثبت کاذب ۹۸% بر مبنای دو الگوریتم فیلترینگ (SLWE، MLE) به دست آمد. با این وجود، این تکنیک به واسطه عدم وجود تعداد زیادی از ویژگی ها که بر روی عملکرد سیستمی تاثیر می گذارد در رنج می باشد. به علاوه، این تکنیک نیازمند فراگیری نهایی دارد که خود سبب مصرف حافظه بالایی خواهد شد.
۳-۶. سیستم گسترشی پیوندگرا (ECOS) برای تشخیص ایمیل فیشینگ
سیستم گسترشی پیوندگرا (ECOS) یک معماری پیوندگرا می باشد که سبب ساده سازی فرآیند های گسترشی و تکمیلی با استفاده از اکتشاف اطلاعات و دانش مرتبط می شوند. در حقیقت، این مورد می تواند به صورت یک شبکه عصبی یا مجموعه ای از شبکه ها پدیدار گردد که به صورت پیوسته در حال اجرا بوده و قابلیت تغییر ساختار و عملکرد خود از طریق یک ارتباط پیوسته با محیط و با سیستم های دیگر را خواهد داشت. این سیستم، همانند سیستم های حرفه ای سنتی دیگر، با تعداد غیر ثابتی از قواعد که جهت توسعه هوش مصنوعی (AI) فعالیت دارند، کار می کند [۳۴]. این سیستم با توجه به قاعده دینامیکی انعطاف پذیر بوده و در حالت آنلاین یا آفلاین قابلیت کار داشته و می تواند به صورت دینامیکی با محیط در حال تغییر تعامل برقرار نماید. چنین سیستمی قابلیت حل پیچیدگی ها و تغییر پذیری بسیاری از مشکلات دنیای حقیقی را خواهد داشت. این سیستم در امتداد فرآیند های مرتبط به رشد خود ادامه داده و تکنیک های بسیاری را اتخاذ می نماید. ECOS دارای ویژگی های ذیل است.
روش خوشه بندی گسترشی فیشینگ (PECM)
این روش به وسیله [۳۷، ۳۸] ارائه شده است و مشخص کننده یک مفهوم نوین می باشد که در بردارنده روش خوشه بندی گسترشی / تکاملی برای دسته بندی (ECMC) می باشد. توابع PECM بر مبنای سطح مشابهت بین دو گروه ویژگی های ایمیل های فیشینگ می باشند. مدل PECM، بر حسب دسته بندی ایمیل ها به ایمیل های فیشینگ یا ایمیل های عادی در مود آنلاین، کاملاً ممتاز تلقی شده و علاوه بر این از نقطه نظر سرعت و کاربرد الگوریتم یک طرفه / تک گذری معروفیت دارد. PECM هم چنین قابلیت خود در زمینه دسته بندی ایمیل ها از طریق کاهش سطح مثبت کاذب و منفی کاذب را به اثبات رسانده است و در عین حال قابلیت افزایش سطح دقت تا ۷/۹۹ % را دارد. این مدل جهت کار در مود آنلاین ایجاد شده است و قابلیت فراگیری پیوسته بدون مصرف چندان زیاد حافظه را خواهد داشت، چرا که این سیستم در یک الگوریتم یک طرفه / تک گذری کار می کند. بنابراین، داده ها در یک زمان از حافظه مورد دسترسی قرار گرفته و متعاقباً قاعده مربوطه بر حسب سیر تکامل یا گسترش پروفایل ایجاد می گردد، آن هم در صورتی که ویژگی ایمیل فیشینگ تغییر یافته باشد. البته این تکنیک نیازمند تغذیه متوالی است.
تکنیک های فیلترینگ ایمیل فیشینگ
۴- نتایج مقایسه فراگیری ماشینی برای فیلترینگ ایمیل فیشینگ
در جدول ۵، یک مطالعه مقایسه ای در خصوص مزیت ها و معایب هر کدام از گروه های دسته بندی ارائه شده است. (فرا تحلیل رویکردهای فیلترینگ محتوا مبنا برای تشخیص ایمیل فیشینگ بر مبنای تکنیک های فراگیری ماشینی)
تکنیک های فیلترینگ ایمیل فیشینگ
۵- نتیجه گیری
در این مطالعه، مشکل حملات ایمیل فیشینگ، مخصوصا در زمینه امنیت تجارت الکترونیک، که دارای تلویحات اقتصادی و اخلاقی می باشد مورد خطاب قرار گرفته است. پذیرفته ترین و توسعه یافته ترین رویکردها برای مبارزه در برابر ایمیل های فیشینگ رویکردهای فیلترینگ فراگیر مبنا می باشند. رویکردهای کنونی شامل فیلترهای فراوان بر مبنای تکنیک های دسته بندی مختلف استفاده شده در بخش های مختلف پیام های ایمیل هستند. کلاسیفایر بیزی ساده و رویکرد ماشین بردار حامی، جایگاه خاصی را به خود اختصاص داده اند چرا که دقت آنها بالا می باشد و به سادگی قابلیت کمک در ارتباط با تولید راه حال های عملی را خواهند داشت.
با این وجود، تعداد زیادی از کلاسیفایرها سبب می شوند تا به یک سری از ویژگی های تکاملی و مطالعات مقایسه ای سیستماتیک نیاز داشته باشیم. بعلاوه، تنها نویسندگان اندکی محدودیت های رویکردهای جاری را مورد آزمایش و بحث قرار داده اند. تکنیک های موجود بیشتر و بیشتری که برای فیلترینگ ایمیل فیشنگ ارائه شده اند دارای محدودیت هایی هستند. فن آوری های مربوط به تکنولوژی هنوز نیز مشخص کننده محدودیت هایی در خصوص دقت و عملکرد این الگوریتم ها می باشند چرا که آنها غالبا زمانبر و پر هزینه بوده و سبب ایجاد تعداد زیادی از قواعد مرتبط از طریق تکنیک های فراگیری شده اند و از این طریق می بایست الگوریتم های بسیاری را مورد استفاده قرار داد، اما در عین حال هنوز هیچگونه تکنیک استانداردی وجود ندارد که بطور کلی قابلیت متوقف سازی حملات فیشینگ یا ایمیل های فیشینگ، بعنوان یک مورد خاص، را داشته باشند. بعلاوه، غالب تحقیقات انجام شده بر روی مود آفلاین که نیازمند جمع آوری اطلاعات، آنالیز داده ها و فاز ایجاد پروفایل می باشد را می بایست در ابتدا تکمیل نمود. رویکرد آفلاین فی النفسه بصورت استاتیک می باشد، که به معنای آن خواهد بود که در صورت بروز تغییراتی بر روی ویژگی های ایمیل فیشینگ، کلیه فازها را می بایست به منظور تطبیق با این تغییرات تکرار نمود. بنابراین، رویکردهای جدیدی همراه با فن آوری های نوین، همچنان جهت حل کلیه محدودیت های مرتبط با تشخیص و پیش بینی ایمیل فیشینگ، مورد نیاز می باشند.