فراگیری ماشینی تشخیص فیشینگ
فراگیری ماشینی تشخیص فیشینگ – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 58000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۱۴۱ |
کد مقاله | COM141 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ |
نام انگلیسی | A Comparison of Machine Learning Techniques for Phishing Detection |
تعداد صفحه به فارسی | ۴۸ |
تعداد صفحه به انگلیسی | ۱۰ |
کلمات کلیدی به فارسی | دسته بندی, رگرسیون لجستیک, فراگیری ماشینی, فیشینگ, جنگل های تصادفی |
کلمات کلیدی به انگلیسی | BART, CART, classi cation, logistic regression, machinelearning, NNet, phishing, random forests, SVM |
مرجع به فارسی | دانشگاه ساترن متودیست، تگزاس، ایالات متحدهنشست تحقیقاتی جرایم الکترونیک APWG، ایالات متحده |
مرجع به انگلیسی | APWG eCrime Researchers Summit, Pittsburgh, PA, USA |
کشور | ایالات متحده |
مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ
چکیده
سیستم های کاربردی بسیاری برای تشخیص فیشینگ وجود دارند. با این وجود، بر خلاف بررسی های مرتبط با پیش بینی اسپم، مطالعات اندکی وجود دارند که اقدام به مقایسه تکنیک های فراگیری ماشینی در خصوص پیش بینی فیشینگ نموده باشند. مطالعه کنونی اقدام به مقایسه دقت پیش بینی چندین روش فراگیری ماشینی، شامل رگرسیون لجستیک (LR)، درختان دسته بندی و رگرسیون (CART)، درختان رگرسیون افزدونی بیزی (BART)، ماشین بردار حامی (SVM)، جنگل های تصادفی (RF)، و شبکه های عصبی (NNet) برای پیش بینی ایمیل های فیشینگ نموده است. یک مجموعه اطلاعاتی متشکل از ۲۸۸۹ ایمیل فیشینگ و ایمیل مشروع در مطالعه مقایسه ای شرکت داده شده و بعلاوه ۴۳ ویژگی نیز جهت آموزش و تست کلاسیفایرها بکار گرفته شده است.
کلمات کلیدی: BART، CART، دسته بندی، رگرسیون لجستیک، فراگیری ماشینی، NNet، فیشینگ، جنگل های تصادفی، SVM
فراگیری ماشینی تشخیص فیشینگ
۱- مقدمه
هیچگونه توافقی در خصوص تعریف مرتبط با فیشینگ وجود ندارد. با این حال، غالب تعاریف بر این نکته توافق دارند که هدف یک کلاه برداری / اسکم فیشینگ دزدیدن اطلاعات محرمانه پرسنلی شخصی می باشد [۳، ۱۱، ۱۷]. رسانه مورد استفاده برای حمله ممکن است برحسب ویژگی های تهاجمی متفاوت باشد. بطور مثال، فرآیند فارمینگ بعنوان نوعی فیشینگ تلقی می گردد که در آن فرد مهاجم اقدام به هدایت نادرست کاربران به سمت سایت های متقلب یا سرورهای پراکسی نموده و برای انجام اینکار غالبا از سیستم نام دومین / دامنه (DNS) و تکنیک های هایجکینگ یا آلوده نمودن کش سامانه نام دامنه استفاده می کند [۳]. فرد مهاجم در این ارتباط قابلیت ربودن اطلاعات قربانی خود از طریق حاصل آوردن نام دامنه یا دومین یک وب سایت خاص و متعاقبا تغییر جهت ترافیک آن وب سایت به سمت وب سایت فیشینگ، بدون ارسال ایمیل های جعلی، را خواهد داشت. با این وجود، ایمیل همچنان بعنوان مطلوب ترین ابزار برای فیشینگ مدنظر است. وجود ابزارهای گسترده سخت افزاری و نرم افزاری در ارتباط با میل های انبوه (تحت عنوان میلرها یا نامه رسان ها) موجب تسهیل کار فیشرها شده و سبب می شود تا قابلیت ارسال مقادیر زیادی از ایمیل ها به تعداد بالایی از قربانیان فراهم شود.
…
ادامه این مقاله به شرح ذیل سازمان دهی شده است: در بخش ۲ تحقیقات مرتبط را مورد بحث قرار می دهیم. در بخش ۳ روش های دسته بندی به کار گرفته شده در این مطالعه را نشان می دهیم. در بخش ۴ مجموعه های اطلاعاتی ساختاری، اوزان مورد ارزیابی و رویه های اولیه را ارائه می نماییم. در بخش ۵ مطالعات تجربی را عرضه می نماییم. نتایج در بخش ۶ ارائه گردیده و در بخش ۷ مورد بحث و بررسی قرار می گیرند. در نهایت نتیجه گیری و انگیزه های مرتبط با تحقیقلت آتی نیز در بخش ۸ ارائه خواهد شد.
فراگیری ماشینی تشخیص فیشینگ
۲- تحقیقات مرتبط
بر حسب گزارش APWG به طور کلی سه دسته بندی اصلی در ارتباط با مکانیسم های دفاع در برابر فیشینگ و کلاه برداری وجود دارد: مکانسیم های تشخیصی، پیشگیرانه و اصلاحی [۳]. این موارد در جدول ۱ خلاصه شده اند [۱].
ذیلاً به اختصار توصیفی از چندین فناوری قابل دسترس در خصوص تشخیص فیشینگ را ارائه می نماییم. در ابتدا، تولبارها یا نوارهای ابزار ضد فیشینگ را ارائه می نماییم. متعاقباً، دو مطالعه تحقیقاتی را عرضه می نماییم که در آنها از فراگیری ماشینی در خصوص تشخیص فیشینگ استفاده شده است.
۲-۱٫ تولبار / نوار ابزار ضد فیشینگ
نوارهای ابزار ضد فیشینگ به صورت فراگیر و شایعی در دسترس بوده و به وسیله کاربران ابتدایی و غیر فنی کامپیوتر جهت کاهش مشکل فیشینگ از آنها استفاده می شود. با وجود آن که این ابزار ها در خصوص تسکین این مشکل کمک کننده هستند، بسیاری از مطالعات تحقیقاتی معرف عدم کارآمدی مطلوب چنین تکنیک هایی می باشند. یکی از مشکلات عمده در بسیاری از موارد آن است که لینک های جعلی بدون ملاحظه محتوایی که بر حسب آن چنین لینکی در دسترس کاربر قرار گرفته است مورد آزمایش قرار گرفته و از این طریق سبب از دست رفتن دقت می گردد. مشکل دیگر آن است که به هنگامی که کاربری وارد آدرس سایت فیشینگ در نوار آدرس مرورگر خود شد، به سرعت در معرض حمله سایت قرار خواهد گرفت.
۲-۲٫ تکنیک های فراگیری ماشینی
غالب الگوریتم های فراگیری ماشینی بحث شده در اینجا بعنوان فراگیری ماشینی کنترل شده دسته بندی شده اند. این مورد غالباً به هنگامی مد نظر خواهد بود که یک الگوریتم (کلاسیفایر) سعی در نگاشت ورودی ها به خروجی های مطلوب با استفاده از یک تابع خاص می نماید. در ارتباط با مشکلات دسته بندی، یک کلاسیفایر سعی در فراگیری چندین خصیصه (شامل متغیر ها یا ورودی ها) می نماید تا از این طریق قابلیت پیش بینی یک خروجی (پاسخ) را داشته باشد. در مورد دسته بندی فیشینگ، یک کلاسیفایر سعی در دسته بندی ایمیل به ایمیل فیشینگ یا ایمیل مشروع (پاسخ) از طریق فراگیری ویژگی های خاص (خصیصه ها) در ایمیل می نماید. ذیلاً ما نسبت به خلاصه سازی مطالعات تحقیقاتی که شامل فراگیری ماشینی در دسته بندی فیشینگ می باشد اقدام می نماییم.
Chandrasekaran و همکاران [۷] تکنیکی را جهت دسته بندی فیشینگ بر مبنای خواص ساختاری ایمیل های فیشینگ عرضه داشتند. آنها از مجموع ۲۵ ویژگی ترکیبی، بین مارکر ها یا علایم مرتبط با سبک، (یعنی کلمات تعلیقی، حساب ها و ویژگی های امنیتی) و خصیصه های ساختاری، نظیر ساختار خط موضوعی ایمیل و ساختار بخش خوش آمدگویی در بدنه ایمیل استفاده نمودند.
آنها ۲۰۰ ایمیل (۱۰۰ ایمیل فیشینگ و ۱۰۰ ایمیل مشروع) را مورد آزمایش قرار دادند. آنها از سیستم آنیلینگ / تبرید شبیه سازی شده به عنوان الگوریتمی برای تشخیص ویژگی ها استفاده نمودند. پس از آن که مجموعه ای از ویژگی ها مشخص شدند، آنها از بهره اطلاعات (IG) جهت مشخص نمودن رتبه این ویژگی ها بر مبنای ارتباط آنها استفاده کردند. آنها از SVM تک – کلاسی جهت رده بندی ایمیل های فیشینگ بر مبنای خواص انتخابی استفاده نمودند. نتایج معرف یک نرخ تشخیص ۹۵% ایمیل های فیشینگ با یک نرخ پایین مثبت کاذب می باشد.
فراگیری ماشینی تشخیص فیشینگ
۳- روش های مطالعه شده برای تشخیص فیشینگ
در زیر بخش های متعاقب، به طور خلاصه روش های دسته بندی استفاده شده در مطالعه تطبیقی خود را ارائه می نماییم.
۳-۱٫ رگرسیون لجستیک
رگرسیون لجستیک به عنوان شایع ترین روش آماری استفاده شده در بسیاری از رشته ها برای پیش بینی داده های باینری / دودویی (پاسخ ۱/.) به شمار می آید. این الگوریتم به صورت گسترده ای به واسطه سادگی و قابلیت تفسیر بالای آن استفاده می شود. با توجه به تعدادی از مدل های خطی کلی، این روش نوعاً از تابع لاجیت استفاده می نماید، بدان صورت که:
۳-۲٫ درختان دسته بندی و رگرسیون
CART یا درختان دسته بندی و رگرسیون [۶] به عنوان مدلی مطرح است که تشریح کننده توزیع شرطی y با توجه به x می باشد. این مدل حاوی دو مولفه است. یک درخت T با گره های ترمینال b، و یک بردار پارامتر ، که در آن qtدر ارتباط با iامین گره ترمینال می باشد. این مدل را می توان در صورتی که پاسخ y به صورت گسسته باشد به عنوان یک درخت دسته بندی تلقی نمود یا در صورتی که y به صورت پیوسته باشد آن را به صورت درخت رگرسیون در نظر داشت. یک درخت باینری جهت پارتیشن سازی یا منفک نمودن فضای پیش بینی کننده به صورت بازگشتی به نواحی همگن متمایز بکار گرفته می شود، که در آن گره های ترمینال درخت منطبق با نواحی متمایز می باشند. ساختار درخت باینری قابلیت تقریب مناسب ارتباطات غیر استاندارد را خواهد داشت (یعنی موارد غیر خطی و غیر یکنواخت). به علاوه، این پارتیشن به وسیله قواعد جدا سازی مرتبط با گره های داخلی درخت باینری مشخص می شود. در صورتی که متغیر جدا سازی می بایست به صورت پیوسته باشد، یک قاعده جدا سازی در قالب و به بخش های چپ و راست گره جدا کننده به ترتیب تخصیص می یابد. با این وجود، در صورتی که متغیر جدا کننده می بایست به صورت گسسته باشد، یک قاعده جدا کننده در قالب و به بخش سمت راست و چپ گره جدا کننده به ترتیب تخصیص داده می شود [۸].
۳-۳٫ جنگل های تصادفی
جنگل های تصادفی جزء آن دسته از کلاسیفایرهایی به شمار می آیند که بسیاری از پیش بینی کننده های درخت را با هم ترکیب می نمایند و در آنها هر درخت متکی به مقادیر بردار تصادفی می باشد که به صورت مستقل نمونه برداری شده اند. به علاوه، کلیه درختان در جنگل دارای توزیع یکسانی هستند [۵]. به منظور ایجاد یک درخت، ما در نظر می گیریم که n تعداد مشاهدات آموزشی و p تعداد متغیر ها (ویژگی ها) در یک مجموعه آموزشی می باشند. به منظور تعیین گره تصمیم در یک درخت، ما به عنوان تعداد متغیر هایی که می بایست آنها را انتخاب کرد مد نظر قرار می دهیم. ما یک نمونه خود راه انداز را از مشاهدات n در یک نمونه آموزشی انتخاب نموده و بقیه مشاهدات را جهت ارزیابی خطای این درخت در فاز آزمایشی مورد استفاده قرار می دهیم. بنابراین، به صورت تصادفی اقدام به انتخاب k متغیر به عنوان یک تصمیم در گره خاص در درخت نموده و بهترین مورد مجزا را بر مبنای متغیر های k در مجموعه آموزشی محاسبه می کنیم. درختان در مقایسه با دیگر الگوریتم های درختی غالباً رشد نموده و هرگز هرس نمی شوند.
۳-۴٫ شبکه های عصبی
یک شبکه عصبی به صورت مجموعه ای از واحد های یکسان به هم متصل شده (نورون ها) ساخته می شوند. این مولفه های به هم متصل شده جهت ارسال سیگنال ها از یک نورون به نورون دیگر مورد استفاده قرار می گیرند. به علاوه، آنها دارای اوزان خاصی جهت ارتقای فرآیند تحویل بین نورون ها می باشند [۱۸]. نورون ها به خودی خود قدرتمند نیستند، با این وجود، به هنگام اتصال با نورون های دیگر آنها قابلیت انجام محاسبات پیچیده را خواهند داشت. اوزان مرتبط با این اتصالات بینابینی به هنگامی که شبکه آموزش می بیند به روز رسانی شده و از اینرو در طی فاز آزمایشی رابطه بینابینی معنی دار نقش مهمی را ایفا می کند. شکل ۱ نشان دهنده مثالی برای شبکه عصبی می باشد. شبکه عصبی در این شکل حاوی یک لایه ورودی، یک لایه مخفی و یک لایه خروجی است. از آن جایی که این اتصالات داخلی سبب لوپ بک یا رد دیگر نورون ها نمی شوند، این شبکه تحت عنوان پیش خورد خوانده می شود. توان شبکه های عصبی نشات گرفته از عدم خطیت نورون های مخفی می باشد. در نتیجه، به منظور فراگیری نگاشت های پیچیده لازم است تا قابلیت ارائه ویژگی عدم خطیت در شبکه را داشته باشیم. تابعی که به صورت شایع در تحقیقات شبکه عصبی مورد استفاده قرار می گیرد تحت عنوان تابع سیگموید خوانده می شود که به صورت ذیل است [۱۹]:
۳-۵٫ ماشین های بردار حامی
ماشین های بردار حامی (SVM) یکی از مشهورترین کلاسیفایرهای امروزی می باشند. ایده مطرح شده در این مورد یافتن یک ابر صفحه مجزا کننده بهینه بین دو کلاس از طریق به حداکثر رسانی حاشیه بین نزدیکترین نقاط کلاس ها می باشد. در نظر بگیرید که دارای یک تابع متمایز خطی و دو کلاس مجزای خطی با ارزش های هدف ۱+ و ۱- می باشیم. بر این مبنا یک ابر صفحه متمایز قابلیت ارضای معادله ذیل را خواهد داشت:
۳-۶٫ درختان رگرسیون افزدونی بیزی
درختان رگرسیون افزدونی بیزی (BART) به عنوان یک فناوری جدید مطرح می باشند که به وسیله [۹] توسعه یافته اند. این روش جهت کشف ارتباط ناشناخته f بین یک خروجی پیوسته Y و یک بردار ابعادیp مرتبط با ورودی های بکار گرفته می شود. با در نظر گیری که در آن به عنوان خطای تصادفی شناخته می شود. ایده اصلی BART با حصول انگیزش کلی از روش های مختلف و نوعی انگیزه خاص از الگوریتم های بوستینگ، مدل سازی یا حداقل ارائه نوعی تقریب f(x) به وسیله مجموع درخت های رگرسیون می باشد:
فراگیری ماشینی تشخیص فیشینگ
۴- رویکرد ارزیابی
در این بخش ما نسبت به تشریح این موضوع اقدام می نماییم که چگونه قابلیت ایجاد مجموعه های اطلاعاتی آزمایشی از ایمیل های فیشینگ خام را خواهیم داشت. به علاوه، رویه های سنجشی مورد ارزیابی که در مقایسه های مختلف بکار گرفتیم را تشریح نموده و در نهایت ویژگی های مرتبط با رویه های تجربی اولیه را نیز توصیف خواهیم نمود.
۴-۱٫ توصیف مجموعه اطلاعاتی
مشابه با “بانک اطلاعات ایمیل اسپم” که به وسیله Forman ارائه گردیده و به وسیله Hopkins و همکاران ایجاد شد [۲۲]، ما نیز مجموعه ای از داده های مربوط به فیشینگ، از طریق پردازش مجموعه ای از ایمیل های فیشینگ خام مشتمل بر ۱۱۷۱ ایمیل که بین ۱۵ نوامبر ۲۰۰۵ و ۷ آگوست ۲۰۰۶ جمع آوری شده بودند، را مورد بررسی قرار دادیم [۲۱]. این مجموعه از ایمیل های فیشینگ در بردارنده بسیاری از خط مشی های جدیدتر در زمینه فیشینگ می باشند. برای بخش داده های مشروع، ما ۱۷۱۸ پیام جمع آوری شده از صندوق پستی خود را بکار گرفتیم. بنابراین، به طور کلی مجموعه اطلاعاتی ما حاوی ۲۸۸۹ ایمیل می باشد که ۵/۵۹% آنها ایمیل های مشروع تلقی می شوند. درصد ایمیل های مشروع تقریباً همانند مورد بکار گرفته شده در مرجع [۲۲] می باشد.
۴-۲٫ اوزان های ارزیابی
در پی تحقیقات دسته بندی اسپم قبلی، ما از برآورد های اسپمrecall(r) ، اسپمprecision(p) و اسپم spam f1 استفاده نمودیم. بر حسب مرجع [۲]، فرآیند فراخوانی اسپم اقدام به برآورد درصد پیام های اسپمی می نماید که فیلتر مربوطه سعی در بلوکه سازی آن نموده است (کارآیی فیلتر). دقت اسپم نیز قابلیت برآورد میزانی را دارد که برحسب آن مشخص کننده این موضوع هست که پیام های بلوکه شده حقیقتاً جزء پیام های اسپم هستند (ایمنی فیلتر). برآورد – F میانگین هارمونی وزن دار دقت و فراخوانی می باشد. در این جا ما از f1 استفاده می نماییم، چرا که دو پارامتر فراخوانی و دقت دارای وزن یکنواختی هستند.
۴-۳٫ محیط تجربی
در آزمایشات ما، از کلیه ۴۳ متغیر در مجموعه اطلاعاتی خود استفاده نمودیم. متعاقباً، ما از اعتبار سنجی متقابل ۱۰ برابری استفاده نمودیم. این اعتبار سنجی به عنوان روشی جهت ارزیابی نرخ خطا بصورت کارآمد با استفاده از یک روش غیر سودار می باشد. رویه مرتبط به شرح ذیل است: مجموعه اطلاعاتی به k زیر نمونه تقسیم می شود (در آزمایشات ما k = 10). یک زیر نمونه واحد به عنوان داده های تستی انتخاب گردیده و زیر نمونه های k – 1 باقی مانده به عنوان داده های آموزشی بکار گرفته می شوند. این راهکار به تعداد k بار تکرار می گردد، که در آن هر کدام از k زیر نمونه ها دقیقاً برای یک بار به عنوان داده های آزمایشی مورد استفاده قرار می گیرند. کلیه نتایج میانگیری شده و ارزیابی هر کدام از آنها به صورت واحد انجام می گردد [۲۰].
فراگیری ماشینی تشخیص فیشینگ
۵- مطالعات تجربی
در این بخش ما جهت بررسی دقت پیش بینی NNet، LR، RF، BART، CART و SVM مطالعات تجربی را مورد بررسی قرار می دهیم.
به منظور یافتن میانگین حداقلی نرخ خطا برای NNet، ما با استفاده از تعداد مختلف واحدها در لایه مخفی (اندازه های مختلف)، یعنی ۵، ۱۰، ۱۵ و ۲۰ مورد، اقدام به انجام آزمایش مربوطه می نماییم. به علاوه، ما از رویکردهای کاهش وزن مختلف در اتصالات بینابینی استفاده می کنیم که عمدتاً شامل کاهش های ۱/۰، ۲/۰، ۳/۰، ۴/۰، ۵/۰، ۱، ۵/۱، ۲ و ۵/۲ می باشند. این آزمایشات نشان دهنده آن هستند که یک NNet با اندازه ۱۰ و کاهش وزن ۱/۰ فراهم آورنده پایین ترین نرخ خطا می باشد که به میزان ۱۱۶۱/۰ است. متعاقباً، ما از این NNet در ارزیابی خود در برابر مدل های دیگر استفاده می نماییم. شکل ۴ نشان دهنده کاهش های مختلف وزن و نرخ خطا با استفاده از اندازه های مختلف NNet می باشد.
فراگیری ماشینی تشخیص فیشینگ
۶- نتایج آزمایشی
همانگونه که در بخش قبل ذکر نمودیم، جهت یافتن نرخ خطا برای هر کلاسیفایر ما میانگین نرخ خطا را در کلیه زیر نمونه ها در طی رویه اعتبار سنجی متقابل محاسبه می نماییم. شکل ۹، به هنگامی که صادق است، نشان دهنده میانگین نرخ خطا برای کلیه کلاسیفایرها می باشد.
فراگیری ماشینی تشخیص فیشینگ
۷- مباحث
این مطالعه دقت پیش بینانه چندین کلاسیفایر جهت پیش بینی ایمیل های فیشینگ را مورد مقایسه قرار می دهد. یک مجموعه اطلاعاتی متشکل از ۲۸۸۹ ایمیل فیشینگ و مشروع یا مجاز در این رابطه مورد بررسی قرار می گیرد. این آزمایشات معرف آن هستند که RF دارای پایین ترین WETT 72/07% می باشد، آن هم به هنگامی که ایمیل های مشروع و فیشینگ به صورت مساوی وزن دار می شوند ()، و متعاقب آن CART با ۱۳/۰۸%، LR با ۵۸/۰۸%، BART با ۶۹/۰۹%، SVM با ۹۰/۰۹% و نهایتاً NNet 73/10% جای می گیرند (شکل ۹).
فراگیری ماشینی تشخیص فیشینگ
۸- نتیجه گیری و تحقیقات آتی
در مطالعه جاری ما دقت پیش بینانه شش کلاسیفایر بر روی یک مجموعه اطلاعاتی فیشینگ را مورد بررسی قرار می دهیم. این کلاسیفایرها شامل رگرسیون لجستیک (LR)، درختان دسته بندی و رگرسیون (CART)، درختان رگرسیون افزایشی بیزی (BART)، ماشین بردار حامی (SVM)، جنگل های تصادفی (RF)، و شبکه های عصبی (NNet) می باشند. ما از ۱۱۷۱ مورد ایمیل فیشینگ خام و ۱۷۱۸ مورد ایمیل مشروع / مجاز استفاده نموده و مجموعه بانک اطلاعاتی خود را ایجاد نمودیم که در آن ۴۳ ویژگی مورد آموزش و تست قرار گرفته تا قابلیت پیش بینی ایمیل های فیشینگ به وجود آید. در طی آموزش و تست ما از رویه اعتبار سنجی متقابل ۱۰ تایی استفاده نموده و میانگین ارزیابی های کلیه این ۱۰ مورد (نمونه های فرعی) جهت برآورد میانگین نرخ خطا برای کلیه کلاسیفایرها را بدست آوردیم.
…
نتایج حاصله را می توان به عنوان انگیزه ای جهت تحقیقات آتی مد نظر قرار داد تا بدینوسیله قابلیت بررسی مشمولیت متغیر های اضافه در مجموعه های اطلاعاتی، که قابلیت ارتقای دقت پیش بینانه کلاسیفایرها را دارند، فراهم شود. به طور مثال، تحلیل سر آیند های ایمیل به نظر قابلیت ارتقای ظرفیت پیش بینی و کاهش نرخ دسته بندی نادرست کلاسیفایرها را خواهد داشت {۲۴}. به علاوه، ما اضافه نمودن ویژگی های بکار گرفته شده در مراجع {۷} و {۱۳} به مجموعه اطلاعاتی خود را مد نظر قرار داده و تاثیرات آنها بر روی عملکرد کلاسیفایرها را مورد بررسی قرار خواهیم داد. به علاوه، ما مکانیزم توسعه و اتوماسیون سازی ویژگی های مربوطه، جهت حاصل آوردن ویژگی های جدید از ایمیل های فیشینگ خام به منظور تعامل با خط مشی های جدید در حملات فیشینگ، را مورد مطالعه و بررسی قرار خواهیم داد.