فراگیری ماشینی تعامل محاورهای انسان
فراگیری ماشینی تعامل محاورهای انسان – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 38000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۵۸ |
کد مقاله | COM58 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | استفاده از روال فراگیری ماشینی جهت شکست فرآیند تصدیق تعامل محاورهای انسان بصورت بصری |
نام انگلیسی | Using Machine Learning to Break Visual Human Interaction Proofs –HIPs |
تعداد صفحه به فارسی | ۲۵ |
تعداد صفحه به انگلیسی | ۸ |
کلمات کلیدی به فارسی | فراگیری ماشینی، تعامل محاورهای انسان |
کلمات کلیدی به انگلیسی | Machine Learning, Human Interaction Proof |
مرجع به فارسی | بخش تحقیق و پژوهش مایکروسافت |
مرجع به انگلیسی | Microsoft Research |
کشور | ایالات متحده |
استفاده از روال فراگیری ماشینی جهت شکست فرآیند تصدیق تعامل محاورهای انسان (HIPs) بصورت بصری
چکیده
فراگیری ماشینی غالبا بعنوان روالی بکار گرفته میشود که بطور اتوماتیک وظایف انسان را انجام داده و مشکلات وی را حل نماید. در این مقاله، ما توجه خود را به راهکارها و وظایفی معطوف میسازیم که در آنها الگوریتمهای فراگیری ماشینی بخوبی انسان نبوده و بر این اساس این مقاله تلاش مینماید تا محدویت های چنین مضمونی را مورد بررسی قرار دهد. ما نسبت به مطالعه سیستمهای مختلف تصدیق محاورهای انسان (HIPs) در بازار اقدام نمودیم، چرا که اینگونه سیستمها بگونهای طراحی شدهاند تا با مطرح ساختن چالشهایی که درک آنها احتمالا برای کامپیوترها بسیار مشکل میباشد نسبت به مجزا و مشخص نمودن انسان از کامپیوتر اقدام کنند، یعنی آنکه بیان میدارند که موجود استفاده کننده یک کامپیوتر است یا یک انسان. ما دریافتیم که اغلب سیستمهای HIPs موجود در حقیقت صرفا وظایف شناسایی را انجام میدهند و بر این اساس براحتی میتوان آنها را از طریق فراگیری ماشینی در هم شکست. سیستمهای تصدیق محاورهای انسان (HIP) که از سختی بیشتری برخوردار میباشند از ترکیبی از وظایف مجزاسازی و شناسایی بهره میبرند. از این مشاهدات، ما درمییابیم که ساخت روالهای تفکیک یا مجزا سازی موثرترین راه جهت مغشوش نمودن الگوریتمهای فراگیری ماشینی میباشد. این عمل ما را قادر میسازد نسبت به ساخت روالهای تصدیق محاورهای انسانی (HIP) موثر (که بتوان آنها را در کلمه رمز MSN قرار داد)، اقدام نمائیم و علاوه بر این قابلیت لازم را برای طراحی روالهای جداسازی چالش برانگیز بدست آوریم.
فراگیری ماشینی تعامل محاورهای انسان
۱- مقدمه
مشکل تشخیص کاراکتر نوری (OCR) برای متون چاپی با رزولوشن بالا بطور حقیقی در ده سال گذشته حل گردیده است. از طرف دیگر، شناسایی دست خط شکسته یا پیوسته امروزه نیز بعنوان یک معضل مطرح بوده و برآیند بدست آمده آنقدر ضعیف است که اغلب انسانها نمیتوانند بدان تکیه کنند. آیا تفاوت اساسی بین این دو مشکل بظاهر مشابه وجود دارد؟
جهت تنویر بیشتر افکار در خصوص این پرسش، ما نسبت به بررسی مشکلاتی اقدام نمودیم که طراحی آنها بگونهای است که برای رایانهها مشکل میباشند. آنچه مایه امید است، بدست آوردی بینشهای لازم در زمینه بلوکهای لغزشی مرتبط با فراگیری ماشینی و تدبیر تستهای متناسب جهت درک آتی شباهتها و تفاوتهای این مقوله میباشد.
محدودیت مضامین تولیدی بوسیله الگوریتمهای اتوماتیک که نرخ شکست آنها ۹۹٫۹۹% میباشد، راه حلهای مختلفی را بوجود آورده که براحتی میتوان آنها را بر روی اینترنت تست نمود. هفت سیستم تصدیق محاورهای انسان (HIP) مختلف در بخش بعدی بعنوان مثالهای مرتبط ارائه شدهاند که عبارتند از: Mailblocks، MSN (قبل از ۲۸ آوریل ۲۰۰۴)، Ticketmaster، Yahoo، Yahoo نگارش ۲ (پس از سپتامبر ۲۰۰۴)، Register و Google. ما در بخش ۳ نشان میدهیم که حملات مبتنی بر فراگیری ماشینی بسیار موفقتر نرخ ۱ به ۱۰۰۰۰ میباشند. با این حال، برخی از این HIPها سختتر و مشکلتر از موارد دیگر بوده و حتی میتوان آنها را با الحاق بخشهای شناسایی و تفکیک سازی و تاکید بر روی مورد آخری، سختتر نیز نمود. بخش ۴ نشان دهنده مثالهایی از HIPهای مشکلتر میباشند که بعنوان چالشهای قابل پذیرشی برای فراگیری ماشینی مد نظر بوده و در عین حال کاربرد آنها بصورت تعجب برانگیزی برای انسانها آسان است. بخش نهایی ضعف (شناخته شده) الگوریتمای فراگیری ماشینی را مورد بحث قرار میدهد و پیشنهاد مینماید تا نسبت به طراحی یک بانک اطلاعات مصنوعی ساده برای بررسی این ضعف اقدام شود.
فراگیری ماشینی تعامل محاورهای انسان
۲- مثالهایی از روالهای تصدیق محاورهای انسان (HIPs)
روالهای تصدیق محاورهای انسان (HIPs) که در این تحقیق مورد بررسی قرار میگیرند از کاراکترها (یا علایمی) ساخته شده و در قالب یک تصویر در اختیار کاربران قرار میگیرند. حل معمای HIP نیازمند شناسایی کلیه کاراکترها در نظم صحیح آن میباشد. HIPهای ذیل را میتوان بعنوان نمونههایی برای وب برشمرد:
Mailblocks: به هنگام ساخت یک سرویس ایمیل مجانی با استفاده از Mailblocks (www.mailblocks.com)، با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
MSN: به هنگام ساخت یک سرویس ایمیل مجانی با استفاده از MSN Hotmail (www.hotmail.com)، با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
Register: برای درخواست مشاهده اطلاعات مشخصات صاحبان وب سایتها (Whois) در وب سایت www.register.com با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
Yahoo!/EZ-Gimpy (CMU): به هنگام ساخت یک سرویس ایمیل مجانی با استفاده از Yahoo (www.yahoo.com)، با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
Yahoo (نگارش ۲): با شروع در آگوست ۲۰۰۴، Yahoo! نسل دوم HIP خود را معرفی نمود. در این خصوص ذیلا سه مثال ارائه میشود:
Ticketmaster: به هنگام جستجو برای تهیه بلیط کنسرت در www.ticketmaster.com، با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
Google/Gmail: به هنگام ساخت یک سرویس ایمیل مجانی با استفاده ازGmail در www.google.com، با مضمون چالش برانگیز HIP بصورت ذیل مواجه میشوید:
در حالیکه راه حل عبور از Yahoo HIPs استفاده از عبارات و لغات معمولی انگلیسی میباشد، مضامین مربوط به سایتهای ticketmaster و Google الزاما وابسته به دیکشنری انگلیسی نمیباشند. مضامین بکار گرفته شده در این سایتها بظاهر از طریق یک تولید کننده آوا یا فونتیک بدست میآیند.
فراگیری ماشینی تعامل محاورهای انسان
۳- استفاده از فراگیری ماشینی جهت شکست HIPها
امر شکست دادن سیستم تصدیق محاورهای انسان (HIP) بعنوان یک پدیده جدید بشمار نمیآید. موری و مالیک (۷) توانستند با موفقیت ۹۲ درصدی سیستم EZ-Gimpy و موفقیت ۳۳ درصدی سیستم Gimpy وابسته به CMU را در هم شکنند. هدف از دیدگاه ما در این مقاله فراهم ساختن فرآیندهای اتوماتیک جهت حل HIPهای چندگانه با حداقل دخالت انسان و با بهره گیری از فراگیری ماشینی میباشد. در این مقاله، هدف اصلی، بجای اثبات آنکه ما از قابلیت شکستن هرگونه HIPهای دیگران، علیالخصوص مواردی که از نرخ موفقیت بالایی برخوردار میباشند بهرهمند میباشیم، فراگیری بیشتر در خصوص قدرتها و ضعفهای معمول این HIPها بعنوان نقطه تمرکز ما مد نظرمیباشد. بر این اساس ما نتایج شش HIP مختلف را در اختیار داریم: EZ-Gimpy/Yahoo، Yahoo نگارش ۲، mailblocks، register، Ticketmaster و Google.
۱-۳٫ Mailblocks
برای حل HIP، ما کانال قرمز را انتخاب نموده و سپس نبت به باینری سازی و اعوجاج آن اقدام نمودیم و بزرگترین مولفههای متصل (CCs) را استخراج کرده و آن دسته از CCهایی که بزرگتر از حد مشخص بودند را به دو یا سه CC مجاور تقسیم نمودیم. بعدا، CCهای با اندازه نیم کاراکتر هم پوشانی عمودی را با هم ترکیب نمودیم. جدایش سخت حاصله در اغلب مواقع بخوبی کار میکند. در اینجا مثالهایی ذکر شدهاند.
۲-۳٫ Register
رویه حل HIPها بسیار مشابه میباشند. تصویر صاف شده، باینری میگردد، و بزرگترین ۵ جزء متصل شناسایی میشود. دو مثال بشرح ذیل ارائه شده است:
نرخ موفقیت پیوسته برای جداسازی ۹۵٫۴%، برای شناسایی ۸۷٫۱% (با توجه به جداسازی صحیح) و بطور کلی ۴۷٫۸%= ۵ (۰٫۸۷۱) * (۰٫۹۵۴) میباشد.
۳-۳٫ Yahoo/EZ-Gimpy
بجز روالهای HIP متعلق به mailblocks و register، روالهای متعلق به Yahoo/EZ-Gimpy در این زمینه غنیتر میباشند و از میزان متنوعی از پس زمینهها و پارازیتها بهرهمند است. با وجود آنکه برخی از اعوجاجهای متنی در این سیستم مهیا میباشند، رنگ متن، اندازه و فونت از تغییرپذیری پایینی برخوردار است. سه الگوریتم مجزاسازی با توجه به قواعد مرتبط جهت مشخص نمودن آنکه کدام الگوریتم استفاده شود طراحی شده است. هدف از این کار ساده سازی و در عین حال موثر نگهداری این مضمون میباشد:
الف) بدون شبکه: تبدیل به تصویر در محدوده رنگ خاکستری، در آستانه سیاه و سفید، انتخاب CCهای بزرگ با اندازههایی نزدیک به سایز کاراکتر HIP. مثال:
۴-۳٫ Ticketmaster
روالی که توانسته است Yahoo HIP را حل کند، در حل برخی از HIPهای سیستم Ticket master سابق نسبتا موفق بوده است. این HIPها بوسیله خطوط متقاطع با زوایای تصادفی در حول حوش ۰، ۴۵، ۹۰ و ۱۳۵ درجه توصیف میشوند. یک حمله چند وجهی همانند مورد Yahoo (بخش ۳٫۳) دارای پتانسیل قابل توجهی میباشد. بواسطه ترجیح سادگی بر موارد دیگر، یک حمله واحد توسعه یافت: تبدیل به تصویر در مقیاس رنگ خاکستری، در آستانه سیاه و سفید، تصویر نمونه برداری شده، انبساط و در پی آن اعوجاج تصویر، انتخاب CCهای بزرگ با اندازههایی نزدیک به سایز کاراکتر HIP. مثال:
۵-۳٫ Yahoo نگارش ۲
HIP نسل دوم Yahoo دارای تغییراتی بوده است: الف) از کلمات داخل دیکشنری و یا حتی تولید کننده فونتیک استفاده نشده است، ب) تنها از رنگ سیاه و سفید استفاده شده است، ج) از حروف و اعداد بهره گرفته شده است و د) از خطوط متصل بهم و قوسدار بعنوان پارازیت استفاده شده است. این HIP تا اندازهای مشابه با HIP متعلق به MSN/Passport میباشد که از دیکشنری استفاده نمیبرد، از دو رنگ بهره میجوید و همچنین از حروف و اعداد و خطوط قوسی پس زمینه و پش زمینه استفاده میکند. بغیر از HIP مربوط به MSN/Passport، فونتهای مختلفی نیز بکار گرفته شده است. بر این اساس، یک حمله تفکیک شده واحد توسعه یافت: حذف نوار یا ناحیه مرزی ۶ پیکسلی، نمونهبرداری، انبساط و اعوجاج، انتخاب CCهای بزرگ با اندازههایی نزدیک به سایز کاراکتر HIP. روال این حمله علیالخصوص مشابه با حمله بکار رفته در خصوص HIP ticketmaster همراه با مراحل پردازش متفاوت و پارامترهایی تقریبا تغییر یافته میباشد. در اینجا دو مثال ذکر میشود:
۶-۳٫ Google /GMail
HIP متعلق به گوگل از این نقطه نظر منحصربفرد تلقی میشود که تنها از اعوجاج تصویری بهره گرفته است. مشابه با HIPهای MSN/Passport و یاهوی نگارش ۲، این HIP نیز ار دو رنگ برخوردار میباشد. کاراکترهای این HIP نزدیک به یکدیگر قرار گرفتهاند (غالبا همدیگر را لمس میکنند) و دارای یک خط مبنای منحنی شکل میباشند. حمله بسیار ساده ذیل برای تفکیک HIPهای گوگل طراحی شده است: تبدیل به محدوده خاکستری، نمونهبرداری، آستانه و جداسازی مولفههای متصل.
فراگیری ماشینی تعامل محاورهای انسان
۴- درسهای فراگرفته شده از شکست HIPها
از بخش قبل، این نکته مشخص گردید که اغلب خطاها، هر با وجود آنکه اغلب زمان توسعه صرف اعمال تدابیر لازم میشود، ناشی از مجزاسازی ناصحیح میباشد. این مشاهدات سوالات ذیل را بر میانگیزد: چرا روال جداسازی و تفکیک بعنوان یک مشکل سخت مطرح است؟ آیا میتوان نسبت به تدبیر HIPهای مشکلتر و سخت تر و همچنین مجموعههای دادهای مربوطه اقدام نمود؟ آیا میتوان یک جداکننده اتوماتیک ساخت؟ آیا میتوان الگوریتمهای دستهبندی را بر مبنای مفید بودن آنها در زمینه مجزا سازی و تفکیک مورد مقایسه قرار داد؟
۱-۴٫ مشکل جداسازی و تفکیک
بطور کلی، روال جداسازی و تفکیک بواسطه دلایل ذیل مشکل میباشد:
این روال از نظر محاسباتی پرهزینه میباشد. به منظور یافتن الگوهای معتبر، یک سیستم شناسایی کننده باید امر شناسایی را در موقعیتهای گوناگون مد نظر قرار دهد.
عملکرد جداسازی و تفکیک پیچیده میباشد. به منظور انجام این روال بطور موفق، سیستم میبایست بخوبی بر این نکته واقف باشد که کدامیک از الگوها در بین مجموعهای از الگوهای محتمل معتبر و غیر معتبر دارای اعتبار لازم میباشند. این وظیفه از نظر ذاتی مشکلتر از دستهبندی میباشد چرا که فضای ورودی به میزان قابل توجهی بزرگتر میباشد. بجز، فضای الگوهای معتبر، فضای الگوهای نامعتبر معمولا چنان وسیع میباشد که نمونهبرداری از آن ناممکن میگردد. این امر در حقیقت مشکل بسیاری از الگورتمهای فراگیری میباشد که به هنگام برخورد با الگوهای نامعتبر بسیاری از تصاویر اشتباه را تولید خواهند نمود.
…
۲-۴٫ ساخت HIPهای بهتر و سختتر
ما میتوانیم از آنچه تاکنون فراگرفتهایم برای ساخت HIPهای بهتر مورد استفاده قرار دهیم. بطور مثال HIP ذیل بگونهای طراحی شده است که روال تفکیک یا جداسازی را با مشکل روبرو سازد و نمونه مشابه آن بوسیله MSN Passport برای ثبت نام در هاتمیل (Hotmail) بکار گرفته شده است (www.hotmail.com):
این ایده بر مبنایی استوار میباشد که بر اساس آن قوسهای اضافه بخودیخود بعنوان کاندیدهای خوبی برای کاراکترهای اشتباه میباشند. حملات جداسازی یا تفکیک قبلی بر روی چنین HIP با شکست مواجه خواهد شد. علاوه بر این، تغییر ساده فونتها، اعوجاجها، یا گونههای قوسی بکار رفته شده کار فزایندهای را از سوی حملهکننده یا مهاجم جهت شناسایی و تعدیل آنها میطلبد. ما عقیده داریم که آن دسته از HIPها که بر روی مشکل تفکیک تاکید دارند، نظیر نمونه فوق، بسیار قدرتمندتر از HIPهایی میباشند که تاکنون نسبت به بررسی آنها اقدام نمودیم. حتی با در نظرگیری حالتی حادتر میتوان HIPهای ذیل را متصور شد:
۳-۴٫ ساخت یک جداکننده اتوماتیک
برای ساخت یک جداکننده اتوماتیک، میتوان رویه ذیل را بکار گرفت. برچسب زدن کاراکترها بر مبنای موقعیت درست آنها و آموزش دادن تشخیصگر. بکارگیری تشخیصگر آموزش دیده در کلیه موقعیتهای ممکن در تصویر HIP. جمعآوری کلیه کاراکترهای کاندید که از نقطه نظر تشخیصگر دارای اعتماد بالایی میباشند. محاسبه احتمالات هر یک از موارد ترکیب کاندیدها (حرکت از چپ به راست) و مشخص نمودن رشته خروجی دارای بالاترین میزان احتمال. این موضوع را میتوان با ذکر یک مثال بصورت بهتر تشریح نمود.
HIP فوق را در نظر بگیرید. شبکه عصبی آموزش دیده از نقشه ای بشرح ذیل برخوردار میباشد: رنگهای گرم یا آتشین معرف شناسایی میباشند که نشان دهنده آن است که K، Y و غیره بدرستی تشخیص داده شدهاند. با این وجود، نقشه ۷ و ۹ نشان دهنده چندین تصویر اشتباه میباشند. بطور کلی، ما میتوانیم نقشه کد رنگ ذیل را برای کلیه کاندیدهای مختلف بدست آوریم:
فراگیری ماشینی تعامل محاورهای انسان