شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 25000 تومان (ایران ترجمه - irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۶۳ |
کد مقاله | COM63 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | شناسایی چهره بر مبنای شبکه عصبی واحد و خصیصه چند مقیاسی |
نام انگلیسی | MULTISCALE FEATURE AND SINGLE NEURAL NETWORK BASED FACE RECOGNITION |
تعداد صفحه به فارسی | ۲۱ |
تعداد صفحه به انگلیسی | ۷ |
کلمات کلیدی به فارسی | شناسایی چهره ، شبکه عصبی، خصیصه چند مقیاسی |
کلمات کلیدی به انگلیسی | FACE RECOGNITION , NEURAL NETWORK, MULTISCALE FEATURE |
مرجع به فارسی | مجله تکنولوژی اطلاعات تئوریکی و کاربردی |
مرجع به انگلیسی | Journal of Theoretical and Applied Information Technology |
کشور |
شناسایی چهره برمبنای شبکه عصبی واحد و خصیصه چند مقیاسی
چکیده
در این مقاله تحقیقاتی روالهای مرتبط با اجرای عملیات شناسایی چهره با استفاده از شبکه عصبی (کلاسیفایر یا طبقهبندی کننده شناسایی) و خصیصههای چند مقیاسه چهره (نظیر چشمها، بینی، دهان و بقیه اجزای صورت) مورد بررسی قرار میگیرند. سیستم پیشنهادی حاوی سه بخش فرآیندهای ماقبل پردازش، استخراج خصیصههای چند مقیاسی و طبقهبندی چهره با استفاده از شبکه عصبی میباشد. ایده اصلی روش پیشنهادی بر مبنای ویژگیهای چهره اشخاص و بر اساس مجموعهای از تصاویر چند مقیاسی مرتبط با اجزای مختلف چهره میباشد. خصیصههای چند مقیاسی چهره (نظیر چشمها، بینی، دهان و بخشهای دیگر چهره) بعنوان پارامترهای ورودی کلاسیفایر شبکه عصبی مدنظر خواهند بود، که جهت شناسایی چهرههای آشنا (برحسب روالهای آموزشی) و صورتهایی که دارای حالتهای گوناگون و تغییرات روشنی دارند، با نوسان ۵ الی ۱۰ درجه، روالهای پس انتشاری (back propagation)، الگوریتمها و شبکه عملکرد شعاعی را به خدمت میگیرد. نکته اصلی الگوریتم پیشنهادی زیبایی استفاده از شبکه عصبی واحد بعنوان یک کلاسیفایر یا دستهبندی کننده میباشد، که یک دیدگاه مستقیم را برای شناسایی چهره ارائه مینماید. الگوریتم پیشنهادی بر روی بانک اطلاعاتی FERET متشکل از ۲۰۰ تصویر و ۴۰ موضوع (۱۲۰ چهره برای آموزش و ۸۰ مورد برای شناسایی) مورد آزمایش قرار گرفته است و نتایج به دست آمده در مقایسه با تکنیکهای دیگر شناسایی چهره امیدوار کننده بوده است.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
۱- مقدمه
شناسایی ماشینی چهرهها به تدریج بواسطه کاربردهای گسترده تجاری و مضامین قانونی اهمیت بسیار زیادی مییابند. این فرآیندها شامل شناسایی قانونی، کنترل دسترسی، نظارت مرزی و تعاملات بین انسان و کامپیوتر میباشد. با توجه بدانکه کلیه چهرههای انسانها از خصیصههای پایه یکسانی (نظیر چشمها، دماغ و دهان) برخوردار میباشند و در یک پیکربندی کلی یکسان جای میگیرند، قابلیت تشخیص یک چهره از چهره دیگر میبایست برحسب آنالیز اجزای چهره و اطلاعات کلنگرانه ظریف حاصل آید. از آنجاییکه چنین شاخصهایی دارای نکات قوت و ضعف خاص خود میباشند، یک سیستم طراحی شده مناسب با امکانات درک بصری میبایست در بردارنده هر دو شاخص فوق جهت شناسایی چهره باشد. بسیاری از کارهای اخیر نشان دهنده این واقعیت میباشند که شناسایی چهره با استفاده از PCA و LDA بعنوان روشهای متناسب تشخیص چهره مدنظر قرار گرفتهاند. بطور کلی PCA برای اهداف طبقهبندی چندان متناسب نمیباشد، چرا که از هیچگونه دادههای کلاسی استفاده نمیکند و LDA نیز خطر قابلیت ضعیف را خواهد داشت.
اخیرا، کارهایی در زمینه شناسایی چهره با استفاده از کاهش ابعادی بزرگ (با بهرهگیری از یک واحد رزولوشن پایین) و شبکه عصبی صورت گرفته است، اما نرخ شناسایی برای ۴۰ تصویر تنها ۲۵/۹۰% بوده است. در شبکه عصبی دارای رزولوشن پایین چهره از طریق برون یابی دو مکعبی به ۴۰۰ نمونه تغییر اندازه یافته و این ۴۰۰ نمونه بعنوان پارامتر ورودی شبکههای عصبی مصنوعی بکار گرفته شدهاند. در این روش با توجه بدانکه تاکید مساوی بر روی کلیه بخشهای چهره اعمال شده است (نمونه برداری یکنواخت در زمینه تغییر اندازه تصاویر استفاده شده است)، یک افزودگی دادههای تصویری از نقطه نظر تمایزات بصری حاصل آمده است و از اینرو با توجه به وزنهای مساوی ناخواسته در کلیه بخشهای تصویر چهره، پدیده نرخ شناسایی پایین حاصل شده است.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
۲- روش پیشنهادی
بطور کلی عقیده بر این است که ما انسانها تاکید متمایزی را بر روی بخشهای مختلف صورت خود نظیر چشمها، بینی، چانه، پیشانی و بخشهای دیگر قایل میشویم. دیدگاههای جاری تاکید مشابهی را بر روی کلیه بخشهای چهره که منتج به نرخ پایین شناسایی میشود در نظر دارند. در این دیدگاه، ما چهار خصیصه مشاهداتی متمایز را انتخاب میکنیم- دو چشم، بینی، دهان و بخش باقیمانده چهره. بر این اساس اینگونه در نظر میگیریم که مختصات چشم مشخص میباشد. در نهایت این واحدهای مجزا (بجز چشمها) که بوسیله ناظرین مختلف مشاهده شدهاند را به سمت یک فیلتر پایین گذر (گاوسی- Gaussian) ارسال داشته بگونهای که بتوانیم بخشهای مختلف تصویر را به حالت یکنواخت درآورده و تاثیر نویزها را کاهش دهیم. بعد از این مرحله واحدهای مشاهده شده بوسیله ناظرین مختلف در یک بردار تصویری منفرد ترکیب میشوند. سپس، این بردار تصویری بعنوان پارامتر ورودی برای شبکه عصبی مصنوعی بکار گرفته شده و این شبکه جهت شناسایی کلیه چهرههایی که در بانکهای اطلاعاتی تصویری ذخیره شدهاند تحت آموزش قرار میگیرد. بر این مبنا ما کار خود را با تصاویر چهره دو بعدی شروع نمودیم و پس از اعمال رویههای نرمال سازی، میانگین صفر و واریانسهای واحد چهار مقوله ناظر مختلف، یعنی چشمها، بینی، دهان و بقیه بخشهای چهره را برگزیدیم.
حالت بعدیت این اجزای چهره از طریق تکنیکهای نمونه برداری «down sampling» (چشمها ۱:۱، دماغ ۱:۲ ، دهان ۱:۴ ، بخشهای باقیمانده چهره ۱:۸) کاهش یافت. این اجزای تصویری دو بعدی مرتبط با چهره را میتوان توسط ماتریس نشان داد، جایی که معرف ستون – تصویر تک بعدی حاصله آمده از اجزای دو بعدی تصویر میباشد که بصورت لغوی اسکن شده و سپس در یک بردار ستونی نوشته شده است. T نیز تعداد تصاویر تحت آموزش است. ما از کاهش بعدی مختلف استفاده نمودیم که در جهت کاهش مولفههای متفاوت چهره بوده و اندازه بردار ستونی تصویر ۱ * N مشخص گردید، جایی که N مجموع تعداد پیکسلها میباشد که از کل مجموع چهار تصویر متصل شده بوجود آمدهاند و بسیار کمتر از دادههای تصویری کامل اولیه میباشند.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
۳- روالهای اجرایی
الگوریتم مربوطه بصورت مراحل ذیل تشریح میشود:
انجام رویههای نرمال سازی تصویر چهره و عملیات ماقبل پردازشی با توجه به مختصات شناخته شده چشم.
بر مبنای مختصات چشمی انجام ارزیابی مربوط به اندازه چشم چپ و چشم راست. حفظ رزولوشن اولیه تصویر برای ناظرین چشمی.
کاربرد فیلتر پایین گذر (گاوسی) برای کل تصویر.
مجزا سازی بخش بینی و دهان از تصویر بالا. موقعیتهای بخشهای مجزای دهان و بینی برای کلیه تصاویر بصورت کوچک حفظ میشود.
برای ناظر بینی، کاهش رزولوشن تصویر به نصف. انتخاب یک پیکسل برای هر دو پیکسل. برای دهان، بکارگیری یک پیکسل برای هر چهار پیکسل. کاربرد در هر دو بعد x و y .
استفاده از اجزای بالا جهت استخراج بقیه موارد باقیمانده از چهره. مشخص سازی تنها یک پیکسل برای هر هشت پیکسل. کاربرد در هر دو بعد x و y .
تبدیل اجزای تصویر فوق بدست آمده در (۲)، (۵) و (۶) به یک بردار تصویری واحد با ابعاد ۱ * N (در این حالت x 1 336).
این بردار ستون تصویری بعنوان پارامتر ورودی به شبکه عصبی مصنوعی آموزش دیده، جهت شناسایی، به حساب میآید.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
۴- شبکه عصبی مصنوعی
شبکه عصبی مصنوعی رشتهای از هوش مصنوعی بشمار میآید که دارای سرعت ظهور بالا و محدوده کاربردی گسترده در امر شناسایی الگو و پردازش داده میباشد. این سیستم در حقیقت بعنوان یک مبحث مشهور و قابل توجه مدنظر میباشد، چرا که از توانایی فراگیری انطباقی، خود سازماندهی، عملیات زمان واقعی و امکان تصحیح خطا از طریق کد اطلاعاتی افزون شده برخوردار است. الگوریتمهای کارای بسیاری وجود دارند که میتوان آنها را در زمینه شبکه عصبی مصنوعی بکار گرفت، اما ما از توانایی شبکه عصبی چندلایهای (الگوریتم پس انتشاری) و عملکرد وابسته شعاعی استفاده میکنیم.
۱-۴٫ پس انتشاری (Back Propagation)
پس انتشاری یکی از روالهای تعمیم داده شده قاعده فراگیری ویدرا-هاف (Widrow-Hoff) در خصوص شبکههای چند لایه و عملکردهای انتقال تشخیص پذیر غیر خطی میباشد. بردارهای ورودی و بردارهای هدف منطبق با آن به منظور آموزش یک شبکه بکار گرفته میشوند تا آنکه بتوان یک عملکرد را بصورت تقریب انجام داده و بردارهای ورودی مرتبط را با بردارهای خروجی خاص برای امر فراگیری بکار گرفت.
در معماری شبکه عصبی پیشنهادی، شبکه چندلایه با توجه به لایه مخفی اندازه ۹۰ مدنظر قرار میگیرد، تعداد گرههای ورودی مساوی با تعداد خصیصههای چهره (۳۳۶) میباشند، تعداد گرههای خروجی نیز مساوی با تعداد چهرههای است که میبایست نسبت به شناسایی آن اقدام نمود، در این مثال (۴۰)، عملکردهای انتقال لاگزیگ (logsig) و پیورلین (purelin) با توجه به خطای هدف مساوی با ۰۰۰۱/۰ مورد استفاده قرار گرفتهاند.
۲-۴٫ شبکه عملکرد بر مبنای تابش
شبکه عملکرد بر مبنای تابش، یک شبکه عصبی مصنوعی میباشد، که از توابع شعاعی بعنوان فانکشنهای فعال سازی استفاده میکند. تابع مبنای شعاعی (RBF) یک تابع دارای ارزش واقعی میباشد که ارزش آن تنها وابسته به فاصله از مبداء است.
بر اساس اظهارات شبکههای RBF از دقت بیشتری در مقایسه با شبکههای پس انتشاری (BP) برخوردار میباشند و یک مقوله تضمین شده در زمینه راه حلهای بهینه کلی از طریق روالهای بهینه سازی ساده و خطی را عرضه میدارند.
یکی از مزیتهای شبکههای مبنای شعاعی در مقابل شبکههای پس انتشاری آن است که در صورتی که سیگنال ورودی بصورت ثابت نباشد، واکنش طبیعت موضعی لایه مخفی باعث میشود تا چنین شبکههایی در معرض مشکلات کمتر فاز شامل سرعت یادگیری و تولرانس خطا قرار داشته باشند.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی
۵- نتایج و مباحث
ما آزمایشات خود را بر روی بانک اطلاعات تصویر چهره FERET تکمیل نمودیم. این تصاویر تحت پارامترهای روشنایی مختلف، حالات چهره، با یا بدون عینک با عکسهای دارای اندازههای مختلف و متغیری حاصل شدهاند. بر این اساس ما یک بانک اطلاعات متشکل از ۲۰۰ تصویر چهره بوجود آوردیم که دربردارنده ۴۰ موضوع با ۵ گوناگونی بوده است. از این ۲۰۰ تصویر ۱۲۰ نمونه (هر کدام با ۳ حالت مختلف برای ۴۰ موضوع) بصورت تصادفی انتخاب گردیده و مورد آموزش سیستم قرار داده شدند و تعداد ۸۰ تصویر باقیمانده (هر موضوع با ۲ گوناگونی) برای تست یا آزمایش به کناری گذاشته شدند.
پس از استخراج خصیصههای چندگانه، اندازه اصلی تصویر ۱۹۲ x 128 به میزان قابل توجهی به بردار ستونی اندازه ۳۳۶ x 1 تغییر یافت. چنین بردارهای تصویری از کلیه تصاویر جمعآوری شده و بعنوان ورودی به شبکه عصبی ارجاع داده شدهاند، که از آنها برای طبقهبندی موارد جهت شناسایی چهره حقیقی بهره گرفته شد. این موضوع مشاهده شد که در چنین روالی دقت و کارایی بواسطه استفاده از شبکههای عصبی مصنوعی به میزان زیادی افزایش یافته است.
ما عملکرد چنین تکنیکی را برای شناسایی چهره بر مبنای محاسبه دو نمونه انجام دادهایم- شبکه چندلایه با استفاده از پس انتشاری و شبکههای RBF . ما بر روی مشکلات مختلف شناسایی تعداد زیادی از چهرههای انسانی شناخته شده با گوناگونیهای مختلف در چهرهها متمرکز شدیم.
یک سیستم چند رزولوشنی قابلیت تحصیل نرخ شناسایی ۹۵% برای تکنیک پس انتشاری و ۹۸% برای تکنیک RBF در شبکه عصبی را خواهد داشت.
شناسایی چهره شبکه عصبی خصیصه چند مقیاسی