مقالات ترجمه شده دانشگاهی ایران

شناسایی چندنمایی حرکت انسان فواصل فازی

شناسایی چندنمایی حرکت انسان فواصل فازی

شناسایی چندنمایی حرکت انسان فواصل فازی – ایران ترجمه – Irantarjomeh

 

مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات

چگونگی سفارش مقاله

الف – پرداخت وجه بحساب وب سایت ایران ترجمه(شماره حساب)ب- اطلاع جزئیات به ایمیل irantarjomeh@gmail.comشامل: مبلغ پرداختی – شماره فیش / ارجاع و تاریخ پرداخت – مقاله مورد نظر --مقالات آماده سفارش داده شده پس از تایید به ایمیل شما ارسال خواهند شد.

قیمت

قیمت این مقاله: 68000 تومان (ایران ترجمه - Irantarjomeh)

توضیح

بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.

مقالات ترجمه شده کامپیوتر - ایران ترجمه - irantarjomeh

www.irantarjomeh.com

شماره      
۱۷۲
کد مقاله
COM172
مترجم
گروه مترجمین ایران ترجمه – irantarjomeh
نام فارسی
شناسایی چند- نمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی
نام انگلیسی
Multi-view human movement recognition based on fuzzy distances and linear discriminant analysis
تعداد صفحه به فارسی
۶۵
تعداد صفحه به انگلیسی
۱۴
کلمات کلیدی به فارسی
شناسایی فعالیت, حرکت های ساده / داینیم های چند- نمایی, کمی کردن / کوانتش بردار فازی, تحلیل مشخص خطی
کلمات کلیدی به انگلیسی
Activity recognition, Multi-view dynemes, Fuzzy vector quantization, Linear discriminant analysis
مرجع به فارسی
انستیتو انفورماتیک و دورسنجی، مرکز تحقیقات و فناوری هلاس، یونان
دپارتمان علوم انفورماتیک، دانشگاه ارسطو، یونان، الزویر
مرجع به انگلیسی
Computer Vision and Image Understanding;  Informatics and Telematics Institute, Centre for Research and Technology Hellas, Greece; Elsevier
کشور
یونان

 


شناسایی چندنمایی حرکت انسان بر مبنای تحلیل فواصل فازی و تشخیص خطی

چکیده
در این مقاله، یک روش شناسایی نوین حرکت اشخاص با قابلیت چند – نمایی / نمای دید متعدد ارائه می شود. بر این مبنا، در ابتدا یک شاخص جدید ویدیویی در خصوص حرکت چند نمایی افراد عرضه می گردد که با توجه به ویژگی های اولیه حرکت در قالب تصویربرداری از وجوه دید مختلف مد نظر بوده و  تحت عنوان «داینیم ها یا حرکت های ساده چند نمایی» خوانده می شود. ویدیوی حرکتی در یک فضای ویژگی جدید (تحت عنوان فضای داینیم) با استفاده از حرکت های ساده  یا  دانیم های  چند –  نمایی ارائه  می شود، که از این طریق قابلیت تولید شاخص حرکت چند نمایی زمان ثابت / نامتغیر به وجود می آید. فواصل فازی از دانیم های چند نمایی جهت مشخص سازی حالت قرارگیری یا وضعیت بدن انسان در فضای حرکت بکار گرفته شده اند. سه گونه تحلیل مشخص خطی (LDA) به منظور حاصل آوردن یک شاخص حرکت متمایز در یک فضای با بعدیت اندک مورد ارزیابی قرار می گیرد. مشکل شناسایی نما / دید را می توان با استفاده از یک راهکار شیفت بلوک مدور و در پی آن ارزیابی فاصله اقلیدوسی حداقلی با توجه به هر گونه حرکت ساده، یا از طریق بررسی ویژگی تغییر ناپذیر شیفت مدور / دایره ای تبدیل فوریه گسسته (DFT) حل نمود. شاخص حرکت تفکیکی در ترکیب با مشخص سازی موقعیت دید دوربین و نزدیک ترین مرحله رده بندی مرکز ثقل یا گرانیگاه منجر به حاصل آوردن نوعی دسته بندی دقیق در ارتباط با حرکت اشخاص / بازیگران شده است.

کلمات کلیدی: شناسایی فعالیت، حرکت های ساده / داینیم های چند- نمایی، کمی کردن / کوانتش بردار فازی، تحلیل مشخص خطی.

شناسایی چندنمایی حرکت انسان فواصل فازی

 

۱- مقدمه
شناسایی حرکت انسان و تحلیل آن به عنوان یک مؤلفه مهم برای سیستم های کاربردی مختلف به شمار می آید. چنین موردی را می توان به عنوان مرحله پیش پردازشی برای تحلیل رفتار انسانها در رشته های گسترده ای، نظیر کنترل و نظارت [۱]، تعامل انسان با کامپیوتر و همچنین بازی [۲]، متراکم سازی مدل مبنا [۳]، واقعیت افزوده [۴] و تفسیر معنایی ویدیو مد نظر قرار داد. عبارت «حرکت اشخاص» در معانی مختلفی در مباحث مرتبط بکار گرفته شده است. در برخی از موارد چنین موردی به عنوان یک مؤلفه قابل تبادل با عباراتی نظیر جنبش انسان، و عملکرد انسانی یا فعالیت انسان بکار گرفته شده است. در این مقاله، ما از اصطلاحات رده بندی علمی بکار گرفته  در مرجع [۵] استفاده می نماییم که در آن حرکت، فعالیت، و عملکرد به ترتیب مترادف با الگوهای حرکتی سطح پایین، سطح متوسط و سطح بالا می باشند. رویکردهای بسیاری به منظور توصیف رسمی الگوهای حرکتی انسان ارائه شده اند. دو رویکرد که در آنها اقدام به بررسی اطلاعات کلی بدن انسان به منظور توصیف ژست های یا وضعیت بدن انسان و شکل آن شده است در مراجع [۶، ۷] نشان داده شده اند. در مرجع [۶]، تصویر انرژی جنبشی (MEI) و تصویر تاریخچه جنبشی (MHI) ارائه شده است. MEI یک تصویر باینری می باشد، که نشان دهنده نواحی جنبشی یا متحرک به رنگ سفید و نواحی ساکن به رنگ تیره است. MHI نیز یک تصویر مقیاس خاکستری می باشد که شدت آن به عنوان تابعی از تأخر جنبشی به شمار می آید. به طور جایگزین، حرکت ها را می توان بر مبنای یک توالی از قسمت های اصلی یا اولیه حرکت مد نظر قرار داد که اصطلاحاً تحت عنوان «حرکات ساده» یا داینیم ها خوانده می شوند [۷]. این رویکرد از شناسایی گفتار الهام گرفته است، که در آن واج جهت مشخص سازی کوچکترین بخش کلام مورد استفاده قرار می گیرد [۸].
غالب الگوریتم های شناسایی حرکت شامل یک فاز آموزشی هستند. چالش های اصلی که یک روش شناسایی حرکت می بایست با آن رو به رو شود و ما آنها را در این مقاله مخاطب قرار می دهیم به شرح ذیل هستند:
  • گوناگونی های بین کلاسی: چندین نوع حرکت کاملاً مشابه هستند، به طور مثال دویدن به صورت آهسته و همچنین دویدن.
  • گوناگونی های داخل کلاسی: گوناگونی ها در سرعت حرکت، سبک اجرایی، و همچنین نسبت های مرتبط با اندازه گیری بدن انسان که می توان بین هر یک از اشخاص مشاهده نمود.
  • شرایط تصویربرداری: ویژگی های مربوط به موضع یابی هر شخص ممکن است تحت محیط های دینامیکی یا آشفته متفاوت باشد. خود همپوشانی ها یا همپوشانی های بخش های بدن انسان از دیگر موضوعات که ممکن است منجر به حصول شاخص ضعیفی از بدن انسان شود.
  • جهت گیری بدن انسان: جهت یک شخص با توجه به دوربین ممکن است متفاوت از جهت گیری های حاصله از ویدیوهای آموزشی باشد (همانند نمای کناری در برابر نمای جلویی). به علاوه، در طی حرکت، ممکن است اقدام به تغییر جهت حرکت خود نماید. یک شاخص مناسب بدن انسان که در تعامل با این تغییرات می باشد را می بایست مدنظر قرار داده به گونه ای که دقت فرایند شناسایی حرکت تحت الشعاع قرار نگیرد.
  • فاصله بین دوربین یا دوربین ها و شخص: شخص ممکن است در یک فاصله فرضی از دوربین در حال حرکت باشد. چنین موردی بر روی اندازه تصویر بدن وی در سطح یا سطوح دوربین ها تأثیرگذار خواهد بود.
  • عملیات پیوسته: این روش اجازه شناسایی حرکت پیوسته در خلال زمان را می دهد.
  • استقرار دوربین: دوربین یا دوربین های بکار گرفته شده در فازهای آموزش و تست ممکن است از نظر رزولوشن و نرخ فریم با یکدیگر متفاوت باشند. در صورتی که چندین دوربین وجود دارد، خطاهای سنکرون سازی یا همزمان سازی بین فریم ها که خود از دوربین های مختلف حاصل می شوند ممکن است رخ دهد. به علاوه، استقرار دوربین های متعدد غالباً نیازمند انجام فرایند کالیبراسیون می باشد.
زیادی الگوریتم های شناسایی حرکت پیشنهادی سبب تقسیم آنها به سه رده بندی مشخص بر مبنای ویژگی های استقرار دوربین و قابلیت آنها جهت انجام فرایند شناسایی حرکت انسان به صورت مستقل از نما یا منظر یا دید نموده است: تک نمایی، تک نمایی / نمای ثابت و چندنمایی [۹، ۱۰].
تاکنون، اکثریت الگوریتم های شناسایی حرکت انسان پیشنهادی از دوربین ثابت (ویدیوی تک نما) در هر دوی فازهای آموزشی و شناسایی خود استفاده نموده اند. در [۱۱]، یک کتاب مرجع و متشکل از قوانین مرتبط با تکانک ها (تقسیم حرکت به بخش های کوچک تر تحت عنوان تکانک خوانده می شود) برای هر بخش بدن ارائه شده است تا قابلیت ارائه تصاویر وضعیت و حالت اندام ها وجود داشته باشد. یک تکانک به عنوان مجموعه ای از تصاویر متصل به هم مدنظر است که مترادف با شکل، حرکت و همپوشانی بخش های اصلی مختلف بدن می باشد. مدل های پنهان مارکوف (HMMs) قابلیت ارزیابی غالب توالی های تکانک ها و حرکت مشخص شده در یک توالی خاص را خواهند داشت. در مرجع [۱۲]، برجستگی های بدن بر مبنای یک بردار ویژگی ایجاد شده بر حسب یک توصیف گر شکل تشریح گردیده است. ویژگی های محتوای شکل در مجموعه های غالب در هر تصویر وضعیت اندامی خوشه بندی شده است. این دسته بندی با استفاده از الگوریتم نزدیکترین همسایه حاصل آمده است. در مرجع [۷، ۱۳]، دنبال نمودن اطلاعات به منظور شکل دادن بردارهای حرکتی در هر فریم ویدیویی حاصل می شود. متعاقباً HMMs نیز جهت شناسایی حرکت انسان بکار گرفته می شود. در مرجع [۱۴]، طرح های حفظ موقعیت مکانی (LPP) نیز جهت مشخص سازی یک توالی از سیلوئت های متحرک مرتبط با یک ویدیوی متحرک در یک فضای کم بعدی بکار گرفته می شود. فاصله میانه هاسدورف یا همبستگی فضایی ـ زمانی به هنجار شده جهت دسته بندی یک حرکت ناشناخته در داخل چارچوب نزدیکترین ـ همسایه بکار گرفته شده است. در مرجع [۱۵]، پرتوتایپ های حرکت به وسیله حرکت های ساده به وجود آمده به وسیله فرایند کوانتش یا کمی برداری بردار فازی (FVQ) ارائه شده است. تحلیل مشخص خطی (LDA) نیز جهت مشخص سازی فاصله های بردار فازی هر بردار وضعیت اندامی در داخل یک توالی حرکتی از حرکت های ساده به یک فضای کم بعدی اعمال شد. در این فضا، فاصله حداقلی ماهالانوبیس یا حداکثر شباهت کسینوسی از مراکز کلاس حرکتی برای رده بندی حرکت انسان بکار گرفته شده است. در مرجع [۶] MEI و MHI ارائه دهنده این موضوع می باشند که یک حرکت به صورت الحاقی می باشد تا قابلیت ایجاد بردار محتوای شکل و اطلاعات زمانی وجود داشته باشد. رده بندی حرکت بر مبنای انجام پروسه نزدیکترین مجاور یا همسایه اعمال شده است. یک ارتقای مرتبط با این تحقیق آن است که چنین موردی نیازمند به رویه پیگیری ارائه شده در مرجع [۱۳] ندارد. با وجود آنکه این الگوریتم ها نتایج شناسایی خوبی را حاصل می آورند، آنها نیازمند استفاده از یک زاویه مشخص دوربین در طی فازهای آموزشی و شناسایی می باشند. این زاویه می بایست به صورت ایده آل در حالتی قرار داشته باشد که قابلیت تصویربرداری اطلاعات حرکت تفکیک شده و مشخص را داشته باشد و غالباً چنین موردی مترادف با نمای از کنار است. این فرضیه منجر به ایجاد نوعی محدودیت در محیط شناسایی می شود، چرا که چنین الگوریتم هایی غالباً با شکست رو به رو خواهند شد آن هم در صورتی که خواسته باشیم شخص تحت بررسی را از زوایای نمایی مختلفی مورد تصویربرداری قرار دهیم و یا آنکه مسیر حرکت در خلال زمان تغییر یابد.

ادامه این مقاله به شرح ذیل سازماندهی شده است. بخش ۲ فراهم آورنده شمایی از چارچوب شناسایی بکار گرفته شده در رویکرد پیشنهادی و مبحث کوتاهی در ارتباط با وظیفه شناسایی حرکت می باشد. بخش ۳ ارائه دهنده جزئیات فنی است که مشخص کننده مراحل پردازش انجام شده در روش پیشنهادی می باشد. بخش ۴ ارائه دهنده آزمایشاتی می باشد که برای ارزیابی عملکرد روش پیشنهادی ارائه شده است. در نهایت نتیجه گیری در بخش ۵ ارائه خواهد شد.

شناسایی چندنمایی حرکت انسان فواصل فازی

 

۲- بیان مشکل
یکی از ویژگی های چند دوربینی بکار گرفته شده مؤلفه همگرایی می باشد، که در آن کلیه N دوربین همزمان شده شامل نقطه ای در مرکز فضای مشاهده، همانند شکل ۱ الف برای هشت دوربین (N = 8) می باشد. حجم تصویربرداری به عنوان فضایی مدنظر خواهد بود که از کلیه N دوربین قابل مشاهده می باشد. فاصله بین دوربین ها و شخص بر مبنای ویژگی های کاربردی تعیین می گردد. در مورد شناسایی حرکت در ارتباط با ویژگی های کوتاه مدت فیلمبرداری، نظیر شناسایی حرکت داخل ساختمان، این فاصله احتمالاً کوتاه می باشد، در حالی که در موارد دوردست تر یا خارج از ساختمان، همانند پارکینگ ها، چنین فاصله ای بیشتر خواهد بود. در مورد دومی، اندازه انسان در ویدیو کوچک بوده و چنین موردی بر روی دقت شناسایی تأثیرگذار خواهد بود. هر دوربین قابلیت تصویربرداری از یک فریم ویدیویی در یک وهله زمانی را خواهد داشت، که تحت عنوان فریم تک نمایی یا تک دیدی خوانده می شود. مجموعه ای از فریم ها از کلیه دوربین های حاصل آمده در یک وهله زمانی خاص تحت عنوان فریم N ـ نمایی خوانده می شود. مثال مرتبط با آن در شکل ۱ ب نشان داده شده است.

شناسایی چندنمایی حرکت انسان فواصل فازی

 

۳- روش پیشنهادی
۳ـ۱٫ پیش پردازش
همانگونه که قبلاً توصیف شد، یک حرکت انجام شده در داخل حجم تصویربرداری دوربین با استفاده از N دوربین در یک حرکت N ـ نمایی متشکل از Ntm فریم ویدیویی N ـ نمایی تصویربرداری می شود که در آن یک دوره یا برهه زمانی حرکت مشخص گردیده است. تعداد فریم های Ntm در فریم ویدیویی N ـ نمایی ممکن است متغیر باشد که بر مبنای کلاس حرکت m، ۱ £ m £ M خواهد بود. در طی فاز آموزش، ویدیوی حرکت N ـ نمایی مشخص کننده تعداد برهه های متوالی است که به طور دستی در ویدیوهای N ـ نمایی اولیه مجزا گردیده اند و متعاقباً در فرایند آموزش بکار گرفته شده اند. در طی فاز تست، در مورد شناسایی حرکت متوالی، یک پنجره اسلاید دارای طول انتخابی مناسب با قابلیت حرکت در بخش ویدیوی N ـ نمایی بکار گرفته می شود و فرایند شناسایی برای هر موقعیت زمانی این پنجره اعمال می گردد.
۳ـ۲٫ محاسبه داینیم ها (حرکات ساده)
در فاز آموزشی، کلیه بردارهای وضعیت N ـ نمایی  مشخص شدند. NT مرتبط با کلیه ویدیوهای حرکت اولیه N ـ نمایی آموزشی مختلف NT دارای Ntm، m = 1, …,M فریم می باشند که بر مبنای K خوشه بدون استفاده از برچسب های حرکت شناخت شده خوشه بندی گردیدند. این رویکرد به منظور ایجاد ویژگی های اولیه حرکتی چند ـ نمایی مستقل حرکتی دنبال می شود، که تحت عنوان داینیم ها یا حرکت های ساده N ـ نمایی خوانده می شوند. با وجود آنکه این راهکار را می توان بر مبنای بکارگیری تکنیک های خوشه بندی مختلف انجام داد، نظیر خوشه بندی طیفی [۳۲، ۳۳]، نقشه ها یا نگاشت های خود سازماندهی [۳۴]، و الگوریتم C ـ میانگین [۳۵]، این موضوع از طریق انجام آزمایشات مشخص شد که یک الگوریتم K ـ میانگین [۳۶] قابلیت فراهم آوردن داینیم ها یا حرکت های ساده N ـ نمایی رضایت بخش را خواهد داشت. الگوریتم K ـ میانگین سعی در پارتیشن بندی بردارهای N ـ نمایی ویدیوهایی آموزشی در K خوشه با توجه به ارائه مراکز j = 1, …, K می نماید، بنابراین عبارت ذیل به حداقل خواهد رسید:
۳ـ۳٫ شاخص حرکت
همانگونه که قبلاً ذکر شد، هر ویدیوی حرکتی اولیه بر مبنای مجموعه ای از Ntm بردارهای وضعیت N ـ نمایی مشخص pi Î RNs، Ns = N ´ H ´ W، I = 1, …, Ntm توصیف می گردد که در آن Ntm بر مبنای انواع حرکت می تواند متغیر باشد. پس از محاسبه داینیم یا حرکت های ساده، فواصل فازی:
۳ـ۴٫ تصویر  یا طرح LDA
به منظور مشخص سازی کلاس های حرکت، اطلاعات برچسب موجود در فاز آموزشی را می توان مورد بررسی قرار داد. بعدیت بردارهای حرکت آموزشی smj Î RK را می توان به D < K بعد با استفاده از روش زیر فضای مشخص کاهش داد.
۳ـ۴ـ۱٫ LDA چند کلاسه
بردارهای حرکت آموزشی smj، m =1, … , M، j =1, … , Nm که معرف هر ویدیوی متحرک می باشند برچسب زده شدند. کاربرد LDA چند کلاسه منجر به ارائه هر بردار حرکتی smj Î RK در یک (M-1) ـ فضای مشخص ابعادی RM-1 شده است که خود سبب ایجاد بردارهای حرکت مشخص  گردیده است. در این فضا، بردارهای حرکت مشخص ymj متعلق به کلاس های حرکت مختلف به خوبی مجزا گردیده اند. ماتریس بهینه Yopt به وسیله بردارهای خاص تعمیم یافته M-1 که مترادف با بزرگترین مقادیر خاص  هستند شکل گرفته اند. در این مورد، دو ماتریس پراکنده ذکر شده فوق عبارتند از:
۳ـ۴ـ۲٫ تحلیل مشخص خطی چند کلاسه تکه ای وزن دار (WPLDA)
در WPLDA بردارهای حرکتی آموزشی smj Î RK که از نقطه نظر بعدیت مساوی با تعداد داینیم های K می باشند به بردارهای ویژگی کم بعدیت smjn Î RKs تقسیم گردیده اند، به گونه ای که  حاصل آمده است، که سبب ایجاد Ns زیرمجموعه بردارهای ویژگی شده است که هر کدام دارای بعدیت  می باشند. Ns بدین روش برگزیده شده است، به گونه ای که تعداد بردارهای متحرک آموزشی در هر کلاس برای بکارگیری LDA کفایت خواهد داشت.
۳ـ۴ـ۳٫ یک در برابر همگی به علاوه LDA های دو کلاسه
مشکل دسته بندی M ـ کلاس را می توان به یک M در برابر کلیه مسایل تقسیم کرد که بعد از آن مسایل رده بندی دو کلاسه  نیز حاصل می شوند. برای کلیه این مشکلات، بعدیت بردارهای آموزشی به ۱ تقلیل می یابد. به عبارت دیگر پس از مشخص سازی ویژگی ها، نمونه smj، m =1, … M، j =1, … , Nm به عنوان یک نمونه عددی حاصل می شود: ymj = Yoptsmj. برای هر مورد مشکلات یک در برابر کل، بردارهای متحرک متعلق به کلاس حرکت خاص به عنوان نمونه های مثبت بکار گرفته می شوند، در حالی که بردارهای حرکتی باقی مانده به عنوان نمونه های منفی مورد استفاده قرار می گیرند. ماتریس های پراکندگی در قالب ذیل تعریف می گردند:
۳ـ۵٫ مشکل شناسایی نقطه دید دوربین
همانگونه که قبلاً توصیف شد، چیدمان ویدیوهای متحرک متشکل از N نمای واحد در داخل یک ویدیوی متحرک آزمایشی N ـ نمایی می بایست سازگار با ویژگی های چیدمان نقطه دید دوربین بکار گرفته شده در طی فاز آموزشی جهت شکل دادن به بردارهای وضعیت N ـ نمایی باشند.  این بدان معنا است که اولین ویدیو می بایست مترادف با دید از جلو باشد و کلیه موارد دیگر می بایست در یک حالت رو به عقربه های ساعت آرایش یابند (یعنی به صورت ۴۵ درجه، نمای سمت راست، ۱۳۵ درجه، غیره). به طور آشکار، این نوع از آرایش دوربین الزاماً برای ویدیوی متحرک چند نمایی جدیداً حاصل آمده ضروری نمی باشد. بنابراین، مشکل شناسایی نقطه دید دوربین را می بایست قبل از شناسایی، قبل از آنکه فرایند شناسایی (تست) آغاز شود، حل نمود.
۳ـ۵ـ۱٫ چیدمان بردار وضعیت چند نمایی
همانگونه که قبلاً مشخص شد، در فاز آموزشی، کلیه نماهای موجود هر ویدیوی متحرک N ـ نمایی به صورت دستی آرایش می یابند. پس از این پروسه، کلیه بردارهای وضعیت N ـ نمایی آموزشی pi قابلیت نشان دادن حرکت در یک حالت سازگار را خواهند داشت، یعنی از طریق قرار دادن نمای جلویی در ابتدا و متعاقباً نماهای دیگر در جهت عقربه های ساعت. چنین موردی منجر به ایجاد داینیم های سازگار N ـ نمایی می گردد.
۳ـ۵ـ۲٫ شاخص وضعیت نامتغیر ـ نمای فوریه
یک شاخص وضعیت نامتغیر ـ نمای جدید جهت حل مسئله شناسایی نقره ای دید دوربین بکار گرفته شده است. این شاخص قابلیت بررسی تغییر ناپذیری شیفت مدور بزرگی ضرایب DFT را خواهد داشت:
۳ـ۶٫ رده بندی حرکت (فاز تست)
جهت دسته بندی یک ویدیوی N ـ نمایی ناشناخته حاوی Ntm ماسک باینری یک فرد در حال حرکت از هر N نما، ROI هر وضعیت شخص در مرکز جرم آن متمرکز شده و ویدیوهای وضعیت تک نمایی باینری با اندازه فریم مشخص مساوی با ROI حداکثری که مشخص کننده بدن شخص می باشد نیز برای هر نما ایجاد می شوند. این موارد به اندازه پیکسل های H ´ W با استفاده از فاز آموزشی (۶۴×۶۴ در آزمایشات ارائه شده در این مقاله) مقیاس بندی شده و جهت تولید N بردار وضعیت تک ـ نمایی تحت فرایند فاکتورگیری قرار می گیرد. این بردارها به صورت الحاقی می باشند که برای پیوستن آنها بردار وضعیت مترادف با اولین دوربین در اولین موقعیت قرار گرفته و متعاقباً بردارهای وضعیت تک ـ نما حاصله از کلیه دیگر دوربین ها در یک حالت جهت عقربه های ساعت قرار می گیرند.
۳ـ۷٫ شناسایی حرکت متوالی
همانگونه که در بخش ۲ ذکر شد، یک تکنیک شناسایی حرکت نباید محدود به شناسایی حرکت اولیه (یعنی در خلال یک دوره حرکتی) باشد بلکه می بایست قابلیت شناسایی حرکت به صورت پیوسته در خلال زمان را داشته باشد. به منظور حاصل آوردن عملیات پیوسته، یک پنجره اسلاید بکار گرفته می شود. بنابراین، برای شناسایی حرکت در برهه زمانی t با استفاده از پنجره اسلاید متشکل از فریم های NW فریم های ویدیویی fi، i = t، t – ۱, …, t – NW + 1 بکار گرفته می شوند. از آنجایی که طول میانگین Ntm حرکت اولیه کلاس های مختلف با یکدیگر تفاوت دارند، پنجره اسلاید می بایست حاوی تعداد مکفی NW فریم های ویدیویی باشد تا قابلیت شناسایی درست کلاس های حرکتی که دوره های اولیه آنها شامل تعداد فریم ویدیویی متفاوتی است وجود داشته باشد. از طریق انجام فرایند شناسایی در هر موقعیت پنجره اسلاید، یک عملیات شناسایی متوالی در خلال زمان حاصل می شود. این پروسه تشریح شده فوق در شکل ۸ نیز نشان داده شده است.

شناسایی چندنمایی حرکت انسان فواصل فازی

 

۴- نتایج تجربی
در این بخش، نتایج تجربی حاصل آمده بر روی مجموعه اطلاعاتی ویدیوی حرکتی چند نمایی i3DPost [43] ارائه می شود. به علاوه، قابلیت روش پیشنهادی جهت اعمال شناسایی حرکت متوالی و استواری آن در زمینه خطاهای همزمانی که ممکن است در یک مجموعه چند دوربینی رخ دهند نیز ارائه شده است. در نهایت، ما روش خود را با روش های نوینی که قابلیت شناسایی حرکت نمای ـ نامتغیر در بانک اطلاعات شناسایی حرکت چند نمایی INRIA IXMAS را دارند مورد مقایسه قرار دادیم [۲۳].
۴ـ۱٫ بانک اطلاعات چند نمایی i3DPost
بانک اطلاعات ویدیوی حرکت چند نمایی i3DPost متشکل از ۶۴ توالی تصویر با رزولوشن بالا و با پیکسل ۱۹۲۰´۱۰۸۰ متشکل از ۸ نفر (۶ مرد و ۲ زن) می باشد که هر کدام هشت حرکت را انجام می دهند. هر حرکت با استفاده از هشت نما تصویربرداری شده است. تصویربرداری ویدیویی در یک استودیو در دانشگاه Surrey با پس زمینه آبی و ابعاد حجم تصویر ۴´۳´۲ متر مکعب انجام شد. دوربین ها در اطراف ناحیه تصویربرداری و در بلندای ۲ متری فراتر از کف استودیو نصب شده و دارای فواصل مساوی در یک حلقه ای به قطر ۸ متر بوده اند. در این توالی های تصویر ۶۴ تایی، اشخاص اقدام به انجام حرکت های مختلفی نمودند: “قدم زدن” (wk)، “دویدن” (rn)، “پرش در جا” (jp)، “پرش رو به جلو” (jf)، “خمش” (bd)، “افتادن” (fl)، “نشستن” (st) و “دست تکان دادن” (wo).
۴ـ۲٫ بانک اطلاعات چند نمایی IXMAS
INRIA (انستیتو ملی تحقیقات انفورماتیک و اتوماسیون) با استفاده از بانک اطلاعات توالی های اکتساب حرکتی IXMAS  که متشکل از ۳۳۰ توالی تصویر دارای رزولوشن پایین با پیکسل ۲۹۱´۳۹۰ از ۱۰ نفر می باشند (۵ مرد و ۵ زن)، که هر کدام از آنها در بردارنده ۱۱ حرکت هستند. هر حرکت سه بار برای هر شخص انجام شده و از پنج نما تصویربرداری شده است. اشخاص به طور آزادانه موقعیت و جهت خود را در طی حرکت و تصویربرداری تغییر می دهند. حرکات انجام شده عبارتند از: “کنترل ساعت” (cw)، “دست به سینه شدن” (ca)، “سرخاراندن” (sh)، “نشستن” (sd)، “بلند شدن ” (gu)، “دور گشتن” (tu)، “دورزدن یک دایره” (wk)، “تکان دادن دست” (wh)، “ضربه زدن” (ph)، “کوبیدن” (kk) و “بلند کردن” (pu) . ماسک ها یا پوشش های باینری بدن اشخاص به وسیله بانک اطلاعات جمع آوری و مهیا شده است.
۴ـ۳٫ اعتبارسنجی متقابل در بانک اطلاعات چند نمایی i3DPost
در یک پروسه پیش پردازشی آفلاین، ویدیوهای اولیه حاوی یک دوره حرکتی واحد، همانند یک دوره قدم زدن، به صورت دستی در طی هر دو فاز آموزش و تست ایجاد شدند. این ویدیوها متعاقباً مورد پیش پردازش قرار گرفت، همانگونه که در زیر بخش ۳ـ۱ تشریح شد، تا آنکه قابلیت تولید ماسک های وضعیت باینری تک نمایی به وجود آید. در این مرحله پیش پردازشی، ابعاد مورد نیاز جهت حاصل آوردن بدن انسان در کلیه فریم ها در هر ویدیو مشخص شده و جعبه های پیوندی مرتبط با این اندازه نیز استخراج شده که در مرکز جرم اشخاص قرار گرفته و فرایند مقیاس دهی مجدد با توجه به پیکسل های H ´ W = 64 ´ ۶۴  برای هر فریم ویدیویی اعمال گردید.
۴ـ۴٫ شناسایی حرکت متوالی
این بخش نشان دهنده ظرفیت روش پیشنهادی جهت انجام شناسایی پیوسته یا متوالی می باشد. یک ویدیویی متحرک متعدد نشان دهنده شخصی می باشد که اقدام به  انجام ۱۰ عمل تکراری نموده که در این مطالعه بکار گرفته می شود. این ویدیو بر مبنای بخش های ادغام شده ویدیویی که نشان دهنده عملکرد حرکت های اولیه انسانی می باشد ایجاد شده است. الگوریتم شناسایی حرکت با استفاده از نمونه های آموزشی ویدیوهای باینری هفت فرد باقیمانده مورد آموزش قرار گرفت. شاخص بردار وضعیت DFT، ۶۰ داینیم هشت نمایی، بردارهای حرکت تقسیم شده به ۶ بردار ۱۰ بعدی و فاصله اقلیدوسی از جمله موارد استفاده شده بوده اند. یک پنجره اسلاید نیز بکار گرفته شد و فرایند شناسایی در هر موقعیت پنجره اسلاید اعمال گردید. از آنجایی که طول Ntm دوره های حرکت اولیه کلاس های مختلف بر مبنای محدوده ۹۰ الی ۴۰ متغیر می باشند، تصمیم بر آن شد تا اقدام به استفاده از NW = 21 فریم ویدیویی در داخل پنجره اسلاید شود، به گونه ای که این پنجره حاوی یک تعداد مکفی از فریم ها به منظور انباشته سازی حرکات مشخص باشد. هر چه که طول پنجره NW استفاده شده بزرگتر باشد، دقت شناسایی حرکت نیز به هنگام حرکت شخص بیشتر خواهد بود.
۴ـ۵٫ استواری در برابر خطاهای همزمان سازی
این مورد مشخص شد که دوربین های بکار گرفته شده جهت تصویربرداری ویدیوهای حرکتی چند نمایی می بایست همزمان شوند. با این وجود، در مراحل چند دوربینی، خطاهای همزمان سازی به صورت غالب پیش می آیند که منجر به تأخیرهای زمانی فرضی بین فریم های دوربین های مختلف خواهند شد. این بخش نشان دهنده استواری روش پیشنهادی در برابر این خطاها می باشد.
۴ـ۶٫ مقایسه با روش های دیگر
به منظور مقایسه روش ما با دیگر روش های نوین که هدف آنها شناسایی حرکت مستقل ـ از نما می باشند، ما اقدام به انجام آزمایشی بر روی بانک اطلاعات شناسایی حرکت چند نمایی IXMAS با استفاده از ویژگی های آزمایشی یکسان نمودیم. بدین منظور راهکار جداسازی یک فرد از اعتبار سنجی متقابل انجام شد. در هر کدام از این رویه ها، ویدیوهای پیش پردازشی ۹ نفر جهت آموزش و ویدیوهای ۱۰ نفر جهت آزمایش بکار گرفته شد. این آزمایش شامل ۱۰ مورد از راهکار اعتبارسنجی متقابل مدنظر بوده است. در فاز آزمایش، ویدیوهای تست در یک مرتبه تصادفی ارائه شدند که بر حسب موقعیت نسبی نماها با توجه به شخص می باشند. از آنجایی که ویژگی های استقرار دوربین بکار گرفته شده در بانک اطلاعات قابلیت فراهم آوردن یک پوشش ۳۶۰ درجه برای صحنه را نداشته است، شاخص بردار وضعیت DFT قابل اعمال نخواهد بود. به منظور حاصل آوردن شاخص بردار وضعیت ثابت، راهکار آرایش یافتگی مجدد بردار وضعیت توصیف شده در بخش ۳ـ۵ـ۱ اعمال شد، که بر مبنای آن کلیه چیدمان های مجدد بردار وضعیت تک نمایی مورد بررسی قرار گرفت.

شناسایی چندنمایی حرکت انسان فواصل فازی

 

 ۵- مباحث و نتیجه گیری
در این مقاله، یک شاخص حرکت انسانی با نمای نامتغیر یا ثابت و روش شناسایی با قابلیت استفاده از ویدیوی چند نمایی کالیبره نشده و سنکرون شده ارائه شده است. شاخص نامتغیر ـ نمایی به وسیله شیفت ها یا حرکت های دایره ای نماهای موجود، یا از طریق استفاده از ویژگی ثابت شیفت دایره ای DFT حاصل شد. سه گونه روش LDA با استفاده از شاخص های حرکتی مورد ارزیابی قرار گرفتند. این مورد از نقطه نظر تجربی مشخص شد که رویکرد رده بندی چند کلاسه دارای عملکرد بهتری در مقایسه با رویکردهای رده بندی یک ـ در برابر کل و رویکرد دو کلاسه می باشد. استفاده از یک شاخص ویژگی مشخص منجر به کلاس های حرکتی کاملاً تفکیک شده گردیده و بنابراین الگوریتم رده بندی با نزدیک ترین ویژگی به مرکز برای فراهم آوردن دسته بندی صحیح کفایت خواهد داشت. استفاده از شاخص وضعیت سه بعدی با شرایط محاسباتی اندک در ترکیب با شاخص حرکتی در یک فضای مشخص کم ابعادی منجر به ارائه روش شناسایی حرکتی سریعی شده است که حاصل آورنده نرخ های شناسایی بالایی می باشد و تحت تأثیر گوناگونی های سرعت حرکت افراد نیز نخواهد بود. رویکرد پیشنهادی را می توان به آسانی برای شناسایی حرکت پیوسته بکار گرفت و این روش قابلیت تحمل خطاهای همزمان سازی یا سنکرون سازی متوسط دوربین را خواهد داشت و از عملکرد بهتری در مقایسه با دیگر روش های نوین که در مؤلفه های ویدیویی چند نمایی عمل می نمایند برخوردار است.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Irantarjomeh
لطفا به جای کپی مقالات با خرید آنها به قیمتی بسیار متناسب مشخص شده ما را در ارانه هر چه بیشتر مقالات و مضامین ترجمه شده علمی و بهبود محتویات سایت ایران ترجمه یاری دهید.