P-DOT: مدل محاسباتی داده های بزرگ
P-DOT: مدل محاسباتی داده های بزرگ – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 48000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۱۵۸ |
کد مقاله | COM158 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | P-DOT: یک مدل محاسباتی برای داده های بزرگ |
نام انگلیسی | P-DOT: A Model of Computation for Big Data |
تعداد صفحه به فارسی | ۴۰ |
تعداد صفحه به انگلیسی | ۷ |
کلمات کلیدی به فارسی | داده های بزرگ, مدل محاسباتی, سیستم توزیعی |
کلمات کلیدی به انگلیسی | big data, computational model, distributed system |
مرجع به فارسی | کنفرانس بین المللی IEEE داده های بزرگکالج فناوری و علوم کامپیوتر، دانشگاه علوم و فناوری چین |
مرجع به انگلیسی | IEEE, School of Computer, Uni. Science & Tech., Chinal |
کشور | چین |
P-DOT: یک مدل محاسباتی برای داده های بزرگ
چکیده
در پاسخ به تقاضای زیاد در ارتباط با سیستم های تحلیلگر اطلاعات بزرگ، چندین مدل برنامه در زمینه سیستم های بزرگ و سیستم های خوشه ای توزیعی، نظیر MapReduce، Dryad و Pregel، ارائه و پیاده سازی شده اند،. با این وجود، در مقایسه با مولفه های محاسباتی با عملکرد بالا، اصول محاسباتی و رفتار ارتباطاتی مربوط به سیستم های تحلیلگر اطلاعات به خوبی مورد بررسی قرار نگرفته اند. در این مقاله، ما مدل محاسباتی داده های بزرگ کنونی یعنی DOT و DOTA را مورد بررسی قرار داده و یک مدل عملی و کلی تر p-DOT (p-phases DOT) را پیشنهاد می نماییم. مدل p-DOT به عنوان یک مدل صرفاً تعمیم یافته به شمار نمی آیند، بلکه دارای اهمیت عمیقی می باشد. با توجه به ویژگی های عمومی، هر یک از سیستم های تحلیلگر اطلاعات بزرگ که در مدل DOT یا BSP بیان شده اند را می توان از طریق این مؤلفه ارائه داد. با توجه به ویژگی های عملی، چنین موردی رفتار I/O را به منظور ارزیابی سربار عملکرد مورد ارزیابی قرار می دهد. به علاوه، ما نوعی تابع هزینه را بکار می گیریم که مشخص کننده این موضوع می باشد که تعداد بهینه ماشین ها را می توان با توجه به جذر اندازه ورودی یک الگوریتم و یک بار کاری ثابت بصورت تقریباً خطی بشمار آورد؛ بعلاوه کارایی چنین تابعی را با استفاده از چندین ویژگی تجربی نشان می دهیم.
کلمات کلیدی: داده های بزرگ، مدل محاسباتی، سیستم توزیعی
P-DOT: مدل محاسباتی داده های بزرگ
۱- مقدمه
در بسیاری از زمینه های کاربردی نظیر علوم، اینترنت، تجارت الکترونیک و غیره، حجم داده هایی که می بایست آنها را مورد آنالیز قرار داد به سرعت افزایش می یابد [۱ ـ ۴]. بانک های اطلاعاتی با طرفیت ترابایتی و پتابایتی به طور فزاینده ای هم اکنون به عنوان نوعی هنجار پذیرفته شده در این مبحث بشمار آمده و در نتیجه برای استخراج مؤثر داده ها و مقادیر مرتبط به راهکاری کارآمد نیاز خواهیم داشت. با توجه تمایل موجود برای استفاده از سیستم های تحلیلگر داده های بزرگ، مشکلات عملکرد و مقیاس پذیری به عنوان مسایل کاملاً جدی و فزاینده مطرح شده اند.
…
در این مقاله، ما کاندید خود در خصوص مدل کلی و عملی تحت عنوان p-DOT را پیشنهاد می نماییم. این کاندید محدود کننده ظرفیت حافظه در ماشین می باشد، که متفاوت از مدل های فوق خواهد بود، و صرفاً به هر ماشین اجازه اجرای محاسبات ترتیبی در زمان چند جمله ای بدون توجه چندان به میزان اندازه داده ها را خواهد داد. با توجه به ویژگی های کلی، چنین مؤلفه ای با مدل BSP محاسباتی و ارتباطاتی در نواحی محاسباتی دارای عملکرد بالا (HPC) سازگارتر می باشد، و بنابراین با توجه به ویژگی های عملی، درک تأثیرات رفتار IO می تواند در ارتباط با تصمیم گیری بهتر در زمینه تعداد ماشین های مورد نیاز جهت ارائه برنامه زمانبندی یک خوشه کارساز باشد، که خود منجر به استفاده بهتر از منابع خواهد شد.
ما تعامل خود را بشرح ذیل مشخص می سازیم:
ما اقدام به توسعه یک مدل محاسباتی p-DOT برای سیستم های تحلیلگر داده های بزرگ نمودیم. هرگونه راهکار اجرایی این سیستم ها که به وسیله مدل DOT یا مدل BSP ارائه شده اند را می توان به وسیله p-DOT نیز مورد پالایش مجدد قرار داد. ما همچنین مشخص می سازیم که الگوی پردازش مدل p-DOT از مقیاس پذیری و ویژگی های تحمل خطا / عیب مناسبی برخوردار می باشد.
تحت مدل p-DOT، ما نوعی تابع هزینه را ارائه می نماییم که در آن رفتار I/O جهت ارزیابی سربار عملکرد مدنظر خواهد بود. این تابع مؤکد آن است که تعداد بهینه ماشین ها را می توان با توجه به جذر اندازه ورودی یک الگوریتم و یک بار کاری ثابت بصورت تقریباً خطی بشمار آورد. این مولفه متعاقباً قابلیت ارتقای زمان اجرا را داشته و می تواند نوعی پیش بینی کیفی در زمینه تعداد منابع مورد نیاز برای یک خوشه خاص را ارائه نماید.
ادامه این مقاله به شرح ذیل سازماندهی شده است. بخش ۲ مدل های محاسباتی مرتبط را مورد بحث قرار می دهد. بخش ۳ مدل p-DOT ما و ویژگی های آن را ارائه می نماید. بخش ۴ تابع هزینه مدل p-DOT را از طریق ارائه یک تحلیل توانمند عرضه می نماید. بخش ۵ نشان دهنده کارآمدی مدل p-DOT از طریق ارائه چندین مثال تجربی می باشد و نهایتاً بخش ۶ به نتیجه گیری این مقاله می پردازد.
P-DOT: مدل محاسباتی داده های بزرگ
۲- تحقیقات مرتبط
BSP: BSP [9] در ارتباط با ضرورت صریح آن در زمینه فرایند همزمانی در هر ابرمرحله به عنوان یک مؤلفه مهم تلقی می شود. برنامه اجرا شده بر روی آن متشکل از توالی ابرمراحل با توجه به تناوب L می باشد. در هر ابر مرحله، هر جزء پردازنده / حافظه قابلیت انجام ترکیبی از محاسبات محلی بر روی داده های موجود محلی و انجام فرایند ارسال پیام را خواهد داشت. پس از هر دوره واحد زمانی L، یک کنترل کلی انجام می شود تا از این موضوع اطمینان حاصل شود که کلیه اجزا قابلیت اتمام یک ابر مرحله مشخص را داشته باشند. بنابراین، یک ابر مرحله شامل سه فاز می باشد: فاز محاسباتی، ارتباطاتی و سنکرون سازی یا همزمان سازی.
DOT: DOT [10] یک مدل ماتریس به شمار می آید که تشریح کننده جریان اطلاعات یک سیستم تحلیلگر اطلاعاتی بزرگ با بلوک های DOT ابتدایی / ترکیبی می باشد. یک بلوک DOT اولیه را می توان به صورت سه لایه ذیل ارائه داد:
لایه ـ D (لایه اطلاعاتی): یک مجموعه بزرگ اطلاعاتی به n بخش (از D1 الی Dn) در یک سیستم توزیعی تقسیم می شود، که در آن هر بخش به عنوان یک زیرمجموعه مشخص از مجموعه داده ها تلقی می شود.
لایه ـ O (لایه عملیاتی): n کارگر (از o1 الی on) اقدام به انجام عملیات همزمان نموده، و در عین حال هر کاربر Q صرفاً اقدام به پردازش Di و ذخیره سازی نتایج اولیه می نمایند.
لایه ـ T (لایه تغییر شکل یا تبدیل): یک کارگر اقدام به جمع آوری کلیه نتایج سطح میانی نموده و متعاقباً با انجام فرایند تغییر شکل نهایتاً نتایج را به خروجی ارسال می دارد.
یک بلوک DOT کامپوزیت / ترکیبی به وسیله یگ گروه m-بلوکی DOT مستقل اولیه سازماندهی می شود، که دارای مقدار کارگری برابری با لایه ـ O می باشد و با توجه بدانکه ورودی به روشی یکسان تقسیم می شود مجموعه داده ای بزرگ مشابهی را به اشتراک می گذارد. فرمول های آنها به شرح ذیل هستند:
P-DOT: مدل محاسباتی داده های بزرگ
۳- مدل p-DOT
الف. تعریف مدل
این مدل که الهام گرفته از مدل BSP می باشد، یعنی مدل محاسباتی p-DOT، متشکل از یکسری از توالی های تکراری تحت عنوان فازها است. در طی فاز q، یک رأس معرف ورودی / خروجی یا داده های سطح میانی می باشد، یک کارگر نیز قابلیت تعریف عملیات محاسباتی O را نیز داشته که به صورت موازی برای هر مورد از اولین رأس ها مدنظر است، بعلاوه این کاربر قابلیت تعریف عملیات ارتباطاتی نقطه ـ به ـ نقطه T را نیز خواهد داشت که بین جفت های رأس های بعدی اعمال می شوند. در صورتی که این فاز به عنوان آخرین فاز p تلقی گردد، خروجی به عنوان نتیجه نهایی ذخیره خواهد شد. در غیر این صورت، این مورد به عنوان ورودی برای فاز بعدی q+1 تلقی می گردد. جزئیات این مسئله به شرح ذیل می باشد:
لایه ـ D (لایه داده): یک مجموعه داده ای بزرگ به nبخش (از D1 تا Dn) در یک سیستم توزیعی تقسیم می شود که در آن هر بخش به عنوان یک مجموعه فرعی از اطلاعات به شمار می آید.
لایه ـ O (لایه محاسبات): در طی یک فاز q، تعداد nq کارگر (از o۱ تا onq) اقدام به انجام محاسبات همزمان نموده، در حالی که کارگر oi صرفاً قابلیت پردازش یک مجموعه فرعی اطلاعاتی (سطح میانی) و ذخیره سازی نتایج آن را خواهد داشت.
لایه ـ T (لایه ارتباطات): در طی فاز q (q¹p)، هر عملگر ti,j قابلیت برقراری ارتباطات نقطه ـ به ـ نقطه بر روی نتایج سطح میانی از کارگر oi (iÎ[۱, nq]) فاز q به کارگر oj (jÎ[۱, nq+1) فاز q+1 را خواهد داشت.
P-DOT: مدل محاسباتی داده های بزرگ
۴- تابع هزینه p-DOT
هدف اصلی مدل محاسباتی ارائه نوعی استاندارد ساده برای مشخص سازی ویژگی ها و کارایی مرتبط می باشد بر حسب توافق بین متخصصین مرتبط می باشد. این بخش یک تابع هزینه مدل p-DOT را به عنوان کاندیدی برای این قاعده در نظر می گیرد. به منظور آنکه چنین تابعی در عمل مؤثر باشد، ما چندین قید را در ابتدا اضافه می نماییم. ما تابع هزینه را از طریق تحلیل های توانمند مسایل مرتبط ادامه داده و در نهایت نسبت به مقایسه آن با مدل موجود اقدام خواهیم نمود.
الف. قید ها و محدودیت ها
حافظه: در سیستم های تحلیلگر داده های بزرگ، این امر منطقی می باشد تا در نظر گیریم که هیچگونه ماشین واحدی که قابلیت ذخیره سازی کل مجموعه های اطلاعات را داشته باشد وجود ندارد و حافظه هر ماشین محدود است. بنابراین، ما به این موضوع نیاز خواهیم داشت که ورودی هر ماشین به طور اساسی به عنوان ویژگی خطی فرعی برای اندازه داده ها در نظر گرفته شود، بنابراین، همین امر برای ورودی سطح میانی یک ماشین در هر فاز q با توجه به اندازه خروجی در فاز q-1 نیز صحت خواهد داشت. با این وجود، در صورتی که داده ورودی (سطح میانی) همچنان آنقدر بزرگ باشد که قابلیت گنجاندن آن در حافظه یک ماشین صرف وجود نداشته باشد، ما می بایست از چندین دوره زمانی جهت حرکت آن از دیسک به حافظه استفاده نماییم. از آنجایی که یک دیسک قابلیت انتقال بیش از صدها میلیون بایت داده در ثانیه به حافظه را ندارد، بدون درنظرگیری ویژگی سازماندهی داده ها [۱۸]، بنابراین لازم است تا هزینه دسترسی به I/O، برای مجموعه اطلاعاتی متشکل از صدها گیگابایت یا یک ترابایت، را در نظر گرفت.
ب. تابع هزینه
تعریف ۳ـ۱٫ برای یک سیستم تحلیلگر داده های بزرگ که می توان آن را در مدل p-DOT ارائه داد، اجازه دهید تا n به عنوان مجموع کل ماشین های استفاده شده در کل فرایند اجرا در نظر گرفته شود و nq نیز تعداد کارگران در لایه ـ O فاز q یعنی n = max {nq | q Î [l, p]}، مشخص گردد.
ج. مباحث
سیستم های تحلیلگر داده های بزرگ، هدف ارائه راهکارهای کاملی را دنبال می نمایند که خود نیازمند سیستم های توزیعی بزرگ “بر مبنای ویژگی های مقیاسی” از طریق اضافه نمودن پیوسته منابع محاسباتی و ذخیره سازی در شبکه می باشند. جهت توصیف ویژگی های کلیدی، تابع هزینه مدل p-DOT صرفاً دارای دو پارامتر برای یک الگوریتم ثابت و بار کاری می باشد، یعنی w (اندازه ورودی) و n (تعداد ماشین ها). نمودار عملکرد به عنوان یک منحنی باز تلقی می شود که دارای یک رأس در پایین ترین نقطه به شمار آمده و در هر مسیر قابلیت افزایش دارد. این بدان معنا می باشد که برای یک اندازه ورودی ثابت، (w به صورت ثابت خواهد بود)، تعداد بهینه ماشین ها به صورت نزدیک خطی با توجه به جذر اندازه ورودی می باشند، در صورتی که منابع کافی وجود نداشته باشد ، ما قابلیت اضافه نمودن ماشین ها جهت کاهش زمان اجرا را خواهیم داشت. اما در عین حال قابلیت اضافه نمودن ماشین های زیاد را نخواهیم داشت چرا که بکارگیری ماشین های متعدد سبب ایجاد سربارهای ارتباطاتی زیادی نیز خواهد شد. به علاوه، با توجه به آنکه تعداد بهینه ماشین ها برابر با O(k) بار به هنگامی که اندازه ورودی به تعداد k2 بار بزرگ می شود، افزایش می یابد، ما نیز قابلیت انجام یک پیش بینی کمی در ارتباط با تعداد منابع ضروری برحسب نتایج موجود را خواهیم داشت.
P-DOT: مدل محاسباتی داده های بزرگ
۵- ارزیابی نتایج تجربی
در این بخش، ما نسبت به بررسی کارآمدی تابع هزینه مدل p-DOT با جزئیات مربوط به آن از طریق انجام دو آزمایش اقدام می نماییم: این آزمایشات شامل وردکانت و تراسورت هستند. این دو برنامه به عنوان شاخص یک مجموعه فرعی بزرگ از برنامه های حقیقی به شمار می آیند که به وسیله کاربران MapReduce نوشته شده است. در عین آنکه استراتژی اتخاذی ما جهت پیاده سازی جریان داده آنها و کاربرد MPI به واسطه دلایل ذیل نیز قابل توجه می باشد: الف) اعتبار مدل محاسباتی منوط به زبان برنامه نویسی بکار گرفته شده نمی باشد و انتخاب درست متکی به محیط خواهد بود. ب) محیط ما، MPP [19] در مرکز سوپر محاسبات ملی در جینان واقع در [۲۰] که به عنوان یک بستر HPC متعارف به شمار می آید و در عین حال از سیستم Hadoop پشتیبانی نمی کند.
الف. پیکربندی
کلیه برنامه ها بر روی یک صف سیستم MPP برای اجرا قرار گرفته که متشکل از تقریباً ۴۰۰۰ ماشین می باشد. هر ماشین دارای چهار پردازنده ۹۷۵MHz sw’ ۱۶۰۰ می باشد و از ۴ گیگابایت حافظه بهره مند بوده و دارای یک لینک QDR اینفینیباند می باشند. سیستم عامل لینوکس ۱۵/۶/۲ انتخاب گردیده و برنامه ها در آخر هفته اجرا شدند، یعنی زمانی که غالباً کارکرد پردازنده ها، دیسک ها و شبکه ها نسبتاً کمتر هستند.
ب. ارزیابی
ما آزمایشات مختلفی را جهت یافتن تعداد بهینه کاربران برای هر اندازه ورودی مرتبط با این دو برنامه بکار گرفتیم برای این مجموعه اطلاعاتی که از ۲۵/۰ الی ۶۲۵ گیگابایت متغیر می باشند، این برنامه ها صرفاً از یک پردازنده در هر ماشین جهت اجتناب از تداخل I/O در داخل یک گره استفاده نموده اند. در عین حال برای مجموعه اطلاعاتی ۵/۲ ترابایتی، این برنامه ها مجبور به استفاده از دو پردازنده در هر ماشین بوده اند چرا که هیچگونه ماشین فیزیکی موجودی برای قرار گیری در صف در این زمینه وجود نداشته است. بنابراین، تعداد کارگران در حقیقت به صورت تعداد پردازش های کاری مشخص شد.
P-DOT: مدل محاسباتی داده های بزرگ
۶- نتیجه گیری
در این مقاله ما مدل محاسباتی p-DOT را برای سیستم های تحلیلگر داده های بزرگ، در سیستم های توزیعی مقیاس بزرگ، ارائه نمودیم. این موضوع مشخص کننده مبنا و اصول رفتار محاسباتی و ارتباطاتی برای راهکارهای تحلیل اطلاعات بزرگ می باشد و می توان آن را به عنوان یک مدل ارتباط دهنده بین سیستم های تحلیلگر داده های بزرگ و چارچوب های نرم افزاری مختلف اصلی مرتبط با آنها مدنظر قرار داد. به علاوه، ما می توانیم این موضوع را تصدیق نماییم که هر نوع دیاگرام پردازشی که در مدل DOT یا مدل BSP ارائه شده است قابلیت کاربرد در مدل p-DOT را نیز خواهد داشت (قضیه ۱)، و به علاوه الگوی پردازش مدل p-DOT نیز به صورت مقیاس پذیر و با قابلیت تحمل خطا می باشد (قضیه ۲). به علاوه، با توجه به رفتار I/O، ما تابع هزینه را برای مدل p-DOT ارائه نمودیم (قضیه ۳) که مشخص کننده تعداد بهینه مکانیزم ها به صورت نزدیک خطی با توجه به مجذور اندازه ورودی برای یک الگوریتم ثابت و بار کاری می باشد (قضیه فرعی ۳ـ۱)؛ به علاوه، به هنگامی که اندازه ورودی نیز به تعداد K2 دفعه بزرگ می شود، قابلیت گسترش O(k) بار نیز وجود خواهد داشت (قضیه فرعی ۳ـ۲).
تحقیق آینده ما دو مسیر را دنبال می نماید: الف) ما نسبت به بررسی مدل کارایی برای سیستم های تحلیلگر داده های بزرگ از طریق بررسی مزیت های حاصله از مدل p-DOT اقدام خواهیم نمود، ب) تحت رهنمودهای حاصله از مدل p-DOT، ما اقدام به طراحی و پیاده سازی برخی از الگوریتم های کارآمد در ارتباط با داده کاوی خواهیم کرد.