رتبه بندی صفحه موتور جستجوی وب معنایی
رتبه بندی صفحه موتور جستجوی وب معنایی – ایران ترجمه – Irantarjomeh
مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی
مقالات
قیمت
قیمت این مقاله: 38000 تومان (ایران ترجمه - Irantarjomeh)
توضیح
بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.
شماره | ۲۰۳ |
کد مقاله | COM203 |
مترجم | گروه مترجمین ایران ترجمه – irantarjomeh |
نام فارسی | طراحی یک الگوریتم رتبه بندی صفحه ترکیبی برای موتور جستجوی وب معنایی |
نام انگلیسی | Designing a Hybrid Page Ranking Algorithm for Semantic Web Search Engine |
تعداد صفحه به فارسی | ۱۹ |
تعداد صفحه به انگلیسی | ۴ |
کلمات کلیدی به فارسی | وب معنایی, رتبه صفحه, HITS, موتور جستجو, پیش بینی کننده بک لینک |
کلمات کلیدی به انگلیسی | Semantic web, Page rank, HITS, Search engine, Back-link predictor |
مرجع به فارسی | ژورنال بین المللی مهندسی و فناوری پیشرفته (IJEAT) |
مرجع به انگلیسی | International Journal of Engineering and Advanced Technology (IJEAT) |
کشور | هندوستان |
طراحی یک الگوریتم رتبه بندی صفحه ترکیبی برای موتور جستجوی وب معنایی
چکیده
وب به عنوان مهمترین ابزار امروزی به شمار می آید که اشخاص مختلف جهت جستجوی اطلاعات ضروری خود از آن استفاده می نمایند. در چنین مبحثی وظیفه فراهم آورندگان خدمات ارائه اطلاعات مناسب، مرتبط و با کیفیت از طریق اینترنت می باشد تا بدینوسیله کاربران بتوانند نسبت به انجام پرس و جوهای خود و یافتن نتایج مرتبط اقدام نمایند. اما در عین حال فراهم آوردن اطلاعات مناسب، مرتبط و باکیفیت برای کاربران با استفاده از محتویات صفحات وبی و هایپرلینک یا ابرلینک بین صفحات وبی خود یک چالش اساسی به شمار می آید. معماری نسل بعدی وب، ارائه دهنده وب معنایی است، که فراهم آورنده معماری لایه ای می باشد و احتمالاً اجازه فایق آمدن بر این محدودیت ها را خواهد داد. چندین موتور جستجو پیشنهاد شده اند که قابلیت بازیابی دقیق اطلاعات از طریق بررسی کلمات کلیدی و روابط بین آنها را دارند. این مقاله نگاه خود را معطوف به یک رویکرد هیبرید یا ترکیبی در ارتباط با الگوریتم رتبه بندی صفحات وبی می نماید که به سادگی بر مبنای پیش بینی و محاسبه تعداد مختلف بک لینک ها در یک صفحه وبی می باشد.
کلمات کلیدی: وب معنایی، رتبه صفحه، HITS، موتور جستجو، پیش بینی کننده بک لینک
رتبه بندی صفحه موتور جستجوی وب معنایی
۱- مقدمه
در دنیای امروزی حجم اطلاعات اینترنت به صورت روزمره افزایش می یابد، بنابراین صاحبان وب سایت ها جهت فراهم آوردن اطلاعات مناسب و مرتبط برای کاربران اینترنتی با یک چالش قابل توجه روبرو هستند. با رشد سریع WWW، مدیریت اطلاعات در این عرصه و ارضای نیازهای کاربران مشکل شده است. بنابراین، کاربران به دنبال حاصل آوردن تکنیک های فراخوانی / بازیابی بهتر اطلاعات و ابزارهای مرتبط به منظور مشخص سازی موقعیت، و نهایتا دسترسی به داده های ضروری و فیلتر اطلاعات می باشند. غالب کاربران از ادوات فراخوانی اطلاعات نظیر موتورهای جستجو جهت یافتن اطلاعات از دنیای وب (WWW) اقدام می نمایند.
موتورهای جستجوی بسیاری در دسترس می باشند، اما موتورهایی نظیر گوگل، یاهو، بینگ و غیره از معروفیت خاصی برخوردار هستند که علت آن را می توان روش های مربوط به فرآیند کرالینک / برنامه خزنده و رتبه بندی آنها دانست. موتورهای جستجو اقدام به دانلود، ایندکس بندی و ذخیره سازی میلیون ها صفحه وبی می نمایند. آنها روزمره میلیون ها پرس و جو را پاسخ می دهند. این نوع تکنیک فراخوانی اطلاعات تحت عنوان وب کاوی خوانده می شود. شکل ۱ [۱] نشان دهنده کار یک موتور جستجوی نوعی است، که معرف گراف مرتبط برای یک پرس و جوی انجام شده به وسیله یک کاربر وبی می باشد.
سه مؤلفه مهم در هر موتور جستجو وجود دارند که تحت عنوان کلالر / برنامه خزنده، ایندکسر / نمایه ساز و رنکر / رتبه بندی کننده خوانده می شوند. کلالر اقدام به جستجوی وب و دانلود صفحات وبی می نماید. صفحات دانلود شده به یک تابع ایندکس ساز فرستاده می شود که اقدام به تجزیه و تفکیک صفحات وبی نموده و متعاقباً ایندکس های مربوطه را بر مبنای کلمات کلیدی در آن صفحات ایجاد می نماید. به هنگامی که یک کاربر اقدام به تایپ یک پرس و جو با استفاده از کلمات کلیدی در یک موتور جستجو می نماید، پردازشگر پرس و جو کلمات کلیدی مرتبط را با ایندکس مربوطه منطبق ساخته و متعاقباً پس از یافتن آن URL های صفحات یافته شده را به کاربر باز می گرداند. اما قبل از ارائه نتیجه به کاربر، مکانیزم رتبه بندی از طریق رتبه بندی موتور جستجو به منظور ارائه بهترین صفحات مرتبط در رأس لیست جستجو و اطلاعات کمتر مرتبط در انتهای لیست انجام می شود. چنین موردی سبب می شود تا فرآیند ناوبری یا جستجوی نتایج برای کاربران آسانتر گردد. مکانیزم رتبه بندی با جزئیات مرتبط در این مقاله مورد بحث قرار خواهد گرفت.
ادامه این مبحث به شرح ذیل سازماندهی شده است: تحقیقات مرتبط در بخش ۲ ارائه می شوند. بخش ۳ تشریح کننده ساختار داده های بکار گرفته شده برای وب مخصوصاً گراف وب می باشد. بخش ۴ نشان دهنده نتایج رویه های پیاده سازی و شبیه سازی می باشد و بخش ۵ نهایتاً به نتیجه گیری این مقاله می پردازد.
رتبه بندی صفحه موتور جستجوی وب معنایی
۲- تحقیقات مرتبط
وب کاوی به عنوان تکنیکی جهت رده بندی و مجزاسازی صفحات وبی از طریق ملاحظه محتویات صفحات و رفتار گذشته کاربران مدنظر می باشد. وب کاوی شامل سه بخش است: کاوش محتویات وبی (WCM)، کاوش ساختار وبی (WSM) و کاوش کاربری وب (WUM). WCM مسئول بررسی اطلاعات مناسب و مرتبط از محتویات وب می باشد. WUM مسئول ضبط پروفایل کاربران و رفتار آنها در داخل فایل لاگ وب می باشد. WSM اقدام به یافتن ساختار ابرلینک بین مستندات مختلف نموده و صفحات وبی را دسته بندی می نماید. تعداد لینک های بیرونی یا آوت لینک ها، یعنی لینک ها از یک صفحه، و تعداد لینک های داخلی یا این لینک ها، یعنی لینک ها به یک صفحه، به عنوان پارامترهای مهم در خصوص وب کاوی به شمار می آیند. معروفیت یک صفحه وبی به طور کلی بر حسب یک واحد تحت عنوان رتبه صفحه اندازه گیری می شود که به طور کلی در تعامل با تعداد لینک هایی می باشد که از یک صفحه وبی به یک صفحه وبی دیگر ارجاع داده شده است. بنابراین WSM به عنوان یک ویژگی بسیار مهم در رشته وب کاوی به شمار می آید [۲].
الف. الگوریتم رتبه بندی صفحه
الگوریتم رتبه بندی صفحه [۳] به طور کلی به عنوان الگوریتمی برای رتبه بندی صفحات مختلف به شمار می آید. کار الگوریتم رتبه بندی صفحه منوط به مفهوم بک لینک ها و مقدار شامل شده در صفحه می باشد. در صورتی که رتبه بک لینک ها بیشتر از صفحه باشد، بنابراین رتبه بیشتری به آن تخصیص می یابد. رتبه صفحه به شرح ذیل مشخص می شود:
ب. الگوریتم HITS
الگوریتم HITS [4] به عنوان یک الگوریتم لینک مبنا به شمار می آید. این الگوریتم اقدام به رتبه بندی صفحه وبی از طریق پردازش این لینک ها و آوت لینک های صفحات وبی می نماید. در این الگوریتم، یک صفحه وبی به عنوان یک صفحه اصلی تلقی خواهد شد آن هم در صورتی که هایپرلینک ها یا ابرلینک های متعددی به آن صفحه اشاره داشته باشند و یک صفحه وبی در صورتی به عنوان HUB تلقی خواهد شد که چنان صفحه ای به ابر لینک های متعددی اشاره داشته باشد. در اینجا رتبه بندی صفحه وبی بر حسب تحلیل محتویات متنی آنها در مقابل یک پرس و جوی مشخص تعیین می گردد.
ج. الگوریتم رتبه بندی صفحه وزن دار
الگوریتم رتبه صفحه وزن دار [۵] به وسیله Xing و Ghorbani پیشنهاد شده است. الگوریتم رتبه صفحه وزن دار (WPR) یک الگوریتم اصلاح شده الگوریتم رتبه صفحه اصلی به شمار می آید. این الگوریتم قابلیت تعیین رتبه بر مبنای معروفیت صفحات از طریق بررسی اهمیت این لینک ها و آوت لینک ها صفحات را خواهد داشت.
د. الگوریتم رتبه فاصله
یک الگوریتم رتبه بندی هوشمند تحت عنوان رتبه فاصله به وسیله Bidoki و Yazdani پیشنهاد شده است [۶]. این الگوریتم بر مبنای فاصله بین هر یک از صفحات می باشد. در اینجا رتبه بندی بر مبنای کوتاهترین فاصله لگاریتمی بین دو صفحه اعمال می شود.
ه . الگوریتم رابطه مبنا
Lamberti, Sanna و Demartini [7] یک الگوریتم رابطه مبنا را برای رتبه بندی صفحات وبی در ارتباط با موتور جستجوی معنایی پیشنهاد نمودند. این الگوریتم یک رتبه صفحه وبی رابطه ای را برای موتور جستجوی وب معنایی پیشنهاد می نماید که خود منوط به اطلاعات استخراج شده از پرس و جوهای کاربران و منابع مشروح می باشد.
رتبه بندی صفحه موتور جستجوی وب معنایی
۳- ساختار داده ها برای وب
تکنیک وب کاوی سبب ارائه اطلاعات بیشتری از طریق ابرلینک ها می شود که در آنها مستندات مختلفی را می توان با استفاده از چنین لینک هایی به هم متصل نمود. وب را می توان به عنوان یک گراف برچسب دار جهت دار در نظر گرفت که گره های آن به عنوان صفحات وبی ابرلینک شده تلقی گردیده و یال های آن ابرلینک های بین آنها هستند. این ساختار گرافی جهت دار در وب تحت عنوان “گراف وبی” خوانده می شود. یک گراف G متشکل از دو مجموعه V و E می باشد و به علاوه می توان آنها را به صورت G = (V, E) بیان داشت. مجموعه V به عنوان یک مجموعه محدود غیرخالی از رأس ها تلقی می شود و مجموعه E را می توان به عنوان مجموع غیرخالی یا غیرتهی از یال ها تصور کرد. این ایده V(G) و E(G) معرف مجموعه ای از رأس ها و یال ها مرتبط با گراف G می باشند. وب که در این گراف جهت دار ارائه شده است از ویژگی متمایزی برخوردار است که در آن هر یال به وسیله یک جفت جهت دار (u, v) در امتداد یک مسیر خاص مشخص می شود. بنابراین، (v, u) و (u, v) معرف دو یال مختلف هستند. گراف موجود در شکل ۲ یک گراف جهت دار با سه رأس و شش یال می باشد.
رتبه بندی صفحه موتور جستجوی وب معنایی
۴- پیاده سازی و نتایج شبیه سازی
ماتریس تجزیه
با توجه به آنکه بزرگی گراف وب کاملاً زیاد می باشد، تکنیک های کارآمد مختلفی سعی در محاسبه رتبه آن نموده اند. ماتریس های تجزیه یکی از آنها تلقی می شود. در صورتی که غالب ورودی های یک ماتریس صفر تلقی شود، بنابراین این ماتریس به عنوان ماتریس تجزیه خوانده می شود. فرمت های مختلفی برای چنین موردی وجود دارند. ما بر روی مورد ذیل تمرکز می نماییم.
COO: لیست مختصات. COO اقدام به ذخیره سازی یک لیست چندتایی ها (ردیف، ستون، مقدار) می نماید.
رتبه بندی صفحه موتور جستجوی وب معنایی
۵- نتیجه گیری
در این مقاله، یکسری از صفحات وبی با توجه به رتبه آنها در نظر گرفته شده است. رتبه صفحات به عنوان یک رتبه بندی کلی برای تمامی صفحات وبی بر حسب لینک های ورودی و خروجی آنها تعیین می شود. با استفاده از رویکرد رتبه بندی ترکیبی صفحات، قابلیت منظم سازی نتایج جستجو به وجود می آید به گونه ای که صفحات مهمتر وبی در ردیف های بالاتر نشان داده شود. در این آزمایشات، این فرآیند به نظر قابلیت ارائه کیفیت بالاتر نتایج جستجو برای کاربران را خواهد داشت. به علاوه، بک لینک ها از صفحات مهم از اهمیت بیشتری در مقایسه با بک لینک های حاصله از صفحات دارای اهمیت متوسط برخوردار بوده و به علاوه تعداد صفحات یافته شده و احتمال لیست شدن آنها در جستجو با استفاده از نتیجه های چنین موردی قابل توجه می باشد. علیرغم این نتایج حاصله بر حسب دقت، تلاش های متعاقبی را نیز می بایست جهت کنترل پیش بینی آتی در زمینه کاربرد صفحات وبی و مقیاس پذیری آنها با در نظرگیری وب معنایی در نظر گرفت.