فایل ورد کامل مقاله موتورهای جستجوگر؛ بررسی علمی الگوریتمها، ساختار و نقش آنها در دسترسی به اطلاعات دیجیتال
توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد
فایل ورد کامل مقاله موتورهای جستجوگر؛ بررسی علمی الگوریتمها، ساختار و نقش آنها در دسترسی به اطلاعات دیجیتال دارای ۴۲ صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است
فایل ورد فایل ورد کامل مقاله موتورهای جستجوگر؛ بررسی علمی الگوریتمها، ساختار و نقش آنها در دسترسی به اطلاعات دیجیتال کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد.
توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی فایل ورد کامل مقاله موتورهای جستجوگر؛ بررسی علمی الگوریتمها، ساختار و نقش آنها در دسترسی به اطلاعات دیجیتال،به هیچ وجه بهم ریختگی وجود ندارد
بخشی از متن فایل ورد کامل مقاله موتورهای جستجوگر؛ بررسی علمی الگوریتمها، ساختار و نقش آنها در دسترسی به اطلاعات دیجیتال :
مقدمه:
موتور جستجو چیست؟ موتور جستجوگر و اهمیت آن
دنیای وب منبع عظیمی از اطلاعات است که روزبهروز برحجم آن افزوده میشود. در حال حاضر میلیاردها صفحه که اطلاعات فراوانی از موضوعات مختلف را در بر دارند، بر روی سرورهای مختلف جا خوش کرده اند. این در حالیست که تولد سایتهای جدید و گسترش سایتهای موجود نیز به طور فزاینده ای به این حجم اطلاعات می افزاید.
نرخ رشد اطلاعات تا بدانجاست که امروزه مشکل دسترسی به اطلاعات جدی تر از نبود اطلاعات است. امروزه چالش عمده اکثر کاربران دستیابی به اطلاعات است. به عبارت دیگر اگر کاربری دنبال موضوعی خاص باشد، کدام صفحه را باید بخواند؟ از میان این تعداد عظیم صفحات موجود، کدام صفحه نیاز او را برآورده می کند؟
اگر سایتی باشد که به کاربران در یافتن اطلاعات کمک کند، قطعا مورد توجه خواهد بود. خوشبختانه چنین سایتی وجود دارد و ما آنرا با نام موتور جستجوگر می شناسیم.
موتور جستجوگر سایتی است که برای کمک به کاربران در یافتن اطلاعات موجود در سایتهای دیگر طراحی شده است. موتور جستجوگر سایتی است که با گرفتن عبارتی مختصر، کاربر را با لیستی از سایت ها روبرو میکند که به موضوع مورد علاقه او مرتبط میباشند.
آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز میکنند و مراجعه به موتورهای جستجوگر چنان عادی شده است که جستجو کردن و کار با موتورهای جستجوگر، دومین فعالیت عمده کاربران در دنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی)، محسوب می شود.
هر چه بر محبوبیت وب افزوده می گردد، نیاز به بایگانی کردن اطلاعات آن نیز بیشتر میشود؛ موتور جستجوگر نیز در واقع این اطلاعات را بایگانی کرده، در زمان مورد نیاز و به سرعت در اختیار کاربران قرار میدهد.
بدون موتور جستجوگر، وب تنها به بخش کوچکی از موفقیت امروزین خود دست مییافت زیرا موتور جستجوگر، اینترنت را به رسانهای قابل استفاده برای همه کرده است (از هیچ کس توقع نمیرود تعداد زیادی از آدرس های وب را به یاد داشته باشد).
آن چه که موتورهای جستجوگر انجام می دهند- با درجات متفاوتی از موفقیت- فراهم کردن یک وسیله جستجوی ساده است. وقتی یک کاربر وب عبارتی را جستجو میکند، موتور جستجوگر لیستی از سایت ها را ارائه میکند که تعداد آنها از چند صد مورد تا چند میلیون متغیر میباشد.
سایت هایی که موتور جستجوگر به عنوان نتایج جستجویش ارایه میکند، بر حسب میزان ارتباط با عبارت جستجو شده به ترتیب نزولی لیست میشوند. به عبارت دیگر سایتی که به عنوان اولین سایت در نتایج جستجو معرفی شده است، مرتبط ترین سایت با عبارت جستجو شده از دید آن موتور جستجوگر بوده است.
دقت در ارایه نتایج جستجو چیزیست که کاربران وب همواره از موتورهای جستجوگر می خواهند. هر چه نتایج جستجوی یک موتور جستجوگر دقیق تر و مرتبط تر باشد، محبوب تر خواهد بود و کاربران بیشتری بدان مراجعه خواهند کرد.
اگر عبارت یکسانی در تمام موتورهای جستجوگر، جستجو شود هیچ کدام از آنها نتایج یکسانی را ارائه نمیدهند و با نتایج کاملا متفاوتی روبرو میشویم. تفاوت در ارائه نتایج جستجو در موتورهای جستجوگر از تفاوت آنها در الگوریتم (سیستم رتبه بندی) و بایگانی دادهشان ناشی میشود.
حتی اگر همه آنها از بایگانی داده یکسانی نیز استفاده کنند، بازهم نتایج جستجویشان متفاوت خواهد بود. موتور جستجوگر برای ردهبندی صفحات وب از الگوریتم خاصی استفاده میکند که فوقالعاده محرمانه میباشد. الگوریتم نیز مجموعه ای از دستورالعمل ها است که موتور جستجوگر به کمک آن تصمیم میگیرد که سایت ها را چگونه در خروجیاش مرتب کند.
برای اینکه سایت ها با هم مقایسه شوند و بر حسب میزان ارتباط با موضوع جستجو شده، مرتب شوند، موتور جستجوگر، الگوریتم را بر مجموعهای از پارامترها اعمال میکند. پارامترهای مورد توجه موتور جستجوگر نیز همانند الگوریتم آن ها ناشناخته میباشد و این ناشناخته ها جذابیت دنیای موتورهای جستجوگر را دوچندان میکنند.
به اهمیت موتورهای جستجوگر از دیدگاه کاربران وب و جستجوکنندگان اطلاعات اشاره شد. آیا موتورهای جستجوگر از دیدگاه تجاری و دیدگاه یک مدیر سایت نیز مهم می باشند؟
اهمیت تجاری موتورهای جستجوگر
فعالان عرصه تجارت الکترونیک، آوردن بیننده به سایت را برای موفقیت در دنیای وب و تجارت آنلاین ضروری می دانند. فرقی نمیکند که سایت چه میفروشد و چه خدماتی ارایه می دهد: اگر سایتی به دنبال فروش کالا یا خدمات و کسب درآمد یا محبوبیت است، باید بیننده داشته باشد.
تعداد بینندگان یک سایت، برگ برنده آن برای کسب موفقیت در دنیای وب میباشد. سایتی که بیننده ندارد، بدون شک مرگی آنلاین را تجربه میکند و چه بسیارند سایتهایی که هر روزه از چرخه زندگی در وب خارج می شوند!
مدیران و طراحان خبره وب به خوبی می دانند که فقط طراحی یک وب سایت تضمینی برای آمدن بیننده به آن نیست بلکه باید بینندگان را به طریقی به سایت جذب کرد. بینندگان تنها به دنبال رفع نیازهای اطلاعاتی خود می باشند و وظیفه ندارند به هر قیمتی که شده سایت شما را بیابند.
برای دعوت بینندگان به وب سایتتان چه تدابیری اندیشیده اید؟ چگونه دیگران بدانند که شما سایت پر محتوا و جذابی دارید؟ خود شما چگونه سایتهای دیگر را می یابید؟
بدون هیچ گونه تردیدی باید گفت که ما در اغلب موارد به کمک موتورهای جستجوگر به آنچه که می خواهیم، دست می یابیم.
اگر ما اینکار را انجام می دهیم، دیگران نیز دقیقا همین کار را می کنند: جستجوی چند عبارت در یکی از موتورهای جستجوگر و مراجعه به یکی از وب سایتها. ببینیم آمارها چه می گویند:
• ۸۲ درصد کاربران اینترنت، موتورهای جستجوگر را ابزار اصلی خود برای یافتن وب سایتها عنوان کرده اند.
• ۵۷ درصد از کاربران اینترنت، هر روز جستجو میکنند و ۴۶ درصد این جستجوها برای کالا یا خدمات است. (منبع: SRI )
• ۸۵ درصد ترافیک هدفمند در اینترنت را موتورهای جستجوگر باعث میشوند.
(منبع: ۷th www user survey-Georgia Institute of Technology)
نمودار زیر نشان می دهد که کاربران چگونه کالاهای مورد نیاز خود را می یابند:
همان گونه که آمارها نشان میدهند موتورهای جستجوگر ابزار مناسبی هستند که خریداران به کمک آنها، کالا یا خدمات مورد نیاز خود را مییابند. البته تنها ردههای بالای نتایج جستجو هستند که مورد توجه کاربران قرار می گیرند و آنها به سایتهای لیست شده در این رتبهها مراجعه می کنند.
بسیاری از کاربران دریافته اند که در اغلب موارد ۱۰ رتبه اول نتایج جستجو می تواند خواسته آنها را برآورده کند و هنوز هم علاقه دارند که تنها ۱۰ سایت اول در نتایج جستجو را مرور کنند. اما آمارها چه می گویند:
• ۷۰ درصد از کاربران به هنگام جستجو حتما یکی از سه سایت ابتدای نتایج جستجو را کلیک می کنند.
• تنها ۷ درصد از آنها سایتهای قرار گرفته در رتبه های بیستم به بعد را کلیک می کنند.
• ۸۵ درصد از آنها اگر جوابی برای جستجوی خود در بیست نتیجه اول نتایج جستجو نیابند، موتور جستجوگر مورد استفاده خود را عوض می کنند.
• ۳۳ درصد کاربران وب فکر می کنند سایتی که در ابتدای نتایج جستجو قرار دارد، در موضوع جستجو شده سرآمدتر از رقبای خود است و در آن موضوع پیشرو می باشد.
با دقت در این آمارها، اهمیت کسب رتبههای بالا در موتورهای جستجوگر روشن تر میشود. نکته مهم دیگر این است که بینندگانی که موتورهای جستجوگر روانه سایتها میکنند، به احتمال زیاد مخاطبان اصلی سایت مورد نظر میباشند و این در حالی است که هزینه چندانی نیز صرف آوردن آنان به سایت نشده است.
آمارهای ارایه شده از رفتار کاربران وب پیام بسیار واضحی دارد: سایتهایی که در رتبههای بالا قرار نمیگیرند، بخش مهمی از کاربران مخاطب خود را از دست می دهند.
یک سایت ممکن است هزاران بیننده داشته باشد اما تعداد بینندگان گروه مخاطب آن است که موفقیت سایت را رقم می زند. زیرا در اغلب موارد این بینندگان مخاطب سایت هستند که از سایت چیزی بیشتر از اطلاعات رایگان ارایه شده می خواهند.
امروزه تجارت الکترونیک خود را با مسئله رتبه بندی در موتورهای جستجوگر هماهنگ کرده است زیرا رتبه های بالاتر مستقیما به فروش بیشتر، تعبیر می شوند. طبق آمارهای ارایه شده در ابتدای سال جدید میلادی (۲۰۰۳) نزدیک به ۹۳ درصد بینندگان سایت های فعال در زمینه ارایه هدایای کریسمس را موتورهای جستجوگر فراهم کرده اند که در این بین گوگل با ۲۷ درصد در صدر ایستاده است و پس از آن یاهو با ۲۵ درصد در رده دوم قرار گرفته است.
شم بازاریابی حکم می کند که همواره در جایی حضور داشته باشیم که مشتری ما آنجاست. اگر ما آنجا نباشیم، رقیب ما آنجا خواهد بود. به عبارت دیگر کسیکه قرار است از ما خرید کند، از رقیب ما خرید می کند:
رقیب ما هر روز چاق تر و چاق تر می شود و ما نحیف و نحیف تر.
بازاریابی با موتورهای جستجوگر (Search Engine Marketing) نیز دو هدف عمده زیر را دنبال می کند:
۱ حضور در جاهایی که خریداران ما آنجا هستند.
۲ بالاتر بودن از رقبا ( کسب وضعیت بهتر نسبت به رقبا)
اینگونه از بازاریابی شامل فعالیتهای مختلفی می باشد که از مهمترین فعالیتهای آن، بهینه سازی سایت (Search Engine Optimization) می باشد. در حقیقت موتورهای جستجوگر از مهمترین بینندگان هر سایتی هستند. اگر سایت شما تنها برای مرورگرها، بهینه سازی شده است، کمی تامل کنید: سایت شما باید برای موتورهای جستجوگر هم بهینه سازی گردد. به عنوان مثال مرورگرها می توانند صفحات را با وجود بعضی از خطاها در کدهای آنها، به کاربران نمایش دهند اما موتورهای جستجوگر تا این حد مهربان نیستند. خوشبختانه توجه به موتورهای جستجوگر در طراحی سایت، آنرا برای کاربران سایت هم قابل استفاده تر می کند.
بهینه سازی سایت به معنای به کارگیری ترفندهای پیچیده نیست بلکه در اغلب موارد به کارگیری و اعمال تغییرات کوچک و ساده در سایت است که معمولا تاثیر فوق العاده ای در بالا بردن ضریب نفوذ سایت شما در موتورهای جستجوگر دارند.
ضریب نفوذ مناسب به معنای حضور در موتورهای جستجوگر مهم و عمده، بایگانی شدن هر چه بیشتر صفحات سایت در پایگاه داده آنها و قرار گرفتن در صفحه های اول تا پنجم نتایج جستجوی آنهاست.
متخصصین بسیاری در تلاشاند تا الگوریتم و پارامترهای مورد توجه موتورهای جستجوگر را شناسایی کنند تا بتوانند به کمک آنها به رتبههای بالاتری دست یابند و شانس خود را در کسب درآمد بیشتر، افزایش دهند.
البته به موازات آنها، موتورهای جستجوگر نیز روز به روز الگوریتم های خود را هوشمندتر کرده و بر اقدامات امنیتی برای حفاظت از الگوریتمهایشان میافزایند.
چیزی که امروزه این متخصصان با تاکید بر آنها قصد بهبودی رتبه های سایت های خود را دارند، تنها تجربه است و نه یافته های علمی ثابت شده از اسرار بسیار موتورهای جستجوگر.
خلاصه:
• موتور جستجوگر ابزاری است که کاربران اینترنت به کمک آنها سایت ها را می یابند.
• نتایج جستجوی تمام موتورهای جستجوگر دقیق نیست.
• بسیاری از کاربران دریافته اند که در اغلب موارد ۱۰ رتبه اول نتایج جستجوی موتورهای جستجوگر می تواند خواسته آنها را برآورده کند.
• راههای بسیاری برای دسترسی به سایتها وجود دارد اما موتورهای جستجوگر همواره راهکار اساسی بوده اند.
• تجارت الکترونیک به شدت خود را با مسئله رتبه بندی در موتورهای جستجوگر هماهنگ کرده است و همه سایت ها برای کسب رتبه های بالا تلاش می کنند.
• اجرای یک برنامه موفق بازاریابی با موتورهای جستجوگر، بدون یک ساختار و زیربنای مستحکم در خود سایت اصولا با شکست همراه می باشد.
خدمات و ابزار جستجو در وب: انواع موتورهای جستجوگر
موتورهای جستجوگر، با درجات متفاوتی از موفقیت، در واقع یک کار انجام می دهند: فراهم آوردن یک وسیله جستجوی ساده برای کمک به کاربران در رسیدن به اطلاعات مورد نیاز.
برای نیل به این مهم، موتورهای جستجوگر از اطلاعات موجود در پایگاه داده شان کمک می گیرند. اطلاعات این پایگاه داده نیز به روش های گوناگونی تامین می شود با توجه به نوع جمع آوری اطلاعات، خدمات جستجویی که در وب ارایه می شود به دو گروه اصلی زیر تقسیم بندی می گردد:
• Search Engine موتور جستجوگر
• Directory فهرست
تفاوت اصلی دو گروه اشاره شده در این است که اطلاعات پایگاه داده گروه اول را نرم افزارها جمع آوری می کنند حال آنکه این کار برای گروه دوم توسط انسانها انجام می شود.
الف- Search Engine یا موتور جستجوگر
در حالت کلی زمانی که صحبت از موتور جستجوگر می شود، مقصود، این نوع آن است. در این نوع از موتورهای جستجوگر، کار جمع آوری اطلاعات بر عهده اسپایدرها است. اسپایدر نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. پایگاه داده این نوع از موتورهای جستجوگر بزرگتر از سایر انواع است و اطلاعاتی را که آنها ارایه می دهند، معمولا” به روزتر می باشد.
عملیات به روز رسانی و گسترش اطلاعات پایگاه داده موتور جستجوگر از یک هفته تا چند ماه به طول می انجامد. اسپایدرها، هیچ گاه از کار نمی ایستند و به طور مداوم به جمع آوری اطلاعات مشغول هستند. ممکن است اطلاعات جمع آوری شده توسط اسپایدرها از صفحات جدید باشد و یا اطلاعات به روز شده از صفحاتی باشد که قبلا” هم به آنها مراجعه کرده اند.
زمانیکه صحبت از تکنیک های بهینه سازی سایت ها (SEO) به میان می آید در واقع تکنیک هایی مطرح اند که برای کار با این نوع از موتورهای جستجوگر مؤثرند. بعضی از این نوع موتورهای جستجوگر عبارتند از :
Google, Yahoo, MSN, AllTheWeb, Gigablast, WiseNut, Teoma
ب _ Directory یا فهرست
دایرکتوری ها اطلاعات را در گروه های مختلف دسته بندی می کنند. تفاوت اصلی دایرکتوری با یک موتور جستجوگر در این است که دایرکتوری اسپایدر ندارد. دارندگان سایت ها به دایرکتوری مراجعه می کنند، گروه مناسب برای سایت خود را در آن بر می گزینند و سایت خود را به آن گروه معرفی می کنند.
پس از آنکه اطلاعات سایت ها به گروه های مختلف ارسال شد، ویراستاران دایرکتوری آن اطلاعات را بررسی می کنند و در صورتی که گروه درخواست شده، با زمینه فعالیت سایت معرفی شده یکی باشد و همچنین سایر قوانین دایرکتوری نیز رعایت شده باشد، سایت را در گروه یاد شده می پذیرند.
در صورتی که کاربران استفاده درستی از گروه های دایرکتوری بنمایند می توانند اطلاعات مفیدی را به کمک آنها کسب کنند.
دایرکتوری از وجود یک سایت مطلع نمی گردد مگر زمانی که آن سایت به دایرکتوری معرفی شود. یکی از ایراداتی که به دایرکتوری ها وارد می شود این است که سایت های مرده زیادی در خود دارند. به عبارت دیگر یک سایت بعد از آنکه در یکی از گروه های آن قرار گرفته، دیگر به فعالیت خود ادامه نداده است اما با این حال هنوز هم دایرکتوری آنرا به عنوان یک سایت فعال به کاربران معرفی می کند.
البته دایرکتوری های حرفه ای با استخدام ویراستاران خبره تلاش بسیاری برای رفع این نقص و نواقص مشابه می نمایند. امکان دارد دایرکتوری ها برای بررسی این مورد از اسپایدرها هم کمک بگیرند. در این مورد خاص، کار اسپایدر این است که بررسی کند که آیا سایت هایی که قبلا” در گروه ها قرار گرفته اند، هنوز هم فعال می باشند؟ در مواردی هم امکان دارد که اسپایدرها تغییر زمینه فعالیت سایت ها و یا فعال بودن پیوندهای درون صفحات سایت ها را بررسی کنند.
قرار گرفتن در پایگاه داده دایرکتورهای عمده، نقش مهمی در کسب رتبه های بالا در موتورهای جستجوگر(نوع اول) دارد. دایرکتوری های عمده عبارتند از : Yahoo, Look Smart , Dmoz
بعضی از ارایه دهندگان خدمات جستجو در واقع تلفیقی از هر دو گروه می باشند به عنوان مثال یاهو هم اسپایدر دارد و هم ویراستار، گوگل نیز از فهرست Dmoz در بخش فهرست خود کمک گرفته است.
اما زیرگروههایی برای دو گروه اصلی خدمات جستجو وجود دارد که هم از دیدگاه کاربران وب و هم از دیدگاه مدیران سایتها حایز اهمیت می باشند. این خدمات جستجو عبارتند از:
• Meta Search Engineابر جستجوگر
• Pay Per Click Search Engineرتبه بازای پول
Meta Search Engine یا ابر جستجوگر
ابرجستجوگر از نتایج سایر موتورهای جستجوگر استفاده می کند. کار آن بدین صورت است که سوال کاربر را همزمان به موتورهای جستجوگر مختلفی ارسال می کند. پس از دریافت نتایج جستجوی آنها به بررسی نتایج دریافت شده می پردازد و در نهایت ترکیبی از رتبه های بالای آنها را طبق الگوریتم خود بعنوان نتایج جستجو به کاربر نشان می دهد. ابر جستجوگر اسپایدر و پایگاه داده ندارد. برخی از آنها عبارتند از:
Vivisimo, Mamma, IXQuick, WebCrawler, Kartoo, DogPile
Pay-per-Click Search engine یا موتورهای جستجوگر رتبه به ازای پول!
کار آنها بسیار شبیه یک مزایده است: با توجه به واژه کلیدی انتخابی، برای بالاترین رتبه، باید بالاترین قیمت نسبت به سایر متقاضیان پرداخت شود.
در واقع نحوه ارائه نتایج جستجو در PPC به این ترتیب است که اگر سایتی خواهان بالاترین رتبه (رده اول) در نتایج جستجوی آن می باشد، باید بالاترین رقم به ازای هرکلیک را نسبت به تمام رقبا بپردازد.
به عنوان مثال اگر سایتی مکان اول را برای عبارت Persian Carpet به قیمت ۱۰ ریال خریده باشد، هر بار که عبارت یاد شده جستجو گردد و بینندهای با دنبال کردن پیوند ارائه شده در نتایج جستجو به سایت مورد نظر برود، دارندگان آن سایت باید ۱۰ ریال به موتور جستجوگر بپردازند. اگر ۱۰۰۰ بیننده این کار را انجام دهند، آن گاه باید ۱۰۰۰×۱۰ ریال، پرداخته شود.
البته این گونه نیست که PPC فقط سایت هایی را لیست میکند که با آنها قرارداد تجاری بسته است. بلکه ابتدا کلیه سایت های طرف قرارداد خود را برای عبارات مورد نظر آن سایت ها لیست میکند و سپس سایت های دیگر را که معمولا از پایگاه داده سایر موتورهای جستجوگر است، لیست میکند. نمونه ای از روش ارایه نتایج جستجوی این نوع از موتورهای جستجوگر را در شکل زیر نشان داده شده است
به عبارت های sponsored listing و additional listing توجه نمایید نام “موتورهای جستجوگر پولکی” به این نوع از موتورهای جستجوگر داده می شود! در این مورد میتوان به Overture و Findwhat اشاره کرد.
فواید آنها:
۱ دارنده سایت تنها زمانی پول می پردازد که واقعا” بیننده ای به سایت او بیاید.
۲ سایت تقریبا” در عرض چند ساعت و یا حداکثر یک هفته در نتایج جستجو قرار می گیرد و دیگر نیازی به چندین ماه انتظار نیست تا در نتایج جستجوی سایر موتورهای جستجوگر قرار گیرد که آن هم معلوم نیست دارای چه رتبه ای خواهند بود.
۳ سایتی اگر بالاترین رتبه را می خواهد، کافی است که بالاترین قیمت را بپردازد و دیگر نیازی به کاربرد تکنیک های رایج برای کسب رتبه های بالا نیست.
۴ چون اینگونه سایتها معمولا به صورت شبکه ای از سایتها فعالیت می کنند، یک سایت با استفاده از سیستم آنها در نتایج جستجوی موتورهای جستجوگر دیگر که دارای شراکت تجاری با آنها هستند هم قرار می گیرد. به عنوان مثال اورچر، یاهو و آلتاویستا در یک شبکه هستند.
Specialty Search Engine یا موتورهای جستجوگر خاص
این نوع از موتورهای جستجوگر بر موضوعی خاص تمرکز دارند و تنها سایت های مرتبط با آن موضوع را در پایگاه داده خود قرار می دهند. به عنوان مثال یکی از آنها ممکن است تنها سایت های ایرانی را بپذیرد و موضوع فعالیتش سایت های ایرانی باشد.
این موتورهای جستجوگر اطلاعات تخصصیتری را ارائه میدهند زیرا معمولا توسط افراد متخصص در آن زمینه اداره می شوند. موتورهای جستجوگر منطقه ای و موضوعی به این دسته تعلق دارند. در این مورد می توان به مواردی نظیر: ChemicalSearch, IndustrySearch اشاره کرد..
انواع موتورهای جستجو
موتورهای جستجو به دو دسته کلی تقسیم میشوند. موتورهای جستجوی پیمایشی و فهرستهای تکمیلدستی. هر کدام از آنها برای تکمیل فهرست خود از روشهای متفاوتی استفاده میکنند :
موتورهای جستجوی پیمایشی
موتورهای جستجوی پیمایشی (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکیل میدهند. آنها وب را پیمایش کرده، اطلاعاتی را ذخیره میکنند، سپس کاربران از میان این اطلاعات ذخیره شده، آنچه را که میخواهند جستجو میکنند. اگر شما در صفحه وب خود تغییراتی را اعمال نمایید، موتورهای جستجوی پیمایشی آنها را به طور خودکار مییابند و سپس این تغییرات در فهرستها اعمال خواهد شد. عنوان، متن و دیگر عناصر صفحه، همگی در این فهرست قرار خواهند گرفت.
فهرستهای تکمیل دستی
فهرستهای تکمیلدستی یا (Human-Powered Directories) مانند فهرست بازی (Open Directory) مانند Dmoz وابسته به کاربرانی است که آن را تکمیل میکنند. شما صفحه مورد نظر را به همراه توضیحی کوتاه در فهرست ثبت میکنید یا این کار توسط ویراستارهایی که برای آن فهرست در نظر گرفته شده، انجام میشود. عمل جستجو در این حالت تنها بر روی توضیحات ثبت شده صورت میگیرد و در صورت تغییر روی صفحه وب، روی فهرست تغییری به وجود نخواهد آورد. چیزهایی که برای بهبود یک فهرستبندی در یک موتور جستجو مفید هستند، تأثیری بر بهبود فهرستبندی یک دایرکتوری ندارند. تنها استثناء این است که یک سایت خوب با پایگاه دادهای با محتوای خوب شانس بیشتری به نسبت یک سایت با پایگاه داده ضعیف دارد. البته در مورد جستجوگرهای مشهور از جمله گوگل و یاهو، یک مولفه دیگر هم برای بهبود فهرستبندی وجود دارد که کمک مالی است، یعنی وبگاههایی که مایل به بهبود مکان وبگاه خود در فهرستبندی هستند، میتوانند با پرداخت پول به این جستجوگرها به هدف خویش برسند.
موتورهای جستجوی ترکیبی با نتایج مختلط
به موتورهایی اطلاق میشود که هر دو حالت را در کنار هم نمایش میدهند. غالباً، یک موتور جستجوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دستههای فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار میدهد. مثلاً موتور جستجوی ام.اس.ان (MSN) بیشتر نتایج حاصل از فهرستهای تکمیلدستی را نشان میدهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.
بررسی یک موتور جستجوی پیمایشی
موتورهای جستجوی پیمایشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پیمایشگر (Crawler) هم نامیده میشود. پیمایشگر همین که به یک صفحه میرسد، آن را میخواند و سپس پیوندهای آن به صفحات دیگر را دنبال مینماید. این چیزیست که برای یک سایت پیمایششده (Crawled) اتفاق افتاده است. پیمایشگر با یک روال منظم، مثلاً یک یا دو بار در ماه به سایت مراجعه میکند تا تغییرات موجود در آن را بیابد. هر چیزی که پیمایشگر بیابد به عنصر دوم یک موتور جستجو یعنی فهرست انتقال پیدا میکند. فهرست اغلب به کاتالوگی بزرگ اطلاق میشود که شامل لیستی از آنچه است که پیمایشگر یافته است. مانند کتاب عظیمی که فهرستی را از آنچه که پیمایشگرها از صفحات وب یافتهاند، شامل شده است. هرگاه سایتی دچار تغییر شود، این فهرست نیز به روز خواهد شد. از زمانی که تغییری در صفحهای از سایت ایجاد شده تا هنگامی که آن تغییر در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشید. پس ممکن است که یک سایت پیمایششده باشد اما فهرستشده نباشد. تا زمانی که این فهرستبندی برای آن تغییر ثبت نشده باشد، نمیتوان انتظار داشت که در نتایج جستجو آن تغییر را ببینیم. نرمافزار موتور جستجو، سومین عنصر یک موتور جستجو است و به برنامهای اطلاق میشود که به صورت هوشمندانهای دادههای موجود در فهرست را دستهبندی کرده و آنها را بر اساس اهمیت طبقهبندی میکند تا نتیجه جستجو با کلمههای درخواست شده هر چه بیشتر منطبق و مربوط باشد.
رتبهبندی صفحات وب توسط موتورهای جستجو
وقتی شما از موتورهای جستجوی پیمایشی چیزی را برای جستجو درخواست مینمایید، تقریباً بلافاصله این جستجو از میان میلیونها صفحه صورت گرفته و مرتب میشود بطوریکه مربوطترین آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نماید. البته باید در نظر داشته باشید که موتورهای جستجو همواره نتایج درستی را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطی را هم در نتیجه جستجو دریافت میکنید و گاهی اوقات مجبور هستید که جستجوی دقیقتری را برای آنچه که میخواهید انجام دهید اما موتورهای جستجو کار حیرتانگیز دیگری نیز انجام میدهند. فرض کنید که شما به یک کتابدار مراجعه میکنید و از وی درباره «سفر» کتابی میخواهید. او برای این که جواب درستی به شما بدهد و کتاب مفیدی را به شما ارائه نماید با پرسیدن سؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحویل خواهد داد. موتورهای جستجو همچنین توانایی ندارند اما به نوعی آنها را شبیهسازی میکنند. پس موتورهای جستجوی پیمایشی چگونه به پاسخ مورد نظرتان از میان میلیونها صفحه وب میرسند؟ آنها یک مجموعه از قوانین را دارند که الگوریتم نامیده میشود. الگوریتمهای مورد نظر برای هر موتور جستجویی خاص و تقریباً سری هستند اما به هر حال از قوانین زیر پیروی میکنند:
مکان و بسامد
یکی از قوانین اصلی در الگوریتمهای رتبهبندی موقعیت و بسامد (تعداد تکرار) واژههایی است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) نامیده میشود. کتابدار مذکور را به خاطر میآورِد؟ لازم است که او کتابهای در رابطه با واژه «سفر» را طبق درخواست شما بیابد. او در وحله اول احساس میکند که شما به دنبال کتابهایی هستید که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقیقاً همان کار را انجام میدهند. آنها هم صفحاتی را برایتان فهرست میکنند که در برچسب عنوان (Title) موجود در کد زبان نشانهگذاری اَبَرمتنی (زنگام) (HTML) حاوی واژه «سفر» باشند. موتورهای جستجو همچنین به دنبال واژه مورد نظر در بالای صفحات و یا در آغاز بندها (پاراگرافها) هستند. آنها فرض میکنند که صفحاتی که حاوی آن واژه در بالای خود و یا در آغاز بندها و عناوین باشند به نتیجه مورد نظر شما مربوطتر هستند. بسامد عامل بزرگ و مهم دیگری است که موتورهای جستجو از طریق آن صفحات مربوط را شناسایی مینمایند. موتورهای جستجو صفحات را تجزیه کرده و با توجه به تکرار واژهای در صفحه متوجه میشوند که آن واژه نسبت به دیگر واژهها اهمیت بیشتری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات دیگر قرار میدهند.
چگونگی کارکرد دقیق موتورهای جستجو درباره روشهایی از قبیل مکان-تکرار فاش نمیشود و هر موتور جستجویی روش خود را دنبال میکند. به همین دلیل است که وقتی شما واژههای همانندی را در موتورهای متفاوت جستجو میکنید، به نتایج متفاوتی میرسید. برخی موتورهای جستجو نسبت به برخی دیگر صفحات بیشتری را فهرست کردهاند. نتیجه این خواهد شد که هیچ موتور جستجویی نتیجه جستجوی مشترکی با موتور دیگر نخواهد داشت و شما نتایج متفاوتی را از آنها دریافت میکنید. موتورهای جستجو همچنین ممکن است که برخی از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با هرزنامه (Spam) شدن سعی در گول زدن موتورهای جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پیش میگیرند و آن به این صورت است که با تکرار بیش از حد واژهها بطور عمدی کوشش در بر هم زدن تعادل و در نتیجه فریب موتورهای جستجو دارند. آنها سعی دارند که با افزایش عامل تکرار، در رتبه بالاتری قرار بگیرند. موتورهای جستجو راههای متنوعی برای جلوگیری از فرستادن هرزنامه دارند و در این راه از گزارشهای کاربران خود نیز بهره میبرند.
عوامل خارج از صفحه
موتورهای جستجوی پیمایشی اکنون تجربه فراوانی در رابطه با وبدارهایی دارند که صفحات خود را برای کسب رتبه بهتر مرتباً بازنویسی میکنند. بعضی از وبدارها (وبمسترها)ی خبره حتی ممکن است به سمت روشهایی مانند مهندسی معکوس برای کشف چگونگی روشهای مکان-تکرار بروند. به همین دلیل، تمامی موتورهای جستجوی معروف از روشهای امتیازبندی «خارج از صفحه» استفاده میکنند. عوامل خارج از صفحه عواملی هستند که از تیررس وبدارها خارجند و آنها نمیتوانند در آن دخالت کنند و مسأله مهم در آن تحلیل ارتباطات و پیوندهاست. به وسیله تجزیه صفحات، موتورهای جستجو پیوندها را بررسی کرده و از محبوبیت آنها میفهمند که آن صفحات مهم بوده و شایسته ترفیع رتبه هستند. به علاوه تکنیکهای پیشرفته به گونهای است که از ایجاد پیوندهای مصنوعی توسط وبدارها برای فریب موتورهای جستجو جلوگیری مینماید. علاوه بر آن موتورهای جستجو بررسی میکنند که کدام صفحه توسط یک کاربر که واژهای را جستجو کرده انتخاب میشود و سپس با توجه به تعداد انتخابها، رتبه صفحه مورد نظر را تعیین کرده و مقام آن را در نتیجه جستجو جابهجا مینمایند.
موتور جستجوگر چگونه کار می کند؟
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا” پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه امکان دارد گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
نه گوگل و نه هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به کاربران، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه در وب!
موتور جستجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا” جمع آوری، تجزیه و تحلیل می کند و آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد.
بخش های مجزای یک موتور جستجوگر عبارتند از:
• Spider یا عنکبوت
• Crawler یا خزنده
• Indexer یا بایگانی کننده
• Database یا پایگاه داده
• Ranker یا سیستم رتبه بندی
الف Spider- (عنکبوت)
اسپایدر یا روبوت (Robot)، نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد.
کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.
Index.html صفحه ای است که کاربران آنرا به صورت شکل (۱) می بینند:
اما یک اسپایدر آنرا چگونه می بیند؟
برای این که شما هم بتوانید دنیای وب را از دیدگاه یک اسپایدر ببینید، کافی است که کدهای HTML صفحات را مشاهده کنید. برای این کار در مرورگر مورد استفاده خود، مسیر نشان داده شده در شکل (۲) دنبال کنید.
با انجام این کار فایل متنی شکل (۳) به شما نشان داده می شود:
آیا این دنیای متنی برای شما جذاب است؟
اسپایدر، به هنگام مشاهده صفحات، از خود بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آنرا داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده اند.
یکی از فعالیتهای اصلی که در SEM انجام می شود تحلیل آمار همین دید و بازدیدها می باشد.
اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس پست الکترونیکی (Email) می گردند.
ب- Crawler (خزنده
کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.
کراولر، ممکن است قبلا” برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده اش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی از صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود که در مقالات دیگر سایت به آن پرداخته شده است. به عمل کراولر ، خزش (Crawling) می گویند.
ج- Indexer (بایگانی کننده
تمام اطلاعات جمع آورش شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، کلمات چندبار تکرار شده است، کلمات در کجای صفحه قرار دارند و ; .
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند.
در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و ; . از این گونه کلمات هستند.
د – DataBase (پایگاه داده)
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی ُُاز پایگاه داده را اشغال کنند.
یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
در شکل (۴) حجم پایگاه داده چند موتور جستجوگر با هم مقایسه شده است.
شکل ۴- مقایسه حجم پایگاه داده چند موتور جستجوگر در دسامبر ۲۰۰۱
GG= Google, AV= Altavista, Fast= AllTheWeb
INK= Inktomi, NL= NorthernLight
منبع: www.searchenginewatch.com
و- Ranker (سیستم رتبه بندی بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پــاسخ می مانند.
برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد.
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد.
سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد. حرفه ای های دنیای SEM به طور خلاصه از آن به Algo ( الگوریتم) یاد می کنند.
الگوریتم، مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.
ُمی توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد:
• کراولر
• بایگانی
• سیستم رتبه بندی
تذکر- برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود.
برای آنکه تصور درستی از نحوه کار یک موتور جستجوگر داشته باشید داستان نامتعارف زیر را با هم بررسی می کنیم.
داستان ما یک شکارچی دارد. او تصمیم به شکار می گیرد:
– کار کراولر:
او قصد دارد برای شکار به منطقه حفاظت شده ابیورد، واقع در شهرستان درگز (شمالی ترین شهر خراسان بزرگ) برود.
– پروتکل Robots :
ابتدا تمام محدودیت های موجود برای شکار در این منطقه را بررسی می کند:
• آیا در این منطقه می توان به شکار پرداخت؟
• کدام حیوانات را می توان شکار کرد؟
• حداکثر تعداد شکار چه میزانی است؟
• و ; .
فرض می کنیم او مجوز شکار یک اوریال (نوعی آهو) را از شکاربانی منطقه دریافت می کند.
– کار اسپایدر
او اوریالی رعنا را شکار می کند و سپس آنرا با خود به منزل می برد.
– کار ایندکسر
شکار را تکه تکه کرده، گوشت، استخوان، دل و قلوه، کله پاچه و ; آنرا بسته بندی می کند و بخش های زاید شکار را دور می ریزد.
– کار پایگاه داده
بسته های حاصل را درون فریزر قرار داده، ذخیره می کند.
– کار سیستم رتبه بندی
مهمانان سراغ او می آیند و همسر او بسته به ذائقه مهمانان برای آنها غذا طبخ می کند. ممکن است عده ای کله پاچه، عده ای آبگوشت، عده ای جگر و ; دوست داشته باشند. پخت غذا طبق سلیقه مهمانان کار سختی است. ممکن است همه آنها آبگوشت بخواهند اما آنها مسلما” بامزه ترین آبگوشت را می خواهند!
نکته ها:
• شکارچی می توانست برای شکار کبک یا اوریال و یا هر دو به آن منطقه برود همانطور که موتور جستجوگر می تواند از سرور سایت شما انواع فایل (عکس، فایل متنی، فایل اجرایی و 😉 درخواست کند.
• غذای خوشمزه را می توانید با نتایج جستجوی دقیق و مرتبط مقایسه کنید. اگر شکارچی بهترین شکار را با خود به منزل ببرد اما غذایی خوشمزه و مطابق سلیقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
• به عنوان آخرین نکته این مقاله یاد آوری می کنم که به شکار اوریالی رعنا آن هم در منطقه حفاظت شده ابیورد، اصلا فکر نکنید. اما توصیه می شود که حتما از طبیعت بکر آن دیدن فرمایید .
- لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
- همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
- ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
- در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
یزد دانلود |
دانلود فایل علمی 