X بستن تبلیغات
X بستن تبلیغات
header
متن مورد نظر

نگاهی به موتورهای جستجو

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

موتورهای جست و جو وب، تاریخچه مختصری دارند، به طوری که عمر آن ها کمتر از یک دهه است. تاریخچه موتورهای جست و جو در این بخش بررسی می کنیم.قبل از این که موتورهای جست و جو به وجود آیند ، آشفتگی حاصی در وب وجود داشت. برای یافتن چیزی در اینترنت می بایست آدرس دقیق آن مشخص بود. با ایجاد گوفر آشفتگی تا حدی بر طرف شد و محتویات اینترنت سازمان یافته شد. گوفر در دانشگاه ماینسو تا ایجاد شد. گوفر بر اسسا HTML طراحی نشده بود و استفاده از عناوین فایل با توصیف های جزئی در آن موسوم بود. اما اگر طریقه استفاده از گوفر را بدانید به راحتی می توانید فایل ها را از اینترنت بردارید. گوفر در دهه ۱۹۸۰ در دانشگاه ماینسوتا به وجود آمده تا مشکلات کامپیوتری آن را حل کند. در این دانشگاه دپارتمامن های زیادی با فایل های متعددی وجود داشت که افراد زیادی می خواستند به آنها دسترسی داشته باشند. لازم بود این اطلاعات به راحتی در هر دپارتمان قابل دسترسی باشند. دانشگاه ماینوستا گوفر را به عنوان نرم افزاری تعریف کرد که از قرار داد TCP/IP در شبکه بندی استفاده کرده است. سایت گوفر حاوی منویی است که از طریق آن می توان به اطلاعات مورد نظر دست یافت.


نگاهی به موتورهای جستجو

تاریخچه موتورهای جستجو

موتورهای جست و جو وب، تاریخچه مختصری دارند، به طوری که عمر آن ها کمتر از یک دهه است. تاریخچه موتورهای جست و جو در این بخش بررسی می کنیم.

قبل از این که موتورهای جست و جو به وجود آیند ، آشفتگی حاصی در وب وجود داشت. برای یافتن چیزی در اینترنت می بایست آدرس دقیق آن مشخص بود. با ایجاد گوفر آشفتگی تا حدی بر طرف شد و محتویات اینترنت سازمان یافته شد. گوفر در دانشگاه ماینسو تا ایجاد شد. گوفر بر اسسا HTML   طراحی نشده بود و استفاده از عناوین فایل با توصیف های جزئی در آن موسوم بود. اما اگر طریقه استفاده از گوفر را بدانید به راحتی می توانید فایل ها را از اینترنت بردارید. گوفر در دهه ۱۹۸۰ در دانشگاه ماینسوتا به وجود آمده تا مشکلات کامپیوتری آن را حل کند. در این دانشگاه دپارتمامن های زیادی با فایل های متعددی وجود داشت که افراد زیادی می خواستند به آنها دسترسی داشته باشند. لازم بود این اطلاعات به راحتی در هر دپارتمان قابل دسترسی باشند. دانشگاه ماینوستا گوفر را به عنوان نرم افزاری تعریف کرد که از قرار داد TCP/IP   در شبکه بندی استفاده کرده است. سایت گوفر حاوی منویی است که از طریق آن می توان به اطلاعات مورد نظر دست یافت.

توسعه سریع وب جهانی گوفر را از دور خارج کرد. در وب جهانی می توان ابر پیوندها را دنبال کرد. متن ها را جست و جو نمود، از مرورگرهای گرافیکی استفاده کرد، و بسیاری از تکنیک های محاوریه ای را به کاربرد و موتورهای جست و جوی وب را ایجاد نمود.

اولین موتور جستجو موفق، WebCrawler   بود که در دانشگاه واشیتگتون طراحی و ساخته شد و در سال ۱۹۹۴ به کار گرفته شد. در مدت یک سال، سه رقیب برای آن پیدا شدند: Lycos, infoseek   و open text   در اواخر ۱۹۹۵ موتورهای جستجوی Alta vista, excite   بوجود آمدند. جالب است که بدانید اغلب فناوری های جست و جو که امروزه توسط جست و جو کنندگان مورد استفاده قرار می گیرند با درجات مختلفی در این موتورهای جستجوی موجوددر خدمات online   مثل Dialog   و lexisnexis   را ندارند. علاوه بر این نه موتورهای جستجو و نه امکاناتی مثل دایر کتوری های وب از نظریه دسته بندی موضوعی جامعه و شیوه های کاری نوین استفاده نمی کنند. این نکات از نظر عملی مطرح اند، به طوری که جست و جوگر جدی باید تشخیص دهد که اغلب موتورهای جست و جو برای جست و جو گرهای مبتندی طراحی شدند، نه برای کسنی که مایل هستند از روشها و تکنیک های پیشرفته تری استفاده کنند.

موتور جست و جوی hot Bot   در سال ۱۹۹۶ و موتور جستو جوی Northern light   در سال ۱۹۹۷ به وجودآمد. Hot bot    دارای واسط پیشرفته با کاربردی ساده بود که به بانک اطلاعاتی بزرگی وصل بود ( در اواخر سال ۱۹۹۷ ، بزرگترین بانک اطلاعاتی بود).

Notrhern light   جستجوی وب را با جست و جوی اطلاعاتی خصوصی ترکیب کرده است . Google   در سال ۱۹۹۸ به وجود آمد و دو ویژگی مهم آن یعنی واسط بسیار ساده وچیدن رکوردها بر اساس محبوبیت باعث شده است که به سرعت بین جست و جو گرهای مبتدی و حرفه ای ( یا موردی و دائمی) محبوبیت پیدا کند. به هر حال مسابقه برای تولید بزرگترین موتور جستجو تا حدی فروکش کرد تا این که در سال ۱۹۹۹ موتور جستجو fast search   به وجود آمد و بانک اطلاعاتی آن ۲۰۰ میلیون رکورد داشت. این عامل به همراه سایر عوامل رقابتی منجر به مسابقه و انگیزه دیگری شده است و به این ترتیب در ژوئن ۲۰۰ چهار موتور جستجو از بانک اطلاعاتی ۲۰۰ میلیون رکوردی استفاده کردند.

از بین موتورهای جست و جوی اولیه open text   اولین موتوری بود که از بین رفت. از اوایل ۱۹۹۸ تا کنون دگیر موجود نیست. به نظر می رسد در دو یا سه سال آینده موتورهای جستجوی بیشتری از بین بروند و موتور جستجو جیدید به وجود آیند. موتور جستجوی موجود نیز تغییر می کنند، گرچه بسیاری از این ها به صورت کم یا زیاد به عنوان بخشی از ماهیت دروازه ای خدمات هستند نه بخش اصلی جنبه جست و جو. امیدواریم تولید کنندگان این ابزارها دائما به فکر پیشرفت امکانات جستجو باشند و به نظر می رسد که جنبه های رقابتی این قضیه ادامه دارد.

شرکت های تولید کنننده موتور جستجو همانند سایر بخشهای تجارت مستعد رشد هستند و سال های ۱۹۹۶ و ۱۹۹۷ موتور دارای نسخه پیشرفته ای بود.، صرف نظر از این که آیا نسخه پیشرفته واقعا پیشرفته بود یا همانند سایر چیزهایی بود که نمی توانست در صفحه اول گنجانده شود.

در سال ۱۹۹۸ دروازه و شخصی سازی در وب شدت یافت. دروازه وب به صورت ایستگاه های هواشناسی، گروه های خبری، ردیابی اوراق بهادار، تقویم های شخصی و غیره در صفحه اول ظاهر شدند. به این ترتیب، همه چیز در صفحه اصلی وب در دسترس است.

در سال های ۱۹۹۹ و ۲۰۰۰ مفهوم دروازه قوت بیشتری پیدا کرد. ابزارهایی که به دروازه های اولیه اضافه شدند (مثل دایرکتوری ها و غیره)، در صفحه اول قرار گرفتند تا افراد از آن ها استفاده کنند. در سال ۱۹۹۹ به این صورت عمل شد که محتویات این ابزارها به طور خود کار در صفحات نتیجه (صفحاتی که در اثر جست و جو پیدا شدند)، ظاهر شدند. یعنی همزمان بانک اطلاعاتی موتور جست و جو مورد جستجو به طور منظم به نمایش در می آیند. این نوع ترکیب منابع، کیفیت نتایج جست و جو را بهبود داد، به طوری که خروجی ها به طور پیوسته به جست و جوگر نشان داده می شود و نیاز به اجرای جست و جوی جداگانه در ابزارهای مختلف نیست. توجه کنید که جست و جو فقط یک شاخص وب نیست بلکه جست  وجوی دارکتوری یک شرکت، جست و جو دایرکتوری و غیره است.

مرحله بعدی به کاربران موتور جست و جو مربوط می شود ابزارهایی که مورد توجه کاربر قرار می گیرند نگهکداری شده بهبود می یابند کپی کپی می شوند و از نظر آن ها ارزشمند هستند. مسئله این است که کسی که این کتاب را مطالعه می کند و کسی که به ویژگی ها ابزارهای معرفی شده در این کتاب میاز دارد یک کاربر عادی موتور جست و جو نیست. کاربر عادی به ویژگی ها یپیشرفته و مربوط به پژوهش توجهی ندارد. اگر به جست و جو های عادی توجه کنید درجه درستی این مطلب مشخص می شود.lycos   لیستی از جست جو های محبوب را آماده می کند. در یک هفته آزمایشی، ۵۰ جستجوی بهتر، حاوی ۴۶ جستجو در مورد سرگرمی، ورزش ها یا بازی ها بوده است. معنایش این است که اغلب جستجوهایی که در وب انجام میگیرند اهداف پژوهشی ندارند. اما خوشبختانه تعداد کل افرادی که از اینترنت استفاده می کنند در حا لاف است و افرادی که از موتور جستجو برای اهداف حرفه ای مثل سرمایه گذاری و کسب اطلاعاتی راجع به علوم، بشریت تجارت و پزشکی استفاده می کنند به سرعت در حال افزایش است به همین دلیل موتورهای جست و جو باید توجه بیشتری به این موضوعات داشته باشند.

 

ساختار موتورهای جستجو

پرداختن به جزئیات موتور جستجو تا حدی ضروری است هر چند که بدون پرد اختن به جزئیات نیز می توان از آنها استفاده کرد. به عنوان مثال راننده اتومبیل بدون اطلاعات از عملکرد موتور اتومبیل می تواند از آن استفاده کند، اما بهتر است همین راننده چگونگی تست سطح روغن وسوخت را بداند. به همین دلیل پژوهشگران باید مطالب بیشتری در مورد موتور جست و جو داشته باشند تا کارایی جست وجوی خود را بهبود بخشند. برای این کار باید با ساختار موتور جستجو تا حدی آشنا باشد.


۲۱۵

ابزارهای مافوق جست و جو

با توجه به این که هشت موتور جستجوی عمده وجود دارد، جالب است وسیله وجود داشته باشد که تعدادی از آنها را به طور همزمان جست و جو کند. این ایده بسیار خوب است. خوشبختانه این کار امکان پذیر است و می توان چندین موتور جستجو را به طور همزمان جست و جو نود.

برای جست و جو چندین موتور جستجو به طور همزمان دو روش وجود دارد. یکی از آنها سایت های ماوفوق جست و جو است که به طور رایگان در وب وجوددارند. روش دیگر استفاده از برنامه مافوق جست و جو مشتری است این بنرامه در کامپیوترتان قرار می گیرد و به جستجو رایگان بوده استفاده از آن ها آسان است، اما ضعف آن ها در کامل کردن کار است.برنامه های سمت مشتری کار را به خوبی انجام می دهند، ولی برنامه باید اینترنت از اینترنت برداشته شود و برای دریافت نتیجه نیاز به چندین مرحله است. نمونه هایی از هر روش را بررسی خواهیم کرد.

سایت های مافوق جست و جو

امتیاز این وب سایت های رایگان، سهولت استفاده از آن ها است و نیاز به برداشتن برنامه ای از اینترنت نیست، ولی معایب مهمی دارند.

عیب آن ها را بامثالی شرح می دهیم. در جدول ۱-۱۱ واژه Hilgreave   در چند موتور جست و جو، و سپس در چند موتور مافوق جست و جو شده است.اگر این جدول را بررسی کنید، می توانید به دو یا سه نتیجه مهم برسید که هنگام جست و جو در آن موتورها باید در نظر داشته باشید.

جدول ۱-۱۱

اگر بیش از نیمی از سایت های مرتبط باید درموتورهای جست و جو پیدا شوند موتورهای مافوق جست و جو اغلب آن ها را پیدا نمی کنند. این کار به عوامل زیادی بستگی دارد،مثل: محدودیت هایی که خدمات جست و جو به تعداد رکودهای بازیابی شده از هر موتور جست و جو اعمال می کند، مهلت زمانی که خدمات جست و جو برای جست و جو در یک موتور در نظر می گیرد، شکست در ترجمه تقاضا به نحو خاصی که مورد نیاز موتور جست و جو است و عوامل دیگر. خوشبختانه، بعضی از موتورهای مافوق جست و جو تمام رکورد هایی را بر می گردانند که واقعا و جود دارند.

سه ضعف عمده موتورهای مافوق جست و جو عبارت اند از:

<!–[if !supportLists]–>1- <!–[endif]–> معمولا تعداد رکوردهایی را که باید از یک موتور جست و جو بازیابی شوند محدود می کند (گاهی کمتر از ۱۰ رکورد).

<!–[if !supportLists]–>2-   <!–[endif]–> معمولا تقاضا های پیچیده تر را به موتورهای جست و جو منتقل نمی کنند.

<!–[if !supportLists]–>3-   <!–[endif]–> در بسیاری از موارد، بیش از ۲ تا ۳ موتور جست و جو را جست و جو نمی کنند.

ایجاد یکی از این سایت ها دشوار نیست. طبقه های Yahoo!   برای این موتورها، بیش از ۱۰۰ عدد را نشان می دهد. بعضی از آنها مجموعه از کادر های جست و جو هستند که از موتورهای جست و جوی دیگر کپی شده اند. بعضی از آنها نیز طوری هستند که یک یا دو ضعف فوق را بر طرف می سازند.

موتورهای مافوق جست و جو در موارد زیر با یکدیگر فرق می کنند:

<!–[if !supportLists]–>o       <!–[endif]–> موتورهای جست و جوی ویژه ای که تحت پوشش قرار می دهند.

<!–[if !supportLists]–>o       <!–[endif]–> تعداد موتورهای جست و جویی که در هر زمان می توانند جست و جو کنند.

<!–[if !supportLists]–>o   <!–[endif]–> توانایی آنها در انتقال تقاضاهای پیجیده تر به موتور جست و جو، مثل آنهایی که شامل عبارات، دستورات بولی و غیره هستند.

<!–[if !supportLists]–>o   <!–[endif]–> محدودیت آنها در تعداد رکوردهایی که باید از هر موتور جست و جو بازیابی شود (می تواند کمتر از ۱۰ رکورد باشد)

<!–[if !supportLists]–>o       <!–[endif]–> مدت زمانی که برای جست و جو در هر موتور جست و جو تخصیص می یابد.

<!–[if !supportLists]–>o   <!–[endif]–> چگونگی نمایش خروجی و این که آیا رکوردهای تکراری ناشی از موتورهای مختلف را حذف می کنند یا خیر.

موتورهای مافوق جست و جو معمولا وقتی مفید و مؤثر هستند که دنبال اطلاعات قدیمی می گردید و فکر می کنید که تعداد آنها خیلی کم است.رکوردهای زیادی وجود دارند که در بعضی از موتورهای جست و جوی کوچکتر پیدا می شوند ولی از طریق سه یا چهار موتور جست و جوی بزرگتر پیدا نمی شوند و در نتیجه، جست و جوی آن ها وقت را به هدر می دهد. موتورهای مافوق جست و جو به شما اجازه می دهند سریعا چندین موتور جست و جو را بررسی کنید و واژه ها یا عباراتی را بیابید.

نمی توان تمام موتورهیا مافوق جست و جو را در این جا بررسی کرد، بلکه پنج موتور مافوق جست و جو معروف را بررسی خواهیم کرد. این پنج موتور مافوق جست و جو، قابلیت های فراوانی دارند و عبارات اند از:

Dogpile:www.dogpile.com

Ixquick:ixquick.com

Metacrawler:www.metacrawler.com

Profusion:www.profusion.com

Search.com:search  

برای مشاهده لیست گسترده ای از سایت های مافوق جست و جو، مسیر زیر را در yahoo!   ببینید:

Computers and Internet>Internet>Worldwideweb>searching the web>search Engines and Directories>ALI-in-one search pages

در ادامه چند موتور مافوق جست و جو را شرح می دهیم تاهنگام استفاده از آنها، از ویژگی های مفیدیبهره ببرید.منظور از\”More engines covered  \”این است که چه تعدادی از ۹ موتور جست و جو با بیش از۲۰۰ میلیون رکود، توسط موتور مافوق جست و جو، جست وجو می شود.total engines/directories searched   تعداد کل موتور جستجو یا دایرکتوری های وب را مشخص می کند که جست و جو شده اند. Boolean option   مشخص می کند آیا کاربرد می تواند از هر موتور جستجو چند رکورد بازیابی شود.

 

قبل از اینکه د رمورد ساختار موتورهای جست و جو بحث نیم، بهتر است به زمینه فعالیت آنها بپردازیم: آنها به عنوان دروازه عمل می‌کنند. ایده ورای دروازه این است که، ممکن است یک صفحه (سایت) اولیه در وب باشد که کاربر به طور خودکار ابتدا به آن صفحه می‌رود و آن صفحه به عنوان دروازه‌ای برای نیازهای کاربر عمل می‌کند. این دروازه، مجموعه‌ای از اطلاعات و ابزارهای مورد نیاز را در اختیار کاربر قرار می‌دهد و لازم نیست کاربر برای یافتن آنها به چند محل مراجعه کند.

به عنوان مثال، با استفاده از صفحه شخصی Excite   به عنوان صفحه شروع مرورگر، می‌توان گروههای انتخابی رئوس اخبار، پیش‌بینی وضع هوای محلی، اوراق بهادار، و تاریخ تعهدات آینده را دید.

از همه مهمتر این که در این کتاب، کادر تقاضای موتور جست و جو نشان داده می‌شود. در این کادر می‌توان تقاضایی را در یک بانک اطلاعاتی با بیش از ۲۰۰ میلیون سایت مطرح کرد. ابتدا به این بخش از سایت‌ها، یعنی خودموتور جست و جو می‌پردازیم. ولی سایر ویژگیهای دروازه را نیز نادیده نخواهیم گرفت.

به خصوص، به چگونگی دریافت نتایج بهتر خواهیم پرداخت.

متأسفانه در کاربردهای متداول منظور از موتور جست و جو، هم کل خدمات سایت و هم بخشی از سایت که تقاضاها را می‌پذیرد و هم جست و جوی با نک اطلاعاتی بزرگ است. در اغلب موارد، اصطلاح موتور جست و جو به جست و جوی بانک اطلاعاتی اطلاق می‌شود و خدمات یا دروازه به کل سایت اطلاق می‌گردد. منظور از ویژگیهای دروازه، سایر ابزارها و اطلاعاتی است که تدارک دیده می‌شود. (دایرکتوری‌ها، هواشناسی و غیره) اما به این نکته نیز توجه کنید که خدمات Alta Vista    دروازه‌ای را  آماده می‌کند که حاوی موتور جست و جو و سایر ویژگیهای دروازه مثل اخبار، دایرکتوری وب و ابزارهای دیگر است.

 

خود موتور جست و جو دارای پنج بخش عملیاتی است:

۱ ـ خزنده موتور که صفحات و سایت‌های وب را می یابد.

۲ ـ بانک اطلاعاتی که حاوی اطلاعاتی راجع به صفحات پیدا شده توسط خزنده و سایر صفحاتی است که از منابع دیگری جمع آوری شده‌اند.

۳ ـ برنامه شاخص بندی که محتویات بانک اطلاعاتی را مرتب می کند.

۴ ـ موتوربازیاب یکه شامل الگوریتم و برنامه‌نویسی‌های مربوط به آن، دستگاهها و غیره است که اطلاعات تقاضاشده را از بانک اطلاعاتی / شاخص بازیابی می‌کند.

۵ ـ واسط گرافیکی   (HTML)   که داده ‌های تقاضا را از کاربر جمع‌آوری می‌کند و به موتور بازیابی تحویل می‌دهد.

 

خزنده‌ها

خزنده‌ها یا عنکبوت‌ها برنامه‌هایی هستند که برای موارد زیر در وب حرکت می‌کنند:

۱ ـ شناسایی سایتهای جدیدی که باید به موتور جست و جو اضافه شوند.

۲ـ شناسایی سایت‌هایی که قبلا پیدا شدند و اکنون تغییر کرده‌اند.

خزنده ها اطلاعات مربوط به صفحات را از سایتها پیدا می‌کنند و آنها را در بانک اطلاعاتی موتور جست و جوگر قرار می‌دهند. مطالب زیادی در این مورد می توان بیان کرد ولی فقط بخشی از مطالب به جست و جوگر مربوط می شود و جست و جوگر به این مسئله پی می برد که چرا بعضی از صفحات در بعضی از موتورها پیدا می‌شوند ولی در موتورهای دیگر پیدا نمی‌شوند. برای بسیاری از موتورها. سایت‌های معروفتر (مثل انهایی که اغلب توسط کاربران کلیک می‌شوند تا آنهایی که پیوند به آنها لغو شده است)، نسبت به سایت‌های دیگر بیشتر در دسترس هستند. خزنده‌ها می‌توانند به صورت عمقی یا عرضی یا هر دو برنامه‌نویسی شوند.آنهایی که به صورت عرضی برنامه نویسی می‌شوند نه تنها سایتهای اصلی را می یابند بلکه صفحات فرعی آن صفحات و صفحات فرعی این صفحات فرعی را می یابند و این روند ادامه می‌یابد.

خزنده هایی که به صورت عرضی برنامه‌نویسی شده‌اند، صفحات اصلی تر را می‌یابند و الزاماً تمام صفحات فرعی آنها را پیدا نمی‌کنند. هر چه موتورهای حست و جو رشد کردند و بازار رقابت را به وجود آوردند، جست و جوی همزمان عرضی و عمقی مورد توجه قرار گرفتند.

 

بانک اطلاعاتی موتور جست و جو

کل اطلاعاتی که راجع به تمام صفحات وب به دست می‌آید، بانک اطلاعاتی موتور جست و جو را تشکیل می‌دهد. این اطلاعات شامل صفحاتی است که توسط خزنده شناخته شدند، اما صفحات پیدا شده توسط منابع یا تکنیکهای دیگر را نیز دربر می‌گیرد. تعداد زیادی از سایتهایی که در بانک اطلاعاتی موتور جست و جو ذخیره می‌شود، توسط ناشرین صفحات وب به آن تحویل داده می‌شوند. اگر صفحه اول هر موتور جستجویی را نگاه کنید، احتمالا پیوندی را می‌بینید که به شما اجازه می دهد تا صفحه‌ای را به این موتورهای جست و جو تحویل دهید. اگر این صفحات سپام نباشند در بانک اطلاعاتی ذخیره می‌شوند. سپام ها مزاحمتهای پستی‌اند که توجه موتورهای جست و جو را به خود جلب می‌کنند. تمام یا اغلب تولیدکنندگان موتورهای جست و جو، صفحات تحویل شده را کنترل می‌کنند تا سپام نباشند.

منابع دیگر نیز ممکن است در بانک اطلاعاتی موتور جست و جو قرار گیرند. به عنوان مثال بانک اطلاعاتی ممکن است حاوی عناوین صفحه و یا موضوعی از یک دایرکتوری مثل Open Directory   یا Yahoo!   باشد.

وقتی از موتور جست و جو استفاده می‌کنیم، مستقیما با جست و جوی وب سروکار نداریم، بلکه با بانک اطلاعاتی سروکار داریم که رکوردهای آن، بخشی از صفحات موجود در وب را توصیف می‌کنند. با توجه به این حقیقت، نباید انتظارات غیرمنتظره‌ای از موتورهای جست و جو داشته باشیم.

 

برنامه شاخص بندی و شاخص

باتوجه به صفحاتی که در اثر یک تقاضا بازیابی می‌شوند، شاخص‌بندی می‌تواند حیاتی تر از فرانید خزنده باشد. برنامه شاخص بندی، اطلاعات موجود در بانک اطلاعاتی را بررسی کرده ورودی‌های مناسبی را درشاخص قرار می‌دهد. وقتی تقاضایی انجام می‌شود، این شاخص برای شناسایی رکوردهای موردنظر به کار گرفته می‌شود.

اغلب موتورهای جست و جو ادعا می‌کنند که تمام واژه‌های هر صفحه را شاخص بندی می کنند. مسئله این است که موتورهای جست‌وجو چه چیزی را به عنوان واژه می‌شناسند. بعضی از انها دارای واژه‌های توقف هستند(واژ۹‌های کوچک و متداولی که اهمیت چندانی ندارند) و شاخص بندی نمی‌شوند. بعضی از آنها از حروف تعریف و ربط صرف نظر می‌کنند. بعضی دیگر از واژه‌های پراستفاده ولی بالقوه ارزشمند، مثل وب و اینترنت صرف نظر می‌نمایند. گاهی از اعداد صرف نظر می‌شود، زیرا جست‌وجوی واژه‌ای مثل Troop 13   دشوار است. اما در طول چند سال گذشته، موتورهای جست‌وجو واژه‌های کمتری را به عنوان واژه‌های توقف در نظر گرفتند و جست‌وجوی Troop13   در بسیاری از موتورهای جست‌وجو صورت می‌گیرد.

تمام موتورهای اصلی، فیلدهای ارزشمندی مثل عناوین و URL   را شاخص بندی می‌کنند. اغلب شبه دستورات HTML   نیز شاخص‌بندی می‌شوند. شبه دستورات شامل واژه‌ها، عبارات یا جملاتی که در بخش خاصی ا زکد زبان HTML   قرار می گیرند تا محتویات صفحه را توصیف کنند. شبه دستورات هنگام مشاهده صفحه دیده نمی شوند، گرچه می توانید به مرورگر بگویید که مد منبع را نمایش دهد. کد منبع، کد سازنده صفحه است. برای کسانی که با HTML   آشنایی ندارند، مشاهده کد منبع ارزش چندانی ندارد.

محتویات شبه دستورات برای بازیابی اطلاعات مناسب‌اند. اما بعضی از موتورها بعضی از شبه دستورات را شاخص بندی نمی کنند، زیرا شبه دستورات بخشی از صفحه‌اند که تحت تأثیر سپام‌ها قرار می‌گیرند. از این رو حجم زیادی از اطلاعات شاخص‌بندی ارزشمند، نادیده گرفته می‌شود.

آنهایی که با HTML   اشنایی دارند، می‌دانند که فریم‌ها در میلیونها سایت استفاده می‌شوند.

فریم‌ها دستگاههایی از HTML   هستند که بخشهای مختلف صفحه را به عنوان پنجره‌هایی درنظر می‌گیرند. بعضی از مووتورهای جست و جو فریم‌هار ا شاخص بندی نمی‌کنند و در نتیجه بسیاری از سایتها از دست می‌روند. این ضعف به این صورت برطرف می‌شود که توسعه دهندگان هوشمند صفحات وب، نسخه‌هایی از وب سایت بدون فریم را ایجاد می‌کنند که معادل سایت با فریم است. علاوه بر این با تکامل ساخت صفحات وب از فریم‌ها به ندرت استفاده می‌شود.

بعضی از موتورهای جست و جو، واژه‌های موجود در پیوندهای آبرمتن (مثل Click Here  ) اسامی اپلت های جاوا، پیوندهای موجود در نقشه‌های تصویر یو غیره را با شاخص‌بندی نمی‌کنند. باتوچه به این مطالب مشخص می‌شود که چرا بعضی از صفحات در تعدادی از جست‌و جوها بازیابی نمی‌شوند.

 

موتور بازیابی

موتور بازیابی برنامه‌ای است که تقاضای شما را دریافت می‌کند و سپس شاخص را جست و جو می‌کند تا رکوردهای مطابق با تقاضای شما را شناسایی کند و تحویل دهد. در واقع، در این فرآیند دو مسئله اتفاق می‌آفتد:

۱ ـ موتور بازیابی با استفاده از الگوریتم بازیابی رکوردهای مطابق با تقاضای شما را شناسایی می‌کند.

۲ ـ سپس این موتور رکوردهای بازیابی شده را به ترتیب خاصی تنظیم می‌کند و به کاربر تحویل می‌إهد. این دو عملیات ممکن است به طور همزمان یا به طور مجزا انجام شوند.

الگوریتم‌های بازیابی را در ادامه شرح می‌إهیم. فعلا به این نکته اکتفا می‌:نیم که این برنامه‌ها با استفاده از معیارهای تطبیق تعیین می‌کنند که چه رکوردهایی حاوی واژه‌ها عبارات یا ترکیبی از آنها است.

ممکن است سایر معیارهای تعریف شده توسط کاربر را نیز تطبیق کنند، مثل آیا صفحه خاصی حاوی فایلهای صوتی و تصویری هست یا خیر.

بخشی از موتور جست و جو که ارتباط رکوردها را مشخص می‌کند، ممکن است با الگوریتم بازیابی ترکیب شده باشد یا فرآیند جداگانه‌ای باشد. حتی اگر به صورت فرآیند جداگانه‌ای باشد. این تفکیک ممکن است از نظر کاربو مشخص نباشد و معمولا لازم نیست مشخص باشد. در بعضی موارد ممکن است تفکیک این دو فرآیند روشن باشد. به عنوان مثال، در جست و جوی پیشرفته در Alta Vista   کاربر باید در کادر جداگانه‌ای به نام Sort by   مشخص کند مرتب سازی چگونه باید صورت گیرد.

 

ارسال نظر