X بستن تبلیغات
X بستن تبلیغات
header
متن مورد نظر

اهمیت وب

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

مقدمه
 اهمیتی که پدیده وب فارسی بعنوان رسانه‌ای مستقل و مؤثر در دنیای ارتباطات ایرانیان پیدا کرده است ، غیرقابل‌انکار است. به‌نظر می‌رسد که اکنون روآوردن برخی از روزنامه‌نگاران ، پژوهشگران ، دانشجویان ،… به وب فارسی و استفاده منابع خبری ، علمی ،… از مطالب آنها نیز، موجب تقویت نقش رسانه‌ای وب فارسی شده‌است.

لیکن با توجه به ماهیت خاص رسم الخط فارسی که آن را برای سیستم های رایانه ای نامناسب نموده است ، امروزه مشکلات بسیاری برای دانش پژوهشان و بطور کلی استفاده کنندگان از وب های فارسی زبان نموده است. عدم وجود حروف صدادار در فارسی بصورت یک موجودیت مجزا از یک طرف و وجود حروف یکسان با اشکال متعدد از طرف دیگر ، باعث بروز چالش های جدی در امر نمایه سازی این زبان شده است. بنظر می رسد تلاشهایی لازم است تا زبان زیبای فارسی را با وجود ماهیت عرفانی و شاعرانه آن ، جهت حضور در عرصه الکترونیکی دانش ، آماده نماید.

مقدمه
 اهمیتی که پدیده وب فارسی بعنوان رسانه‌ای مستقل و مؤثر در دنیای ارتباطات ایرانیان پیدا کرده است ، غیرقابل‌انکار است. به‌نظر می‌رسد که اکنون روآوردن برخی از روزنامه‌نگاران ، پژوهشگران ، دانشجویان ،… به وب فارسی و استفاده منابع خبری ، علمی ،… از مطالب آنها نیز، موجب تقویت نقش رسانه‌ای وب فارسی شده‌است.

لیکن با توجه به ماهیت خاص رسم الخط فارسی که آن را برای سیستم های رایانه ای نامناسب نموده است ، امروزه مشکلات بسیاری برای دانش پژوهشان و بطور کلی استفاده کنندگان از وب های فارسی زبان نموده است. عدم وجود حروف صدادار در فارسی بصورت یک موجودیت مجزا از یک طرف و وجود حروف یکسان با اشکال متعدد از طرف دیگر ، باعث بروز چالش های جدی در امر نمایه سازی این زبان شده است. بنظر می رسد تلاشهایی لازم است تا زبان زیبای فارسی را با وجود ماهیت عرفانی و شاعرانه آن ، جهت حضور در عرصه الکترونیکی دانش ، آماده نماید.

پیشینه تحقیق و تعارف ابتدایی

 محتواکاوی وب(Web Content Mining) ، یکی از سه شاخه وب کاوی است که در واقع ، کشف اطلاعات مفید از مستندات و داده های ساختیافته و نیمه ساختیافته و غیر ساختیافته وب  می باشد. یک شاخه دیگر این مقوله ، ساختارکاوی وب(Web Structure Mining) است که به کشف مدل پشت زمینه حاکم بر ساختار فرا پیوند های وب می پردازد  و هدف آن ، ایجاد اطلاعاتی همچون تشابه یا ارتباط بین سایت های مختلف وب است. شاخه دیگر آن کاربرد کاوی وب می باشد که سعی می کند از تعاملات کاربربا وب ، اطلاعاتی کسب کند و از آن ها بصورت سابقه ای در مراجعات بعدی کاربر سود ببرد.

خصوصیات وب های فارسی از نظر زبان

 عدم وجود یک استاندارد و شناور بودن ویژگیهای رسم الخط و مفاهیم در زبان فارسی ، موجب گردیده است تا تقریبا بتعداد صفحات وب فارسی ، سبک و سیاق نگارش این زبان بکار رفته باشد. لیکن خصوصیات مشترک اکثر وب‌های فارسی زبان را می توان چنین ارزیابی نمود :

الف) نگارش برخی از وب های فارسی ، زبان غیررسمی یا محاوره‌ای است.

ب) در وب‌های فارسی ، بخصوص در متون علمی ، اغلب واژه‌های بیگانه ، بکرات استفاده می‌شود که بعضی از آنها بارسم الخط زبان اصلی نوشته می‌شوند.

ج) رسم‌الخط وب های فارسی ، اصولا غیراستاندارد و متغیر است و اغلب در معرض نوآوری‌ است.
ه) نوشته‌های وب‌های فارسی ، حاوی غلط‌های تایپی و نگارشی نسبتاً زیادی است، هرچند که اغلب وب‌های فارسی مهم و پرخواننده، نگارش قابل‌قبولی دارند.

و) رسم‌الخط وب‌های فارسی، تابع محدودیت‌های محیط الکترونیکی و عدم تطبیق آن با الزامات خط فارسی است.]اشرف زاده،۱۳۸۳[ابزارهای جستجو در وب های فارسی در حال حاضر ابزارهای کاوش مختلفی در ایران ظهور پیدا کرده اند.لیکن ابزارهای جستجویی که امکان جستجوی اطلاعات به زبان فارسی را در اختیار قرار می دهند ، محدودند. از طرف دیگر ، امکانات و قابلیتهای آن ها برای بازیابی موثر و مناسب اطلاعات متغیر هستند. برخی از ابزارهای کاوش با امکانات جستجوی فارسی عبارتند از NPiran  ، Iranhoo  ، IranMehre ، Parseek ، Google و Parseek .بجز سایت‌ NPIran ، دیگر سایتها دارای‌ واسط‌ جستجوی فارسی‌ هستند و بجز Parseek ، هیچیک از ابزارهای موجود کاوش فارسی ، چالش های زبان فارسی را با هدف بهینه سازی کاوش فارسی ، فراروی خود قرار نداده اند و Parseek نیز تنها مشکل  کاراکترهای فارسی با یونیکدهای مختلف را حل نموده است.

  در بین ابزارهای کاوش فوق ، تنها موتور کاوش Google دارای برنامه روبات به منظور شناسایی و نمایه سازی صفحات یا سایتهای وب به زبان فارسی و نمایه سازی خودکار می باشد و قادر است صفحات فارسی را در قالب Unicode شناسایی و در پایگاه خود نمایه کند و سایت Parseek نیز از پایگاه Google برای جستجو و بازیابی اطلاعات استفاده می کند. به تعبیر دیگر، ۴ ابزار کاوش دیگر توسط نمایه سازی انسانی اداره می شوند و از این لحاظ راهنمای موضوعی تلقی می شوند. ابزارهای کاوش دیگر ، راهنمای موضوعی به شمار می آیند و انسان ، فرایند شناسایی، بررسی و نمایه سازی سایتها یا صفحات وب را بر عهده دارد.]کوشا،۱۳۸۱[بنظر می رسد جای یک ابزار کاوش قوی ملی ، تحت نظارت سازمان های انفورماتیکی و انجن های زبان شناسی فارسی ، منطبق با نیازهای اطلاعاتی کاربران اینترنت در ایران وبا در نظر گرفتن چالش های رسم الخط و مفهومی فارسی و مرتفع سازی مشکلات ناشی از آن ها خالی است.

مشکلات ومحدودیت های وب کاوی در سایت های فارسی زبان

 در دهه های اخیر ، بیشترین اختلاف نظر در باب شیوه املای کلمات فارسی بر سر موضوع جدانویسی یا پیوسته نویسی کلمات مرکب بوده است.فرهنگستان زبان و ادب فارسی ، در این باب راه میانه را برگزیده و کوشیده است تا فقط مواردی را که جدانوشتن و یا پیوسته نوشتن آنها الزامی است ، تحت قاعده و ضابطه درآورد و شیوه نگارش بقیه کلمات مرکب را به ذوق و سلیقه نویسندگان واگذار کند.]فرهنگستان،۱۳۸۲[ بعضی چالش های زبان فارسی در رایانه و بخصوص در اینترنت که باعث تفاوت در نتیجه جستجو در وب یا وب کاوی می شود از قرار زیر است :

الف) تنوع نحوه استفاده از \”می\” چسبان و غیر چسبان ، مثل کلمات \”می تواند\” و \”میتواند\”.

ب) تنوع نحوه بکاربردن چسبان و غیر چسبان \”ها\” ، مثل  \”آن ها\” و \”آنها\”.

ج) بکار بردن بعضی پیشوند ها و پسوند ها ، مثل \”همین که\” و \”همینکه\” ویا \”هیچ یک\” و \”هیچیک\”

و یا \”راه گشا\” و \”راهگشا\”.

د) بکاربردن \”حمزه\” بصورت های مختلف ، مثل \”مسؤول\” و \”مسئول\” یا \”مسأله\” و \”مسئله\”.
ه) استفاده  یا عدم استفاده از \”ء\” ، برای کلمات مختوم به های بیان حرکت ، در حالت مضاف ، مثل \”خانه مسکونی\” و \”خانه مسکونی\”.

و) تنوع استفاده از \”ی\” در کلمات عربی مختوم به \”ا\” ، مثل \”موسی\” و \”موسا\”.

ز) تنوع املایی بعضی کلمات که همه درست هستند ، مثل \”اتاق\” و \”اطاق\”.

ح) استفاده از کلمات اروپایی بصورت زبان اصلی یا ترجمه فارسی بخصوص در متون علمی ، مثل \”Update\” و \”بروزآوری\”.

ط) استفاده یا عدم استفاده از جمع مکسر برای بعضی کلمات.

ی) تبدیل کلمات اروپایی به رسم الخط فارسی با همان تلفظ اصلی ، مثل \”Source\” و \”سورس\”.

ک) استفاده از \”ا\” و \”آ\” بجای هم ، مثل \”فرایند\” و \”فرآیند\”.

ل) استفاده یا عدم استفاده از اعراب برای کلمات .

بعبارت دیگر ، یک کاربر ممکن است در جستجوی خود در وب ، کلمه کلیدی خاصی را بکار برد ، لیکن در صفحات وب چنین کلمه ای بکار نرفته باشد و با توجه به مواردی که در مورد تنوع کاربری کلمات ، بحث شد ،کلمه مشابهی ثبت شده باشد. بنابراین بسیاری از صفحات وب مطلوب کاربر ، در مجموعه بازیابی شده ، وجود نداشته باشد.

 روش هایی برای بهبود کاوش وب های فارسی

الف) انتخاب مناسب سرعنوان های موضوعی در وب های فارسی

  پیدا کردن اصول و معیارهای موضوع سازی ذهنی و فرایندی که در ذهن کاوشگران اطلاعات در هنگام بیان موضوعات ، برای پاسخ یابی ماشینی ، روی می دهد یک فرایند پیچیده ، مهم و تاثیرگذار در جریان تهیه سرعنوان های موضوعی است. از طرفی ترکیب بندی عبارات کاوش با یک زبان مشترک بین انسان و ماشین ، از جمله مسایلی است که همیشه متخصصان بانک های اطلاعاتی و کاوشگران اطلاعات را دچار مشکل می سازد. بهمین دلیل و با توجه به ساختار بانک های اطلاعاتی ، حوزه موضوعی کاوش ، میزان آگاهی های عمومی کاوشگر ، زبان رایج تخصصی میان ورزیدگان یک رشته خاص موضوعی ، مسائل و مشکلات زبانی ، ساختار اصطلاحنامه بکار گرفته شده در بانک اطلاعاتی و … است که راهبردهای کاوش ، طراحی و اجرا می شوند. در این مسیر ، سرعنوان های موضوعی ، نقش عمده ای را دارا هستند. حل این مسائل می تواند به پیدا کردن راه حل های موثری برای سرعنوان های موضوعی بیانجامد.

ب) استمداد از علم اصطلاح شناسی(Terminology) در نمایه سازی ماشینی

 توجه به اصطلاحات و اصطلاح سازی نیز با توجه به ضرورت روزآمد بودن واژگان علمی و تخصصی و لزوم کنترل ورود اصطلاحات بیگانه امری است که ما را ناگزیر به استمداد از علم اصطلاح شناسی وامی دارد.در این خصوص \”حسینی\” پژوهشی ارائه کرده است که بجهت اشاره به تمهیدات وی در خصوص تشکیل ویا بهینه سازی اصطلاحنامه ای مناسب برای نمایه سازی ماشینی ، شمه ای از آن در ادامه مشروح می باشد :

الف) کنترل مترادف ها و شبه مترادف ها بصورت ارجاع مترادف های غیر مرجح به اصطلاح مرجح.
ب) هدایت کاوشگر از مفاهیم و اصطلاحات اخص به اعم یعنی نزدیک ترین اصطلاح.
ج) با ارائه روابط ساختاری مفاهیم اعم از سلسله مراتبی یا غیر سلسله مراتبی ، جامعیت حاصل می گردد و کاوش را با ارائه طبقه های دارای ارتباط بسیار نزدیک توسعه می دهد. از این طریق مانعیت نیز با پیشنهاد اصطلاحات اخص ، بهبود می یابد.

د) نظارت بر شکل دستوری ، املایی ، جمع و مفرد و اختصارات و شکل مرکب اصطلاح.

ه) گزینش بین دو یا چند مترادف موجود برای بیان یک مفهوم.

و) تصمیم گیری در خصوص پذیرش و نحوه برخورد با انواع خاصی از اصطلاحات نظیر \”واژه های قرضی\”(Loan Words) ، \”واژه های عامیانه\”(Slang Words) ، اسامی تجاری و اسامی خاص.
ز) محدود کردن معنی یک اصطلاح که در یک فرهنگ ممکن است با توضیحات گوناگون همراه باشد.
توصیه های اضافی در خصوص تشکیل اصطلاحنامه بشرح زیر است :

الف) واژه های قرضی :

واژه هایی که از زبانهای دیگر قرض گرفته شده اند و در زبان قرض گیرنده تثبیت شده اند. چنانکه ترجمه این اصطلاحات وجود داشته باشد ولی بطور رایج مورد استفاده قرار نگیرد با صاطلاح ترجمه شده باید بصورت اصطلاح نامرجح برخورد کرد.

ب) نو واژه ها(Neologisms) ، اصطلاحات عامیانه و زبان حرفه ای :

چنانچه جایگزینی که بطور گسترده توسط کاربران مورد استفاده قرار گیرد ، وجود نداشته باشد ، نو واژه ، اصطلاح عامیانه یا حرفه ای ، بعنوان توصیفگر پذیرفته می شوند.

ج) اسامی عامیانه و اسامی تجاری :

توصیه می شود ، در جایی که اسم عامیانه معادلی وجود دارد ، باید از آن بجای اسم تجاری استفاده کرد.
د) اسامی مشهور و اسامی علمی :

انتخاب بین ایندو بر اساس احتمال بیشتر استفاده کاربران می باشد.

ه) اسامی مکان ها :

در جایی که برای یک کشور یا منطقه جغرافیایی درون یک جامعه تک زبانی ، بیش از یک اسم ، انتخاب می گردد ، باید اسمی را بعنوان اصطلاح مرجح تعیین کرد که نزد کاربران ، آشناتر است.
و) اسامی خاص موسسات ، افراد و…

میزان نیاز دستیابی به اسامی خاص بر اساس حوزه عملکرد اصطلاحنامه ، گنجاندن اسامی را در اصطلاحنامه اصلی تعیین می کند.

ز) همنام ها و هم آوا ها :

منظور ، کلماتی هستند که دارای املاء یکسان و معانی متفاوت یا دارای آوای یکسان و معانی متفاوت می باشند. در چنین مواردی روش معمول ابهام زدایی ، اضافه کردن توضیحگر است که داخل پرانتز قرار می گیرد.

ح) مترادف ها :

انتخاب مترادف ها باید بر اساس نیاز های کاربران باشد که از نقطه نظر رواج و تخصص ، صورت می گیرد.
ط) شبه مترادف ها :

پذیرش شبه مترادف ها ، از حوزه موضوعی زیر پوشش اصطلاحنامه ، متاثر است. برای مثال \”افراد با استعداد\” و \”تیزهوشان\”. شبه مترادف ها ممکن است شامل متضاد ها هم باشند مثل \”سوادآموزی\” و \”بیسوادی\”.]
 
ج) تعریف یک استاندارد برای مفاهیم و رسم الخط فارسی در وب

همانطور که گفته شد ، یک تفاوت زبان فارسی با زبان انگلیسی (و زبان های هم ارز) ، تنوع املایی یا رسم الخطی کلمات آن است. بعبارت دیگر ، در زبان انگلیسی ، تنوع در مفهوم کلمات وجود دارد. یعنی برای بعضی مفاهیم ، ممکن است کلمات متنوعی استفاده شود. برای مثال کلمات \”Hello\” و \”Hi\” که دارای مفهوم یکسانی هستند. لیکن در فارسی ، علاوه بر وجود کلمات متنوع برای مفاهیم یکسان ، مثل \”کامپیوتر\” و \”رایانه\” ، تنوع در رسم الخط یک کلمه نیز فراوان بچشم می خورد. بعبارت دیگر ، در حالی که شما بدنبال صفحات محتوی کلمه \”امپراتور\” می گردید ،‌ کلیه صفحات محتوی کلمه \”امپراطور\” را از دست می دهید.

بنظر می رسد ، در تشکیل صفحات وب فارسی ، جای یک استاندارد حاکم بر عملکرد تالیف نویسندگان وب ، خالی است. استانداردی که انتخاب بعضی کلمات دارای چندین رسم الخط و حتی انتخاب بعضی کلمات که بر مفاهیم متنوعی دلالت دارند را منحصر بفرد نماید و مولفان را از طرفی  ترغیب به  انتخاب گونه زبانی مناسب، برای تضمین کیفیت ارتباط و انتقال مؤثر پیام و از طرف دیگر موظف به حفظ سلامت زبان و رعایت استانداردهای آن به‌عنوان یک وظیفه رسانه‌ای نماید.
ایجاد و گسترش چنین استانداردی بعهده \”فرهنگستان زبان و ادب فارسی\” و با هماهنگی انجمن ها و شوراهای علمی یا صنفی انفورماتیک در ایران است. تعویق در تنظیم این استاندارد ، با توجه به رشد روز افزون  وب های فارسی زبان ، هزینه های جبران ناپذیری در بر خواهد داشت.

د) استفاده از مفرد و جمع در نمایه سازی

استفاده از اسامی جنس ، نحوه جمع بستن کلمات بصورت باقاعده با بدون قاعده (جمع های مکسر) معضلی است که در نمایه سازی واژگان فارسی معمولا بسیاری از صفحات وب را شامل نمی شود. در این خصوص \”سمایی\” در مقاله خود قواعدی را برای نمایه سازی واژه های مفرد و جمع ارائه داده است که ذکر آن ها خالی از لطف نیست :  

الف) از آنجا که‌ کلیدواژه‌ها در زبان‌ تخصصی‌ بکار می‌روند و در بین‌ اهل‌ فن‌ رایج‌ و جاری‌اند، گاه‌ اتفاق‌ می‌افتد که‌ صورت‌ جمع‌ مرسوم‌ باشد. در این‌ حالت‌ بهتر است‌ که‌ از صورت‌ جمع‌ استفاده‌ شود. نظیر ترکیب‌ \”آثار باستانی‌\”. نکته‌ای‌ که‌ در این‌ باره‌ ذکرکردنی‌ است‌، شیوه‌ جمع‌ بستن‌ اسامی‌ در این‌ موارد است‌. بدین‌ معنا که‌ گاهی‌ نوع‌ پسوند جمع‌ یا شیوه‌ جمع‌ بستن‌ باعث‌ می‌شود که‌ اصطلاح‌ به‌ دست‌ آمده‌، با سنت‌ رایج‌ در حوزه‌ تخصصی‌ منطبق‌ نباشد. مثلاً چنانچه‌ لفظ‌ اثر با \”ها\” جمع‌ بسته‌ و ترکیب‌ \”اثرهای‌ باستانی\”‌

بعلاوه‌ این‌ که‌ در برخی‌ موارد، شیوه‌ جمع‌ بستن‌ باعث‌ تفاوت‌ در معنا می‌شود. \”اثرها\” در برخی‌ بافت‌ها معادل‌ \”آثار\” نیست‌. \”آثار\” در ترکیب‌ با \”باستانی\”» شامل‌ خرابه‌ها و بناها و اشیای‌ به‌ جا مانده‌ از زمان‌ قدیم‌ می‌شود، در حالی‌ که‌ از لفظ‌ \”اثرها\” بیش‌تر معنای‌ ردّ و نشان‌ تداعی‌ می‌شود.
ب) گاهی‌ صورت‌ مفرد کلمه‌، معنایی‌ متفاوت‌ از معنای‌ جمع‌ دارد. این‌ مسئله‌ اغلب‌ در کلمات‌ عربی‌ مصطلح‌ در فارسی‌ وجود دارد. ترکیب‌ \”مصالح‌ راه‌سازی‌\”  از این‌ دست‌ است‌. \”مصالح‌\” بمعنای‌ مواد لازم‌ برای‌ ساختن‌ بنا است‌، در حالی‌ که‌ معنای‌ صورت‌ مفرد آن‌ یعنی‌ \”مصلحت‌\” ــ به‌ نقل‌ از فرهنگ‌ معین‌ ــ از این‌ قرار است‌: \”آنچه‌ که‌ صلاح‌ و سود شخص‌ یا گروهی‌ در آن‌ باشد\”.
ج) در مواردی‌ ، با این‌ که‌ صورت‌ مفرد و جمع‌ کلمه‌، معنایی‌ مشترک‌ دارند استعمال‌ صورت‌ مفرد در زبان‌ رایج‌ نیست‌. به‌ همین‌ علت‌ ترکیب‌هایی‌ نظیر \”منسوجات‌ نظامی‌\” \”الیاف‌ کربنی‌\” را نمی‌توان‌ بشکل‌ مفرد آورد و به‌ جای‌ منسوجات‌ لفظ‌ \”منسوج‌\” و به‌ جای‌ الیاف‌ لفظ‌ \”لیف‌\” را قرار داد.
د) در برخی‌ واژه‌ها، صورت‌ جمع‌ توسّع‌ معنی‌ پیدا کرده‌ و از این‌ طریق‌، ارتباط‌ صورت‌ جمع‌ و مفرد ضعیف‌ شده‌ است‌. در واژه‌ای‌ نظیر \”مهمّات‌\” این‌ اتفاق‌ رخ‌ داده‌ و ارتباط‌ \”مهمات‌\” با \”مهم\” از این‌ دست‌ است‌.

ه) بعضی‌ ترکیب‌ها نظیر \”ماشین‌آلات\” وجود دارند که‌ نه‌ تنها نمی‌توان‌ قسمت‌ جمع‌ آنها را به‌ شکل‌ مفرد آورد ، بلکه‌ در مجموع‌، یک‌ واحد نحوی‌ ایجاد می‌کنند که‌ از لحاظ‌ معنایی‌ تجزیه‌ناپذیر است‌.
و) گاهی‌ هم‌ اتفاق‌ می‌افتد که‌ جمع‌ اسم‌ با قاعده‌ فارسی‌، در زبان‌ مصطلح‌ نیست‌ و جمع‌ عربی‌ آن‌ رایج‌ است‌. بدیهی‌ است‌ که‌ در این‌ حالت‌ چنانچه‌ اسم‌ مذکور، کلیدواژه‌ شود یا در ترکیبی‌ به‌ کار رود و نتوان‌ از صورت‌ مفرد آن‌ استفاده‌ کرد، باید شکل‌ جمع‌ عربی‌ آن‌ را به‌ کار برد. در ترکیب‌ \”اجزای‌ پل\” نمی‌توان‌ به‌ جای‌ \”اجزا\” لفظ‌ \”جزءها\” را به‌ کار برد.

ز)‌ برای‌ جمع‌ بستن‌ اسامی‌ لاتین‌ استفاده‌ از پسوند \”ها\” مرجح‌ است‌: \”کربامات‌ها\”.

ه) استفاده‌ازیک واسط‌کاوش فارسی برای رفع چالش‌های رسم‌الخط و مفهومی

استاندارد سازی رسم الخط فارسی در رایانه ها ، ممکن است در ابتدای  تولید اولین صفحات وب فارسی بسیار مفیدتر بنظر رسد ، لیکن در حال حاضر ، با وجود تعداد بسیار زیادی صفحات وب فارسی که در هر حال با عدم نظارت یک استاندارد ، تولید شده اند ، چندان مثمر ثمر واقع نمی شود. اگر چه ایجاد آن برای تولید صفحات وب فارسی آتی ، لازم است. بعبارت دیگر ، جهت انجام عملیات وب کاوی در صفحات وب فارسی کنونی ، بایستی روشی ابداع کرد تا با توجه به چالش های بحث شده ، نتایج مطلوبی از وب کاوی در آنها بدست آید.

با توجه به بحث های قبل ، می توان دریافت که در کاوش های وب ، پارامترهایی که نتایج جستجو را برای کاربر مطلوب جلوه می دهد ، از قرار زیر است :

الف) جامعیت نتایج(Recall) :

منظور از جامعیت نتایج ، اینست که کلیه صفحات وبی که بر اساس کلمه کلیدی ، مطلوب کاربر محسوب می گردد ، نمایش داده شود. بعبارت هیچ صفحه مطلوبی از قلم نیافتد.

ب) مانعیت نتایج :منظور از مانعیت نتایج اینست که صفحات وبی اضافه بر نتایج جستجوی مطلوب کاربر ارائه نشود ، که بعلت حجم زیاد نتایج ، باعث سردرگمی کاربر گردد.

ج) تناسب نتایج(Precision) :میزان مطلوب بودن نتایج نسبت به مورد جستجو است که باید حداکثر باشد.
د)سرعت بازیابی:نکته مهم دیگر در کاوش ، زمان صرف شده برای جستجو است که بایستی حداقل باشد. این پارامتر ، به میزان ترافیک شبکه ، سرعت خدمت دهنده ها ، سرعت پایگاه داده نمایه شده و موارد سخت افزاری وابسته است.

لیکن جامعیت ، مانعیت و تناسب نتایج ، می توانند تحت تاثیر زبان استفاده شده در نگارش محتوای صفحات ، تغییر نمایند. بخصوص موقعی که زبان مورد استفاده ، زبانی همچون فارسی با چالش های رسم الخط فراوان در گستره امور رایانه ای است و بشدت مستعد نتایج بی اعتبار و نامناسب می باشد. بعنوان مثال کاربر جوینده اطلاعات در مورد \”امپراتوری های قدیم\” از دیدن صفحات وب حاوی کلمه \”امپراطور\” در نتایج جستجوی خود ، محروم است.

لذا در خصوص ارتقاء کیفیت نتایج کاوش در وب های فارسی زبان ، جای راهکارهایی که پارامترهای مذکور را تقویت نماید خالیست. از این رو ، بر آن شدیم تا با ایجاد یک عامل هوشمند ، نتایج جستجوها را بهینه کنیم. اینکار را با اضافه کردن یک واسط هوشمند به موتورهای کاوش یا خزنده ها انجام دادیم. این واسط در واقع نقش یک پردازشگر پرس و جو(Query Processing) را ایفاء می کند.
این عامل از دو قسمت تشکیل شده است. یک قسمت به مرتفع سازی معضلات رسم الخط و بهبود بعد جامعیت نتایج کاوش و قسمت دیگر به رفع مشکلات مفهومی و بهینه سازی تناسب و مانعیت نتایج کاوش می پردازد.

واسط فارسی برای بهبود جامعیت کاوش

 این قسمت از عامل ، از یک پایگاه داده تشکیل شده است که حاوی چندین کلمه معادل بعضی کلمات خاص که در چالش ها ذکر گردید ، می باشد. این تناظر ، می تواند مربوط به معادل های رسم الخط ، معادل های مفهومی یا معادل هایی به زبان های غیر فارسی باشد. بدین صورت که با عبور دادن کلمات مورد کاوش از این واسط و یا با رجوع به این پایگاه داده ، عملا یک کاوش بر اساس یک کلمه کلیدی خاص ، منجر به  چند کاوش برای کلمات معادل آن کلمه کلیدی خاص می گردد. با این ترفند ، صفحات حاوی کلمات معادل ، از دست نمی رود و پارامتر جامعیت را تقویت می نماید.

پیشنهادات
مطالعه حاضر با هدف بهینه سازی امکانات جستجو و بازیابی اطلاعات در ابزارهای کاوش با واسط فارسی صورت گرفته است. بعنوان پژوهشی دیگر می توان تمهیداتی جهت  کاوش هر چه دقیقتر وب های فارسی  زبان ، با هدف به حداقل رساندن تاثیرهای سوء چالش های رسم الخط فارسی ، اندیشید و این راه حل ها را بصورت تلفیقی (سری و موازی) نیز استفاده نمود.

می توان نرم افزار واسط کمک فارسی مذکور را بصورت یک نوار ابزار ، برروی Browser ، نصب و استفاده نمود. از طرف دیگر می توان بصورت یک نرم افزار که بر روی Browser نصب شده بصورت پشت زمینه ، کلمات مورد کاوش را گرفته ، برروی آنها اعمال نظر کرده ، کاوش جدید خود را ترتیب دهد.

پژوهشی دیگر می تواند در صورت امکان روشی را جستجو کند که گراف معنایی مورد بحث را بصورت ماشینی ایجاد و گسترش دهد.

ارسال نظر