خانه » عمومی » مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات

مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات

مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات
امتیاز دهی به این نوشته
نوع مقاله: مقاله پژوهشی
چکیده
هدفهای پژوهش: زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نهادینه نشدن سبک نگارش استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبه‎روست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات می‎گذارد. پژوهش حاضر می‎کوشد تا با بررسی متون و پیشینه‎های موجود، چالشهای نگارش فارسی، تأثیر آنها بر اثربخشی بازیابی اطلاعات، و پیشنهاد‎های ارائه شده در جهت رفع این دشواریها را مورد بحث و بررسی قرار دهد.
اهمیت پژوهش: با تحلیل و مرور جامع متونی که درباره چالشهای نگارش فارسی در محیطهای دیجیتال نگارش یافته است، می‎توان دانشی را که تاکنون در این باره گرد آمده است به تصویر کشید و کاستیها و پیشرفتهای به دست آمده در این زمینه را آشکار ساخت.
روش پژوهش: روش پژوهش حاضر، متن‎پژوهی با رویکرد تحلیل محتواست که از روشهای پژوهش کیفی به شمار می‎آید. «پاراگراف»، «جمله» و «کلمه» به عنوان واحد تحلیل انتخاب شد، زیرا ممکن بود هر دشواری یا راهکار تنها در یک کلمه یا عبارت مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد.
یافته‎ها: آثار مورد بررسی، بیش از ۴٠ دشواری نگارشی را در رابطه با جستجو و بازیابی اطلاعات فارسی ذکر کرده‎اند. این گونه‎گونی نگارشی به نایکدستی و تطور بسیار در نگارش فارسی می‎انجامد که می‎تواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد. در نتیجه، ضروری است در طراحی الگوریتمهای سامانه‎های جستجو و بازیابی فارسی، به‎هنجارسازی تنوعات و چنددستیهای نگارشی و دستوری مد نظر قرار گیرد. تدوین استاندارد نگارش فارسی، استفاده از سیاهه‎های از پیش تعیین شده، تجهیز پایگاه اطلاعاتی به اصطلاحنامه و فرهنگهای املایی، و تدوین دستنامه یا راهنمای جستجو، از جمله راهکارهای ارائه شده است. این راهکارها با وجود جامع نبودن، کم و بیش اثربخش به نظر می‎رسند.
نتیجه‎گیری: از آنجا که راهکارهای انسانی، نیازمند مشارکت فعّالانه و آموزش نویسندگان متون (تایپیستها و کاربران) است و از روندی بلندمدت و هزینه‎بر برخوردار است، حرکت به سوی راهکارهای خودکارسازی پردازش متن و نمایه‎سازی، ضروری است.
کلیدواژه ها
زبان فارسی؛ بازیابی اطلاعات؛ نگارش؛ املا
اصل مقاله

مقدمه
خواندن و نگارش فارسی به دلیل ویژگیهای خاصّ این زبان، در پاره‎ای موارد با دشواریهایی همراه است که در رویارویی با رایانه، دو چندان می‎گردد. ورود ناگهانی رایانه به گستره‎ای وسیع از فعالیتهای مختلف اجتماعی، فرهنگی، اقتصادی و فنی، مجال آن را به صاحب نظران نداده است که راهکاری بنیانی و جامع برای مقابله با چالشهای شیوه نگارش بیندیشند و به کار گیرند (حری،۱۳۷۲). نبود استاندارد شیوه نگارش جامع و مورد قبول همگان، به نایکدستی و ناهماهنگی دروندهی اطلاعات در پایگاه‎های اطلاعاتی، وب‎سایتها، وب‎لاگها و دیگر منابع دیجیتالی انجامیده که آن نیز به نوبه خود جستجوی فارسی را با مشکلاتی چند همراه ساخته است. این دشواریها بویژه در دنیای وب و با رشد سریع انتشارات الکترونیکی فارسی بر وب، چشمگیر بوده است. شیوه‎نامه‎ای که فرهنگستان ادب و زبان فارسی در سالهای اخیر برای یکدستی نگارش فارسی ارائه کرده نیز نتوانسته است از این دشواریها بکاهد، زیرا این شیوه‎نامه به دلیل ناهماهنگی درونی، هدف قرار دادن عامه مردم و در نتیجه کاهش دقت و پرهیز از وضع قانون برای برخی استثناها، وضع قانون برای پیوسته یا جدانویسی برخی کلمات مرکب و واگذار کردن سایر موارد به سلیقه نویسندگان و در نهایت نپرداختن به همه دشواریهای نگارشی، مورد انتقاد بوده است (طرح جامع پیکره زبان…، ۱۳۸۸؛ فرهنگستان زبان و ادب فارسی، ۱۳۸۳؛ سرمستانی، ۱۳۸۸؛ اشرف‌زاده، ۱۳۸۱). از سوی دیگر، الزام‎آور نبودن به کارگیری این دستورها باعث می‎شود پذیرش و نهادینه شدن این سبک، فرایندی بسیار بلندمدت، اگر نگوییم ناشدنی، باشد.
مسئله پژوهش
دسترسی آسان به انبوهی از اطلاعات، دستاورد حضور اطلاعات در محیطهای الکترونیکی بخصوص وب است. در کنار این مزیّت، مسئله بازیابی اثربخش اطلاعات رخ می‎نماید. اثربخشی بازیابی زمانی حاصل می‎شود که نیاز کاربر هرچه بیشتر و بهتر برآورده گردد؛ بدین معنا که شمار بیشتری از مدارک با درجه ربطِ هرچه بیشتر با موضوعِ مورد نظر وی بازیابی گردد. اهمیت این مسئله زمانی که اطلاعات به زبانی چون فارسی مورد نیاز باشد، دوچندان می‎گردد. زیرا شیوه نگارش زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نداشتن سبکی استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبه‎روست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات می‎گذارد.
به طور کلی، مطالعات در این حوزه بر سه محور کلی متمرکز است: ١) آزمایش تأثیر تکنیکها یا ابزارهای خاصّ بر اثربخشی بازیابی ٢) طراحی و آزمایش تکنیکها، الگوریتمها یا ابزارهای خاص ٣)‎ بررسی دشواریهای نگارش فارسی و تأثیر آنها بر اثربخشی بازیابی اطلاعات. آخرین محور، در دو دسته تحقیقاتی و نظری مد نظر قرار گرفته است. در این میان، مطالعات نظری از اهمیتی بنیادین برخوردارند، زیرا شناسایی دشواریهای نگارش فارسی در مطالعات بازیابی اطلاعات عمدتاً بر پایه آرا و نظریات صاحب نظران در این گونه تحقیقات بنیان می‎شود. از این رو، موفقیت طراحی الگوریتمها و سامانه‎های بازیابی اطلاعات فارسی در لحاظ کردن همه قواعد زبانشناختی و نگارشی، به جامعیت و قوّت اعتبار این آثار بستگی خواهد داشت. تحلیل و مرور جامع متونی که در این باره به رشته تحریر درآمده است، ضمن ارائه اطلاعات درباره دیدگاه صاحب‎نظران این حوزه، دانشی را که تاکنون در این باره گرد آمده است به تصویر می‎کشد و نقاط تاریک و روشن آن را آشکار می‎کند و طراحان سامانه‎ها و پایگاه‎های اطلاعات فارسی را با مقتضیات جستجو و بازیابی به این زبان آشناتر می‎سازد. با توجه به اهمیت این امر، بررسی حاضر که به روش متن‎پژوهی انجام می‎گیرد، می‎کوشد تا با مرور آثار و پژوهشهای پیشین، دشواریهای نگارش فارسی را شناسایی کند و تأثیر این دشواریها را بر بازیابی مؤثر اطلاعات بسنجد. در پایان نیز پیشنهاد‎های ارائه شده برای رفع این دشواریها را مورد بحث و بررسی قرار می‎دهد.
هدفهای پژوهش
پژوهش حاضر می‎کوشد تا هدفهای زیر را محقق سازد:
۱- شناسایی دشواریهای زبان فارسی در ذخیره و بازیابی اطلاعات در محیطهای دیجیتالی
۲- بررسی میزان اهمیت دشواریهای زبان فارسی به لحاظ فراوانی آنها در ادبیات مربوط
۳- شناسایی راهکارهای ارائه شده به منظور کاهش یا رفع این دشواریها
۴- تحلیل میزان اثربخشی راهکارهای ارائه شده در پژوهشهای مورد بررسی.
روش پژوهش

روش پژوهش حاضر، متن‎پژوهی با رویکرد تحلیل محتواست. برای یافتن آثار پیرامون دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی در محیطهای دیجیتالی، در تاریخ ۲۰ اسفند ۱۳۸۹ جستجویی در منابع کتابخانه‎ای، پایگاه‎های اطلاعاتی و نیز منابع وبی صورت گرفت. منابع شناسایی شده، پس از بررسی اولیه به جهت اطمینان از ربط با مسئله در دست مطالعه، به منظور تحلیل محتوا مورد مطالعه قرار گرفت. از آنجا که ممکن بود هر دشواری یا راهکار تنها مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد، پاراگراف، جمله و کلمه به عنوان واحد تحلیل انتخاب شد.
روش گردآوری اطلاعات
به منظور شناسایی پژوهشهای انجام شده در زمینه دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی، راهبردهای جستجویی متشکل از سه گروه اصطلاحات ناظر بر دشواریها، ذخیره و بازیابی اطلاعات و زبان فارسی تدوین شد: ١)‎ «مشکلات»، «دشواری»، «سختیها»، «مسائل»، و «چالشها»؛ ٢) «ذخیره اطلاعات»، «ذخیره‌سازی اطلاعات»، «بازیابی اطلاعات»، «سازماندهی اطلاعات» و ٣)‎ «فارسی». به منظور شناسایی جامع آثار، از فهرست منابع در پایان آثار نیز استفاده شد. در نهایت، آثار بسیاری به زبان فارسی و انگلیسی شناسایی و متن کامل آنها تحلیل شد. بررسی این منابع نشان داد تنها ۱۶ اثر به طور بینادین مشکلات نگارش فارسی را به طور ویژه از منظر ذخیره و بازیابی در محیط دیجیتالی مد نظر قرار داده‎اند. لازم به ذکر است، شماری از پژوهشها بر معایب نگارش فارسی به طور مطلق متمرکز شده‎اند و به هدف بررسی دشواریها از منظر بازیابی اطلاعات به رشته تحریر درنیامده‎اند (برای نمونه، نگاه کنید به ۶ -۱٩). در پژوهش حاضر، این گونه آثار مد نظر قرار نگرفت.
پیشینه پژوهش
پژوهشها پیرامون زبان فارسی
چنان که بیان شد، پژوهشهای بسیاری در زمینه بازیابی اطلاعات در زبان فارسی انجام شده است که شمار اندکی از آنها به طور بنیادین و جامع به بررسی چالشهای نگارش فارسی پرداخته‎اند. با توجه به آنکه این دسته آثار در بخش یافته‎ها معرفی خواهند شد، از مرور آنها در این بخش خودداری می‎شود.
«سمایی» (۱۳۷۹) به بررسی حالات مفرد و جمع در زبان فارسی پرداخت. «راثی ساربانقلی» (۱۳۸۴) با بررسی مشکلات جستجو و بازیابی اطلاعات فارسی در اینترنت در یکی از واحدهای دانشگاه آزاد نشان داد کاربران به شکلهای مختلف نوشتاری توجهی ندارند و از عملگر«OR» استفاده نمی‎کنند. «عبداللهی» (۱۳۸۶) با بررسی چالشهای ریخت‎شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای گوگل، یاهو، و آلتاویستا نشان داد هیچ یک از جستجوگرهای مذکور، چالشهای زبان‎شناختی فارسی را به منظور بهبود کاوش مورد توجه قرار نداده‎اند. در نهایت، الگویی برای ایجاد اصلاحات در شیوه نگارش فارسی ارائه شد. «گل‎تاجی و بذرگر» (۱۳۸۹) با بررسی مشکلات ریخت‎شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‎رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی‎ایران و جهاد دانشگاهی، نشان دادند چالشهای ریختی شناخته شده زبان فارسی، تأثیر بسیاری بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر دارد. همچنین، هیچ یک از این سه پایگاه به شیوه‎ای جامع و قابل ملاحظه به حل مسائل ریخت‎شناسی واژگان فارسی نپرداخته‎اند.
پژوهشهای بسیاری به طراحی و/ یا آزمایش تکنیکها و راهکارهایی برای خودکارسازی و بهبود اثربخشی بازیابی فارسی پرداخته‎اند. برای نمونه، «یوسفان و همکاران» از طریق تحلیل ریخت‎شناختی، به ریشه‌یابی برخی واژه‎های عربی در زبان فارسی پرداخته‎اند (یوسفان و همکاران، ۲۰۱۰)‎. برخی دیگر ریشه‌یاب فارسی طراحی کرده‎اند (تقوا و همکاران، ۲۰۰۵؛ مهراد و برنجیان، ۲۰۱۱؛ تشکری و همکاران، ۲۰۰۲؛ موسوی میانگاه، ۲۰۰۶؛ برنجکوب و همکاران، ۲۰۰۹). «موسوی میانگاه» (۲۰۰۷) کوشیده است راهکاری برای مشکل تکثّر معانی واژگان فارسی به هنگام ترجمه ماشینی ارائه دهد. در پژوهشهای دیگر، ساخت هستی‎شناسی فارسی به روشهای مختلف از جمله بازمهندسی اصطلاحنامه و بر پایه ویکی‎پدیا به منظور افزایش دقت بازیابی بررسی و/یا آزمایش شده است (شهیدی و همکاران، ۱۳۸۴؛ خسروی و وظیفه‎دوست، ۱۳۸۶؛ فرهودی و همکاران، ۲۰۰۹). «کیوان و همکاران» (۲۰۰۶) برنامه پرشیانت را برای کاربردهای مختلف در پردازش زبان طبیعی فارسی طراحی کردند. «ایرانپور مبارکه و مینایی بیدگلی» (۲۰۰۹) تکنیکی جدید را برای ریشه‌یابی افعال در متون فارسی ارائه کرده‎اند که می‎تواند در پیش‎پردازش زبانشناختی و متن‎کاوی از جمله به منظور برچسب‎زنی ادات سخن و تشخیص مرز جملات به کار رود. در پژوهشی دیگر، روشی برای نمایه‎سازی چندنویسه‎ای متون فارسی پیشنهاد شده است (دانش و همکاران، ۲۰۱۱). کارآیی فنون پردازش زبان طبیعی در بازیابی چندزبانه در تحقیقی دیگر مورد آزمایش قرار گرفت (علیزاده و فتاحی، ۲۰۱۰). همچنین، نشان داده شد که برچسب‎گذاری ادات سخن تنها زمانی تأثیری قابل توجه بر اثربخشی بازیابی دارد که با ریشه‌یابی همراه باشد (کریم‎پور و همکاران، ۲۰۰۹).‎ راهکارهایی اکتشافی برای بهبود صحت نتایج برچسب‎زنی ادات سخن نیز آزمایش شده و تأثیر مثبت آنها بویژه برای واژه‎های ناشناخته تأیید شده است (محترمی و همکاران، ۲۰۰۸). آزمایش تکنیکهای نمایه‎سازی چندنویسه‎ای و گسترش پرسش نشان داده است تکنیک نمایه‎سازی چهارنویسه‎ای مبتنی بر مدل فضای برداری، نتیجه‎ای قابل قبول و تکنیک گسترش پرسش «تحلیل محتوای محلی» بهترین نتیجه را برای بازیابی فارسی به همراه خواهد داشت (آل احمد و همکاران، ۲۰۰۷). در پژوهشی دیگر، راهکارهایی برای ریشه‌یابی زبان فارسی و همچنین بومی‎سازی یا سفارشی کردن بخشهایی از موتور جستجو که متأثر از ساختار زبان است، ارائه شده است (طرح جامع پیکره زبان…، ۱۳۸۸)‎. «گزنی» (۱۳۸۵) سامانه‎ای را برای استخراج خودکار عبارتهای کلیدی از متون فارسی به منظور به‎کارگیری در طراحی سامانه‎های بازیابی طراحی کرده است. در پژوهشی دیگر، تکنیکی برای انتخاب مفهوم درست اصطلاحات پرسش در بازیابی انگلیسی– فارسی پیشنهاد شده است که در آن احتمالات ترجمه بر پایه گرافهای مفاهیم اصطلاحات پرسش محاسبه می‎شود (تیموریان و همکاران، ۲۰۰۹). ساخت پیکره متن فارسی برای به کارگیری در پژوهشهای بازیابی اطلاعات، در کانون توجه دسته‎ای از پژوهشها بوده است. برای نمونه، ساخت پیکره موضوعی فارسی، مجموعه افعال فارسی و پیکره متن استاندارد «همشهری» را می‎توان نام برد (خلیفه سلطان و همکاران، ۲۰۱۰الف؛ ۲۰۱۰ب؛ آل احمد و همکاران، ۲۰۰۹).
به طور کلی، مرور پژوهشها نشان می‎دهد پیشرفتها و دستاوردهای بزرگی در حوزه بازیابی اطلاعات فارسی حاصل شده است. با این حال، شمار پژوهشهایی که به طور ویژه و بنیادین به مشکلات نگارش فارسی در الگوریتمهای بازیابی، خواه در پایگاه‎های اطلاعاتی تخصصی، خواه در موتورهای کاوش عمومی‎وب بپردازند، اندک است. از این رو، نیاز شدیدی برای انجام پژوهشهای بیشتر، به منظور شناسایی جامع‎تر و عمیق‎تر چالشهای نگارش فارسی، میزان تأثیر آنها بر اثربخشی بازیابی اطلاعات، ارزیابی راهکارهای پیشنهادی و ارائه راهکارهای جدید، وجود دارد.
پژوهشها پیرامون دیگر زبانها
تحقیقات بسیاری درباره سبک نگارش و تأثیر آن بر بازیابی اطلاعات در زبانهای دیگر انجام شده است. برای نمونه، نشان داده شده است که برچسب‎زنی ادات سخن می‎تواند از ابهامهای لغوی کلمات هم‎نگاشت در زبان سوئدی بکاهد (هدلاند و همکاران، ۲۰۰). در پژوهشی دیگر، تأثیر مثبت تحلیلهای ریخت‎شناختی مانند ریشه‎سازی و جداسازی کلمات مرکب، بر نتایج بازیابی در زبانهای هلندی، آلمانی و ایتالیایی تأیید شده است (مونتس و دی ریژکه، ۲۰۰۲). همچنین، نتایج بازیابی در موتورهای کاوش عمومی‎که مسائل زبان‎شناختی و ریخت‎شناختی لهجه‎ها یا زبانهای غیرانگلیسی مانند روسی، فرانسوی، مجاری،‏ عربی و عبری را لحاظ نمی‎کنند، مناسب نیست (بارایلان و گاتمن، ۲۰۰۲؛ مقداد، ۲۰۰۵؛ مقداد و لارج، ۲۰۰۱؛ مقداد و سویی، ۲۰۰۵). «لازارینیس و همکاران» (۲۰۰۹) با مروری بر آثار پیرامون دشواریهای بازیابی به زبانهای غیرانگلیسی، پرسشهای فرارو و راهکارهای ممکن برای رفع آنها و همچنین زمینه‎های پژوهشهای آینده را شرح داده‎اند.

جدول۱٫ دشواریهای ذخیره و بازیابی رایانه‎ای به زبان فارسی و توزیع آنها در متون

ردیف
چالش
فراوانی متون
ردیف
چالش
فراوانی متون
۱
تشدید (معیّن/ معین)
۵
۲۳
گوناگونی معادلهای علمی
۲
۲
همزه پایانی (املاء/ املا)
۳
۲۴

(عدم)استفاده از «ء» بعد از« های» بیان حرکت در حالت مضاف (خانۀ مردم / خانه مردم(

۴
۳
تنوع شیوه دگرنویسی (امریکا / آمریکا)
۷
۲۵
تنوع نگارش یای وحدت نکره بعد از «های» مختفی (خانه‌ایی / خانه‌یی/ خانۀ)
۴
۴
های غیر ملفوظ (مورچگان/مورچه‎گان)
۲
۲۶
عدم تمایز حروف بزرگ و کوچک در ابتدای جمله
۱
۵
همزه متصل به «یای» وحدت (عطایی/ عطائی)
۳
۲۷
شباهت اعداد (صفر و نقطه / ۱ و ۲ و ۳)
۳
۶
استفاده از «آ» و «ا» به جای هم (درآمد/ درامد)
۵
۲۸

تعدد حروف دندانه‎دار (پیشینیان)

۴
۷
تنوع حروف (اطاق/ اتاق)
۶
۲۹

تعدد نقطه‎های حروف (ث ش پ)

۵
۸
الف کوتاه (تقوی/ تقوا)
۷
۳۰
شباهت شکل حروف (ک گ / ت ث / ر ز)
۵
۹

تای نقطه‎دار (مشکوه/ مشکات / مشکوه)

۳
۳۱

ناتوانی در نشان دادن تلفظ‎های باستانی و میانه، گویشها و لهجه‎ها

۲
۱۰

«ی» صامت میانجی (پرتوی آفتاب/ پرتو آفتاب)

۲
۳۲

یکسانی نشانه واژه بستهای ربطی فعل «بودن» و «م» مالکیت (پدرم =پدر من / پدر هستم)

۱
۱۱
خط تیره (اقتصادی اجتماعی/ اقتصادی- اجتماعی)
۱
۳۳

یکسانی علامت نکره و اسم ساز و صفت ساز (اجتماعی: اجتماع+‎ی نکره؛ اجتماعی بودن)

۱
۱۲

نقطه در سرنامها (اچ. آی. وی/ اچ‎آی‎وی)

۱
۳۴

آرایش آزاد سازه‎های جمله (دیروز من کتاب خریدم/ من دیروز کتاب خریدم)

۱
۱۳

پیوسته‎نویسی (سرهم یا با نیم‎فاصله) یا جدا نویسی (کتاب شناسی / کتابشناسی/ کتاب‎شناسی)

۱۳
۳۵

فقدان پایانه‎های تصریفی نمایانگر حالت کلمه‎ در جمله (این کار- خانه را خراب کرد. این کارخانه- را خراب کرد. این- کارخانه را خراب کرد.)

۱
۱۴

تنوع نشانه‎های جمع (عاقلان/ عقلا / عاقلها)

۸
۳۶
اختیاری بودن فاعل ([علی] به مدرسه رفت)
۱
۱۵
تنوین (واقعا/واقعاً/ واقعن)
۴
۳۷

اشتقاق صفر و تغییر مقوله واژگانی کلمه‎ها (انتخابها در شرایطی بد بود/ بد و خوب را تشخیص داد.)

۱
۱۶

فاصله بین حروف یک واژه به اشتباه یا به عمد (دوا زده/ دوازده؛ کدگذاری/کد گذاری)

۷
۳۸

واژه‎های به وام گرفته یا ترجمه شده (کامپیوتر/ رایانه)

۱
۱۷
املاهای مختلف همزه (مسئول/ مسؤول)
۶
۳۹

مترادف‎ها (درست/ صحیح)

۱
۱۸
تفاوت در آوا / اعراب (مَرد/ مُرد، دیر (زمان) / دیر [صومعه])
۸
۴۰

اسامی‎عامیانه، تجاری، مشهور یا علمی

۱
۱۹
تعدد شکلهای یک حرف (عـ ـعـ ـع ع)
۸
۴۱
کسره اضافه (پدر او را تحسین کرد/ پدرِ او را تحسین کرد)
۳
۲۰
یکسانی تلفظ برخی حروف (س ص ث)
۶
۴۲
آوانویسی به جای ترجمه (سورس/ منبع)
۱
۲۱
نوشتن «ک» و «گ» با سرکش و بی آن (ک/ ک)
۳
۴۳

همنام‌ها و هم‎آواها شیر (ماده نوشیدنی، حیوان، ابزار)

۱
۲۲
نگارش از راست به چپ
۷

یافته‎های پژوهش
چالشهای نگارش فارسی در محیط دیجیتال
جدول ۱ مشکلات نگارش زبان فارسی در بازیابی اطلاعات و همچنین شمار پژوهشهایی را که به هر مشکل پرداخته‎اند، برای درک بهتر اهمیت هریک از دیدگاه نویسندگان، گرد آورده است. آثار مورد بررسی روی هم رفته ۴۳ چالش نگارشی را نام برده‎اند. چالشهای دیگری نیز ذکر شده بود که به نظر نمی‎رسد تأثیر مستقیم بر بازیابی اطلاعات داشته باشد. مانند وجود «و» ناخواندنی در کلماتی چون «خواهش»، «خواندن» یا تلفظهای مختلف یک حرف (مثل خوش/ او / والی). این دو ویژگی تنها در برنامه‎های تشخیص و پردازش صوت یا در صورت ضعف یا خطای املایی تایپیست یا کاربر می‎تواند اثرگذار باشد. چنان‎که از فراوانی متون مورد بررسی برمی‎آید، آنها بیش از همه به مسئله «پیوسته‎نویسی، یا جدانویسی» پرداخته‎اند. پس از آن، «تنوع نشانه‎های جمع» (، «تفاوت در آوا / اعراب‎گذاری»، «تنوع دگرنوشته‎ها»، «الف کوتاه»، «فاصله بین حروف واژه»، و «نگارش از راست به چپ» فراوانی بالایی دارند [برای نمونه نگاه کنید به حری، ۱۳۷۲؛ راثی ساربانقلی، ۱۳۸۴الف؛ ۱۳۸۴ب؛ عبداللهی نورعلی، ۱۳۸۶؛ گل تاجی و بذرگر، ۱۳۸۹، محقق زاده و زارعیان، ۱۳۸۳؛ اسلامی، ۱۳۸۱؛ مرتضایی، ۱۳۸۱؛ جرات و سمایی، ۱۳۸۳؛ معصومی همدانی، ۱۳۸۱؛ صدیق بهزادی، ۱۳۷۷؛ حسینی بهشتی، ۱۳۸۲؛ مرعشی، ۱۳۸۳).
نوع و خاستگاه چالشها
چالشهای برشمرده در متون را می‎توان به سه سطح معنایی، نحوی، و ریخت‎شناختی تقسیم کرد. برخی مشکلات، بیش از آنکه به ریخت‎شناسی فارسی بازگردند، به دستور زبان فارسی مربوط می‎شوند. برای نمونه، اختیاری بودن فاعل در جمله‎های فارسی یا آرایش آزاد سازه‎های جمله. چالشهای معنایی را می‎توان به تنوع واژگان و غنای زبان و همچنین وابستگی به زبانهای بیگانه نسبت داد. تنوع در کاربرد واژه می‎تواند بر اثربخشی بازیابی اطلاعات تأثیر گذارد. برای نمونه، واژه‎های وام گرفته، مترادفها، آوانویسی واژه‎های خارجی به جای ترجمۀ آنها و چنددستی در نگارش یا تنوع واژگان به کار گرفته برای تبیین اسامی‎مشهور یا علمی، می‎تواند جامعیت جستجو را بویژه در محیطهای وبی که امکان استفاده از اصطلاحنامه یا دیگر ابزارهای مهار واژگان وجود ندارد، تحت تأثیر قرار دهد. آشکار است که این مشکلات، مختص زبان فارسی نیست، با این حال، به دلیل وابستگی زیاد زبان فارسی به زبانهای خارجی و نبود استانداردی برای آوانویسی واژگان خارجی، به نظر می‎رسد این مسئله بازیابی فارسی را به شدت با دشواری روبرو سازد. به منظور کاهش تأثیر این عوامل، کاربر باید به هنگام جستجو، واژگان را با همه تنوع آنها مد نظر داشته باشد تا بتواند در پیوندی انفصالی، آنها را در یک راهبرد جستجو کند و بدین ترتیب، تا جایی که ممکن است به جامعیت بیشتر نزدیک شود.
دسته‎ای دیگر از چالشها به تنوع ریخت‎شناختی نگارش فارسی باز می‎گردد که به نگارش، عدم نگارش یا تنوع در نگارش حروف، علایم یا اعراب منجر می‎شود (مانند همزه پایانی یا میانی، «های» غیرملفوظ، «ی» ک پیش از «یای» وحدت، الف (کوتاه یا بلند)، تای نقطه‎دار، «ی» صامت میانجی، خط تیره، نقطه، فاصله یا نیم فاصله). به نظر می‎رسد حدس زدن و اعمال تمامی‎این جزئیات برای کاربر در راهبرد جستجو دشوار باشد. با این حال، با توجه به قاعده‎مندی بسیاری از این ریختها، می‎توان در الگوریتم جستجو، واژه‎ها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. تنوع فونتها بویژه تفاوت بین فونتهای قدیمی‎و جدید (با نگارش فارسی و عربی) به دسته‎ای دیگر از مشکلات دامن می‎زند که به ظاهر به ریخت‎شناسی کلمه باز می‎گردد، اما در واقع به تفاوت نویسه‎های فارسی و عربی مربوط می‎شود (مثل عربی (بی‎سرکش) و ک فارسی (با سرکش) یا ی فارسی و عربی).
بدین ترتیب، مشاهده می‎شود که برخی چالشها، مانند تنوع مترادفها و املاهای واژگان، ذاتی هر زبانی است، اما برخی مانند حذف یا درج حرف همزه یا «ی»به سرشت زبان فارسی یا استاندارد نبودن نگارش آن باز می‎گردد. همچنین، ریشه بروز این چالشها را می‎توان در مراحل مختلف چرخه حیات یک مدرک علمی‎از مرحله تایپ متن به هنگام تولید مدرک، تا آخرین مرحله که دروندهی عبارت جستجوست، یافت. نبود استاندارد نگارش فارسی و در نتیجه سلیقه‎ای عمل کردن نویسندگان یا تایپیستها، نبود صفحه‎کلید و کدهای استاندارد، عادت به آسان‎نویسی و رعایت نکردن پیچیدگیهای نگارش به هنگام تایپ می‎تواند به چنددستی در نگارش واژگان نویسندگان، تایپیستها، نمایه‎سازان و کاربران منجر شود (عبداللهی نورعلی، ۱۳۸۶؛ محقق‎زاده و زارعیان، ۱۳۸۳).
نوع تأثیر و فعالیت متأثر از چالشها
آشکار است که بدون بهنجارسازی چالشهای نگارشی و دستوری در الگوریتمهای سامانه‎های جستجو و بازیابی فارسی، اثربخشی بازیابی مطلوب نخواهد بود. در بسیاری از موارد، انتخاب یکی از صورتهای نگارشی و نادیده گرفتن دیگری، سبب کاهش بازیافت می‎شود. افزون بر این، گاهی چنددستی در شیوه نگارش، به ریزش کاذب نیز منجر می‎شود. برای مثال، جستجو به دنبال واژه «معین» بدون تشدید، نه تنها به از دست رفتن مدارکی حاوی این واژه با نگارش تشدیددار، بلکه به بازیابی مدارک حاوی واژه «معین» (به معنی «کمکی») منجر می‎شود. به عنوان نمونه‎ای دیگر، بی‎دقتی در فاصله‎گذاری بین کلمات مرکب حاوی حروف نا‎چسبان (مثل کدگذاری)، می‎تواند به انفصال یا اتصال کاذب، تغییر معنی (حری،۱۳۷۲) و در نهایت ریزش کاذب بینجامد. از این گذشته، اصل چسبیده‎نویسی حروف در فارسی،‎ که بر خلاف لاتین جدا جدا نوشته نمی‎شوند، تشخیص مرز بین حروف را دشوار می‎سازد. این خود می‎تواند دقت تایپیست یا جستجوگر به هنگام ورود داده را کاهش دهد یا به بروز خطاهای مکرر در نرم‎افزارهای تشخیص نوری نویسه، منجر شود.
به همین ترتیب، شیوه اعراب‎گذاری می‎تواند به بازیابی واژه‎هایی با املای مشابه اما آوای متفاوت و در نتیجه ریزش کاذب منجر شود. این امر می‎تواند امکان بهنجارسازی اعراب و علایم در الگوریتمهای جستجو را نیز محدود سازد. علاوه بر این، ناتوانی خط فارسی در نشان دادن تلفظ واژه‎های ایران باستان و میانه و نیز گویشها و لهجه‎ها، حتی با نشانه‎ها، کاهش بازیافت اطلاعات را در پی‎خواهد داشت. همچنین، ممکن نبودن تمایز بین اسم خاص و عام در زبان فارسی، برای مثال نبود حروف دوگانه بزرگ و کوچک، می‎تواند به‎ریزش کاذب بینجامد. برای نمونه، در جستجوی «حافظ» (شاعر قرن هشتم هجری) که یک اسم خاص است، همه مدارکی که واژه «حافظ» به معنای عام در آنها وجود دارد نیز بازیابی می‎شوند. آشکار است که با شیوه کنونی نگارش متن، نمی‎توان الگوریتمهای جستجو را به نحوی طراحی کرد که با تمایز خودکار بین اسامی‎خاص و عام، دقت جستجو را افزایش دهند.
هر یک از این چالشها، بسته به فراوانی رویداد آنها – در متن یا در عبارت جستجو – نتایج بازیابی را با درجات متفاوتی متأثر می‎سازند. برای نمونه، همان‎گونه که «مانینگ و همکاران» می‎نویسند، بسیاری از کاربران پرسشها را بدون علایم آوایی می‎نویسند. این کار برای بالا بردن سرعت، از روی تنبلی یا محدودیت نرم‎افزاری، یا به دلیل عادتهایی بازمانده از روزگار گذشته که استفاده از متن غیر اسکی در بسیاری از نظامهای رایانه‎ای دشوار بود، صورت می‎گیرد (مانینگ، راگاوان و شوتس، ۲۰۰۸). از این رو، احتمال می‎رود علایمی‎مانند اعراب‎گذاری، همزه پایانی و تشدید، در هر دو دسته کاربران و تایپیستها، به یک اندازه نادیده گرفته شود. در نتیجه، این موارد در مقایسه با تنوع در املا، همزه میانی، پیوسته یا جدانویسی واژه‎های مرکب، گوناگونی برابرنهادهای علمی، و دگرنویسی مشکل کمتری را به لحاظ جامعیت بازیابی پیش می‎آورند، با این حال، در مواردی ریزش کاذب را افزایش می‎دهند.
همچنین، سطح تأثیر این چالشها به لحاظ عملیات و فعالیتهای مختلف، متفاوت است. برای نمونه، رعایت نکردن اعراب‎گذاری نه تنها در مرحله درونداد اطلاعات (به هنگام تولید مدرک یا جستجو) رخ می‎نماید و نتایج جستجو را متأثر می‎سازد، بلکه به هنگام پردازش خودکار نوشتار، بویژه در زمینه بازسازی گفتار و ترجمه ماشینی مشکلاتی را به همراه دارد. معلوم نیست برای یک صورت نوشتاری واحد، کدام زنجیره واجی را باید در نظر گرفت. همچنین، تشخیص تلفظ صحیح واژه برای برنامه‎های گویا دشوار خواهد بود. یا به عنوان نمونه‎ای دیگر، یکسانی تلفظ برخی حروف مانند «س»، «ث»، و «ص» باعث کُندی و پیچیدگی کار پردازش نوشتار می‎گردد، زیرا برنامه پردازشگر نوشتار ناچار است دائم به واژگان مراجعه و برای هر کدام از واحد‎های نوشتار، یک صورت واجی از واژگان اخذ کند (اسلامی، ۱۳۸۱). یا به عنوان نمونه‎ای دیگر، آشکار است که وجود دندانه‎ها و نقطه‎های متعدد، چسبیدگی و شباهت شکل برخی حروف، ورود داده‎ها را به شکل دستی و خودکار دچار مشکل می‎کند؛ بدین ترتیب که دقت تایپیست یا کاربر در ورود صحیح املای واژه را کاهش می‎دهد و تشخیص نوری نویسه‎ها را هم دشوار می‎سازد. این امر در مورد اعداد نیز صادق است (مانند شباهت صفر و نقطه و همچنین ١، ۲ و ۳) (راثی ساربانقلی، ۱۳۸۴الف).
افزون بر این، پردازش خودکار متن می‎تواند در اثر وجود چندین چیدمان نویسه‎ای در متن با دشواریهایی روبه رو شود. برای نمونه، بر خلاف متن فارسی که از راست به چپ چیده می‎شود، متون ریاضی، شیمی، نت‌های موسیقی، و دستورهای شطرنج از چپ به راست نوشته می‎شوند. از این رو، گاه در یک متن چندین بار جهت چیدمان نویسه‎ها تغییر می‎کند. نرم‎افزار پردازش خودکار ناچار است بارها جهت خواندن را از راست به چپ و بالعکس تغییر دهد. آشکار است که در این میان امکان بروز خطا بسیار افزایش می‎یابد. علاوه بر این، یکسانی علامت نکره و اسم ساز و صفت‌ساز، یکسانی نشانه واژه‎بست‌های ربطی فعل«بودن» و «م» مالکیت، اختیاری بودن فاعل، نبود نشانه نوشتاری برای کسره اضافه و آرایش آزاد سازه‎های جمله باعث می‎شود تشخیص مرز و نقش گروه‎های نحوی برای پردازش خودکار متن یا ترجمه ماشینی با چالش روبه رو شود (اسلامی، ۱۳۸۱). آشکار است، وقتی چند مورد از این چالشها در یک اصطلاح یا عبارت واحد روی دهد، اثربخشی بازیابی کمتر شده و ضرورت تدوین راهبرد پیچیده‎ای برای جستجو بیشتر و در عین حال انجام آن دشوارتر می‎شود. برای نمونه، در جستجو به دنبال واژه «دایره‎المعارف»، مستلزم پیوند انفصالی چندین املا در یک راهبرد واحد است تا جامعیت جستجو تضمین گردد: ١- سه شکل مختلف حرف «ی» عربی (با دو نقطه زیرین)، فارسی و ئ؛ ٢- دو شکل مختلف «ه» (تای گرد نقطه‎دار و بدون نقطه) ٣- گسسته نویسی و پیوسته‎نویسی «ه» (بی‎فاصله، با فاصله یا نیم فاصله).
جامعیت چالشهای معرفی شده در آثار
با نگاهی به آنچه تاکنون بیان شد، روشن می‎شود شمار بسیاری از چالشها در آثار مورد بررسی معرفی شده‎اند. با این حال، نمی‎توان نسبت به جامعیت آنها مطمئن بود، زیرا برخی چالشها در این متون نادیده گرفته شده یا به‎طور گذرا به آن پرداخته شده است. احتمال می‎رود با پژوهشهای زبانشناختی بیشتر بتوان به نمونه‎های دیگری نیز دست یافت. برای مثال، مسائلی چون«یکسانی علامت نکره و اسم ساز و صفت ساز» و یا «یکسانی نشانه واژه بستهای ربطی فعل «بودن» و «م» مالکیت»، با وجود تأثیر بسزایی که می‎توانند در میزان موفقیت و ثمربخشی جستجو داشته باشند، کمتر مورد توجه بوده‎اند. همچنین، به برخی موارد در متون هیچ‎گونه اشاره‎ای نشده است:
۱٫ استفاده از مصوتهای کوتاه به جای مصوت بلند «و» یا «ا» (مانند کوه/که؛ گوهر/گهر؛ کاه/که)
۲٫ کاربرد دو مصوت کوتاه و بلند « ُ» و «و» به جای هم (مانند خرسند و خورسند؛ خرجین/ خورجین)
۳٫ یکسانی واژه‎بستهای ربطی فعل «بودن»و «ی» وحدت یا نکره (مانند «خانه‎ای»، که در آن «ای» می‎تواند نقش فعلی (در خانه هستی) یا نشانه نکره (یک خانه) داشته باشد)
۴٫ تأثیر به‎کارگیری فونتهای قدیمی‎و جدید که ذاتی زبان فارسی نبوده، بلکه از پویایی و تنوع فناوری سرچشمه می‎گیرد، چندان مد نظر قرار نگرفته است. این چالش در بخش بعد به اختصار شرح داده خواهد شد.
نقش نوع فونت
نقش کدگذاری و نوع فونت، تنها در (طرح جامع)‎ به طور گذرا مورد اشاره قرار گرفته است. این امر بویژه از آن رو اهمیت دارد که کاربر به دلیل شباهت نمایش این فونتها، متوجه تفاوت نویسه‎ای آنها با هم نیست. از این رو،‎ احتمال این که به هنگام جستجو در پی لحاظ کردن هر دو نوع فونت باشد، بسیار اندک و در نتیجه احتمال از دست دادن منابع بسیار زیاد است. مثال بارزی در این باره، حرف «ی» است که به دو شیوه کدگذاری می‎شود. بسته به این که در صفحه کلید، کدام نوع فونت به عنوان پیش‎گزیده به کار رفته باشد، دسته‎ای از منابع با فونتِ دیگر بازیابی نخواهند شد. دو چالش « ک در شکلهای مختلف»، و نیز «تای نقطه‎دار» که در متون به آنها اشاره شده است، می‎تواند ناشی از تنوع در فونتهای مورد استفاده در رایانه‎های مختلف باشد. تأثیر تفاوت فونت بر جامعیت نتایج را با جستجو در اینترنت می‎توان آشکارا دید. برای مثال، جستجو با حرف کاف (بدون سرکش) در گوگل به دنبال واژه «کودکان» به بازیابی ۵۴ میلیون و ۹۰۰ هزار پیشینه منجر شد. اما حاصل جستجو به دنبال همین واژه با کاف سرکش‎دار ۳۲ میلیون و ۷۰۰ هزار پیشینه بود که تفاوت چشمگیری را نشان می‎دهد. همچنین، جستجو به دنبال کلیدواژه «روانشناسی» با یای عربی (با دو نقطه در زیر) به بازیابی ۳۲۵ میلیون و با یای فارسی (بدون نقطه) به ۶۱۸ هزار پیشینه انجامید (جستجو به تاریخ ۲۵ بهمن ماه ۱۳۹۰). اگر کاربر این دو نوع حرف را با پیوند انفصالی جستجو نکند، بخش عمده‎ای از نتایج را از دست خواهد داد. البته، تدوین راهبرد جامع جستجو در چنین شرایطی بسیار دشوار خواهد بود، زیرا ممکن است فرد راهکار دسترسی به هر دو نوع فونت را نداند. نکته دیگر در مورد تفاوت صفحه‎ کلیدها یا برنامه‎ها به لحاظ شیوه تعریف یک نویسه است. برای نمونه، شیوه اعمال نیم‎فاصله که برای پیشگیری از چسبیدن دو جزء یک واژه مرکب به هم اعمال می‎شود، در محیطهای مختلف با هم متفاوت است. در واژه‎پرداز وُرد ، نیم فاصله را می‎توان به دو شیوه Shift+ Space و نیز Ctrl + (_) درج کرد. حال آنکه در رابط کاربر گوگل تنها شیوه نخست اعمال می‎شود و شیوه دوم با «فاصله» یکسان تلقی می‎شود. اگر کاربر از این تفاوتها آگاه نباشد، به سادگی می‎تواند بخشی از منابع را از دست بدهد.
راهکارهای ارائه شده در متون
هریک از پژوهشهای مورد بررسی برای رفع یا تقلیل این مشکلات نگارش فارسی در محیط دیجیتالی، راهکارهایی را ارائه نموده‎اند (جدول۲). برخی، راهکارهایی بنیانی برای حلّ ریشه‎ای این مشکلات هستند و برخی ناظر بر یک یا چند مشکل نگارشی محدود. هر راهکار را می‎توان به یک یا چند مرحله خاص از چرخه حیات مدرک یعنی پیش از بازیابی، و به هنگام بازیابی نسبت داد. دسته اول، راهکارهایی است برای نویسندگان و تایپیستها به هنگام تولید مدرک یا ذخیره‎سازی آن. همچنین، این راهکار می‎تواند به هنگام نمایه‎سازی به منظور تولید بازنمونهای مدرک نیز به کار گرفته شود. بنابراین، مخاطب این راهکارها، گاه کاربران، گاه نمایه سازان، و گاه هر دو قشر می‎باشند. راهکارهای دسته دوم، متوجه تمام افرادی است که در محیطهای دیجیتالی به جستجوی اطلاعات می‎پردازند.
این راهکارها ناظر به دو روش کلیِ ایجاد ابزارها و قواعد برای استانداردسازی نگارش متن (مدرک، اصطلاحات نمایه و اصطلاحات پرسش) است. در راهکار «هماهنگی رسم الخط» تأکید بر آن است که مرجعی قابل اطمینان، استانداردی را برای شیوه نگارش تصویب و عرضه کند و اجرای آن نیز الزام آور باشد تا بتوان مرز و شیوه نگارش کلمات را تابع قاعده واحدی کرد. برای تحقق چنین امری، پیشنهاد شده است فرهنگستان زبان کمیته‎ای را مأمور تدوین راهکاری برای شیوه خط فارسی کند. راهکار دیگر، استفاده از سیاهه آماده است. در این شیوه، به کمک سیاهه‎ای از پیش تعیین شده، احتمالات گوناگون شیوه نگارش از طریق ارجاعات با یکدیگر مرتبط می‎شود. پیشنهادی دیگر، تدوین فرهنگ جامع املایی است که در آن فهرستی جامع از واژه‎های دارای گوناگونی املایی گردآوری و برای ایجاد یکدستی و هماهنگی، به همه سازمانها ابلاغ شود و در کتابهای آموزشی و رسمی‎اعمال گردد. راهکار دیگر، تدوین اصطلاحنامه‎های تخصصی در زبان فارسی است که حاوی اصطلاحات معیار در هر رشته و شیوه نوشتاری مورد قبول باشد. این راهکار نیازمند اقدامهایی مؤثر، هماهنگ و حساب شده از طرف سازمانهای ذیربط است (حری، ۱۳۷۲؛ عبداللهی نورعلی، ۱۳۸۶؛ مرتضایی، ۱۳۸۱).
دسته‎ای دیگر از راهکارها قواعدی را برای یکدستی نگارش فارسی پیشنهاد می‎کنند. برای نمونه، در روش هماهنگ کردن حروف، همه حروف به شکل مستقل، بزرگ و در کنار هم نوشته می‎شوند (مثلاً « م ا س ت» به جای « ماست»). پیشنهادی دیگر، ناظر بر نگارش تکواژها به طور مستقل است. پیشنهاد تکمیلی برای بهبود این کار آن است که تکواژها با فاصله‎ای تعریف شده نسبت به یکدیگر، متفاوت با فاصله معمول میان کلمات نوشته شوند (برای مثال، «من زبان شناس‎ی نه می‎دان م». یعنی نخست، تکواژهای تشکیل دهنده هر کلمه شناسایی و از هم جدا می‎شوند، با این حال، بی‎فاصله نوشته می‎شوند (حری،۱۳۷۲). برخلاف برخی که فراهم کردن امکان اعراب گذاری را در واژه‎پردازهای فارسی پیشنهاد می‎کنند، برخی حذف تمامی نشانه‎های اعراب گذاری در نگارش را پیشنهاد می‎کنند، برخی نیز آوانگاری حروف (یعنی تکرار حرف مشدد به جای علامت تشدید، نوشتن نون خیشومی‎از روی زبر زنجیره به روی زنجیره نوشتار در مورد تنوین (محقق‌زاده و زارعیان، ۱۳۸۳).
راهکار دیگر، استفاده از هر دو شکل مفرد و جمع در نمایه‎سازی است. با این حال، معنای صورت جمع و مفرد برخی کلمات در زبان تخصصی متفاوت است. برای نمونه، «آثار باستانی» رایج‎تر از «اثر باستانی» است، «منسوجات نظامی» را نمی‎توان به شکل مفرد «منسوج» به کار برد. در واژه «مهمات» ارتباط معنایی صورت مفرد و جمع ضعیف شده است (سمایی، ۱۳۷۹). نگاشت یکسان حروفی مانند «ا» و «آ» از دیگر پیشنهادهاست. از آنجا که بین نگارش این دو مصوت کوتاه و بلند تمایزی وجود ندارد، با حذف علامت مد روی الف، املای کلماتی چون آرام، آن، انار، و ابر یکسان خواهد شد و تمایز بین این دو مصوت کوتاه و بلند در نمایش گرافیکی از میان می‎رود. همچنین، چیدمان از چپ به منظور یکدستی چیدمان انواع دروندادهای متنی، عددی و علایم پیشنهاد شده است. بدین ترتیب، یکدستی چیدمان از چپ نه تنها باعث هماهنگی زبان و متون ریاضی و شیمی، نتهای موسیقی، خط تصویری یا علائم گرافیکی مورد استفاده در سراسر جهان می‎شود، بلکه نگارش و مطالعه را هم برای انسان و هم برای ماشین ساده می‎سازد (محقق‌زاده و زارعیان، ۱۳۸۳). همچنین، تجهیز پایگاه اطلاعاتی به اصطلاحنامه می‎تواند کاربران را از ریختهای مختلف واژه به اصطلاح پذیرفته شده راهنمایی کند. ایجاد تمهیداتی برای آموزش و راهنمایی کاربران درباره استفاده از پایگاه، راهکار دیگری برای بهبود راهبردهای جستجوست (گل تاجی و بذرگر، ۱۳۸۹).
تحلیل راهکارهای ارائه شده در متون
گرچه راهکارهای ارائه شده در مجموع بهترین راهکارهای ممکن را تشکیل می‎دهند، با این حال، همان‌گونه که برخی نویسندگان خود نیز اذعان داشته‎اند هر راهکار به گونه‎ای قابل انتظار از جامعیت به دور است و در عین حال دارای کاستیهای خاص خود است. برای نمونه، در راهکار هماهنگ نوشتن حروف (حری، ۱۳۷۲)، احتمال خطا بسیار کاهش می‎یابد، با این حال، احتمال اقبال به این شیوه نگارش اندک است. زیرا مستلزم تغییر رفتار و نگرش کاربران است. بویژه، احتمال مقاومت در برابر آن، به دلیل دوری از شیوه سنتی نگارش فارسی، بیم گسستن پیوند با گذشته و دشواری خواندن متون کهن فارسی وجود دارد. البته می‎توان نمایش و ذخیره‎سازی متن به شیوه‎های متفاوت صورت گیرد، به نحوی که اولی به روش متعارف و دومی به روش «هماهنگ شده پیشنهادی» روی دهد. اما حتی در این صورت نیز این راهکار تنها بخشی از دشواریهای نگارش را رفع می‎کند و چالشهایی چون کلمات مرکب، اعراب‎گذاری، تفاوت در املا، عدم تمایز بین اسامی‎خاص و عام همچنان به قوّت خود باقی خواهد ماند. از سوی دیگر، در این روش به دلیل نیاز به تقطیع حروف، زمان زیادی به هنگام ذخیره‌سازی، کاوش و همچنین نمایش متن صرف می‎شود که کارآیی سامانه را کاهش می‎دهد. در راهکار استفاده از تکواژ‎ها نیز همان‎گونه که حرّی خود تأکید می‎کند، تعیین تکواژ‎ها نیازمند دانشی است که تنها نزد متخصصان یا پژوهندگان زبان‎شناسی است. از این رو، عملیاتی کردن این راهکار به سادگی ممکن نیست (حری،۱۳۷۲).
کاستی راهکار استفاده از سیاهه آماده، به پویایی زبان باز می‎گردد. در بهترین حالت، سیاهه آماده تنها در نقطه‎ای از زمان کامل است و هیچ‎گاه به نقطه کمال خود نخواهد رسید. از این رو، به بازنگری مستمر نیاز دارد. همچنین، بیم آن می‎رود که در دراز مدت، به دلیل بی‎دقتی یا سلیقه‎ای عمل کردن، سیاهه دچار ناهماهنگی شود. از این گذشته، کارآیی سامانه به لحاظ فضا و زمان کاهش می‎یابد، زیرا به ناچار حجمی رو به رشد از واژگان و صورتهای مختلف آن در سامانه ذخیره می‎شود و از آنجا که هر فقره اطلاعات هنگام بازیابی ناگزیر باید از غربال سیاهه مورد نظر بگذرد، زمان کاوش اطلاعات افزایش یافته، کار بازیابی کُند می‎شود. اما این شیوه را می‎توان در نبود مرجعی واحد و موثّق برای یکسان‎سازی شیوه نگارش، جایگزینی مناسب تلقی کرد(حری،۱۳۷۲).
در راهکار پیوند ساختگی میان کلمات، که بر تعریف فاصله‎های درونی اجزای کلمه استوار است، این اشکال عمده وجود دارد که قبل از درونداد اطلاعات، متخصصان باید کلماتی را که احتمال جدا یا پیوسته نوشتن اجزای آنها می‎رود، شناسایی و با کد مربوط مجهز کنند. در این روش، امکان پردازش خودکار متن نیست، زیرا عملیات مقدماتی باید قبل از ورود صورت گیرد و از طریق صفحه کلید به نظام خورانده شود. اما این روش، همان‎گونه که حرّی بیان می‎دارد، برای حلّ مسائل مقطعی برنامه‎های فارسی موجود مطلوب است(حری،۱۳۷۲).
در روش هماهنگی رسم الخط، تأکید بر تدوین و تصویب رسم الخط واحد و الزامی‎کردن اجرای آن است(حری،۱۳۷۲). آشکار است که این راهکار، نه تنها از منظر بازیابی اطلاعات که به لحاظ رفع آشفتگی و چندگونگی نگارش و در نتیجه بقا و اعتلای زبان فارسی، بسیار ارزشمند است. با این حال، وابستگی آن به تغییر رفتار و عادات کاربران اثربخشی آن را در کوتاه مدت زیر سؤال می‎برد. حتی اگر با ابلاغ قوانین و مقررات استاندارد نگارش، افراد را به رعایت نگارش تجویز شده وادار کنیم، باز هم نهادینه شدن آن بسیار به طول خواهد انجامید. به طور کلی، پیشنهادهایی از این دست، به ایجاد تغییراتی زیربنایی و گسترده در بافتاری نزدیک به بیش از یک هزار ساله نیاز دارند. بویژه، این گونه راهکار‎ها نیازمند هم‎رأیی و همراهی توده مردم – خواه عوام یا خواص – است که چه بسا لزوم این تغییرات اساسی را درک نکنند. از سوی دیگر، از آنجا که ابتکار فردی جای خود را به نگارش دستوری خواهد داد، با پراگماتیک زبان مغایر خواهد بود، چه، زبان در بستر عملی و در جریان طبیعی خود، راه بقای خود را می‎یابد و چندان با روشهای دستوری سازگار نیست. از این رو، این راهکارها بیشتر متناسب هدفهای راهبردی و بلندمدت است، که آن نیز مستلزم نقش‎آفرینی بنیادین‎ترین نهاد یعنی نظامهای آموزش و پرورش است. از سوی دیگر، به نظر می‎رسد جمع میان این ۵ راهکار به دلیل به کارگیری مبناهای متفاوت برای تقطیع عناصر زبان‎شناختی دشوار است. در پیشنهاد نگارش هماهنگ حروف، حرف به عنوان عنصر اصلی مبنا قرار گرفته است و در پیشنهاد دوم، تکواژ. اما در پیشنهادهای بعدی، مبنای تقطیع کلمه است. اگر بپذیریم که این تدابیر برای یافتن راهی روشن به منظور برقراری ارتباط انسان – ماشین – انسان است و کاربران رایانه عمدتاً افرادی با تخصصهای گوناگون هستند که قصد ارتباط کلامی با یکدیگر دارند، بنابراین، کوچکترین واحد معنادار برای آنها کلمه است، نه حرف یا تکواژ. از این گذشته، راهکار تهیه سیاهه آماده و همچنین پیوند ساختگی میان کلمات به دلیل وابستگی به مداخله نیروی انسانی، با روند خودکارسازی پردازش متن در تعارض است. از این لحاظ، هماهنگ کردن رسم‌الخط فارسی، معقول‌تر از سایر پیشنهادها به نظر می‎رسد(حری،۱۳۷۲). با این حال، این راهکار نیز همان‎گونه که گفته شد، به دلیل دستوری بودن و نیاز به نهادینه شدن در میان کاربران، در کوتاه مدت به بار نخواهد نشست.

جدول۲٫ راهکارهای پیشنهادی در مراحل مختلف چرخه زندگی مدرک

مرحله
راهکار پیشنهادی
مرحله پیش از بازیابی

ایجاد ابزارهایی برای استانداردسازی نگارش به هنگام تولید مدرک

تدوین فرهنگ جامع املایی

تدوین اصطلاحنامه‎های تخصصی در زبان فارسی

تدوین اصول برگردان کلمات خارجی

هماهنگ کردن رسم الخط

ایجاد ابزارهایی برای ارتقای نگارش به هنگام تولید بازنمونهای مدرک

استفاده از سیاهه آماده

ایجاد نظامهای ریشه‌یابی در فارسی

تجهیز واژه‎پرداز‎های فارسی به غلط‎یاب املایی

هماهنگ کردن حروف

استفاده از تکواژها

حذف اعراب‎گذاری

چپ‎نویسی

استفاده از هر دو صورت مفرد و جمع در نمایه‌سازی

کاهش شمار نویسگان با قایل شدن دو حالت بزرگ و کوچک برای حروف

نگارش واژه محور و قرار دادن فاصله بین کلمات برای تعیین مرز بین آنها

نشانه‎گذاری اسامی‎خاص از طریق تفکیک حالت بزرگ و کوچک حروف

قرار دادن نشانه یکسان برای حروف دارای چند تلفظ مانند س، ث، ص

قرار دادن نشانه نوشتاری خاص برای کسره اضافه در همه شرایط

قرار دادن نشانه جداگانه برای «ی» نکره و «ی» تکیه بر اسم ساز و صفت ساز

قرار دادن نشانه جداگانه برای واژه بستهای ربطی فعل«بودن»

قرار دادن نشانه«-» در بین کلمات ترکیبی

 مرحله ذخیره‎سازی

ایجاد ابزارهایی برای ارتقای نگارش / نمایه‎سازی

درج حروفی که خوانده ولی نوشته نمی‎شوند

عدم تمایز بین «ا» و «آ»

پیوند ساختگی میان کلمات

قواعد یکدستی نگارش

واگذاری حل مشکل کلمات ترکیبی به رایانه

بی‎فاصله‌نویسی کلمات مرکب

درج نکردن فاصله میان مقلوب عبارتهای اسمی‎مانند«زردکوه»

درج نکردن فاصله میان عبارتها و واژه‎های لاتین که دقیقا منعکس کننده لفظ خارجی است، مانند «سوپرساب» و نه «سوپر ساب»

درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری»

درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری»

مرحله بازیابی

تجهیز پایگاه اطلاعاتی به اصطلاحنامه

آموزش و راهنمایی کاربران

استفاده از واسط کاوش فارسی برای رفع چالشهای رسم‎الخط و مفهومی‎

به همین ترتیب، روش چیدمان چپ‎نویس (محقق‎زاده و زارعیان، ۱۳۸۳) از همین کاستیِ نیاز به تغییر عادتها و نهادینه شدن در طول زمان رنج می‎برد. با این حال، این روش را می‎توان بر ذخیره‎سازی متن و نه لزوما نمایش آن پیاده کرد. بدین ترتیب، خواندن متن برای رایانه ساده‎تر می‎شود و کاربر نیز با روش مألوف خود به خواندن متن نمایش داده شده می‎پردازد. البته، این تمایز بین سبک ذخیره‎سازی و نمایش، به الگوریتمی پیچیده نیاز دارد که خواه ناخواه کارآیی سامانه را متأثر خواهد ساخت.
روش کاهش شمار نویسگان پیشنهاد می‎کند که از میان شکلهای متعدد برای یک حرف، تنها دو حالت بزرگ و کوچک را برای هر حرف بپذیریم. هر چند این پیشنهاد در جهت کاهش شمار نویسگان و حل مشکل کمبود کلید بر صفحه کلید بسیار مفید به نظر می‎رسد، حالت کوچک و بزرگ پیشنهادی برای این حروف، تفاوتی چشمگیر ندارند (نگاه کنید به محقق‎زاده و زارعیان، ۱۳۸۳). علاوه بر این، شکل بزرگ و کوچک حروفی چون «د»، «ذ»، «ر»، «ز»، «ژ»، «و» و «ء» هم برای انسان و هم برای رایانه (به هنگام تشخیص نوری نویسه‎ها) تقریباً قابل تشخیص نیست. همچنین، موفقیت این روش نیز در گروِ تغییر در رفتار و نگرش کاربران است.
روش دیگر، پیشنهاد یکسان‎سازی نگارش حروفی مانند «س»، «ث» و «ص» است که در زبان فارسی تلفظ یکسان دارند. به نظر می‎رسد این راهکار و دیگر راهکارهایی از این دست مانند نوشتن حروفی که خوانده اما نوشته نمی‎شوند، با گرایشهای نگارشی نسل جدید نیز انطباق داشته باشد. نگاهی گذرا به نوشته‎های فارسی در جای جای اینترنت روشن می‎سازد کاربر جوان بیش از آن‌که به املای کلمه توجه داشته باشد، آن را با آوانویسی ساده می‎کند. برای مثال، فراوانی املای «راجب» به جای «راجع به» نمونه‎ای از این گرایش است که یا ناشی از املای ضعیف است یا تمایل به ساده‎سازی و ساده‎نویسی املای فارسی. به نظر می‎رسد کاربر امروز با این رفتار – آگاه یا ناخودآگاه – نشان می‎دهد که ضرورتی برای رعایت نگارش عربی نمی‎شناسد و مایل است پیچیدگی نگارش تنها بر حسب ضرورت زبان فارسی روی دهد و نه ضرورتهای برخاسته از زبان مبدأ. با این حال، این گونه راهکارها هدف اصلی زبان را به چالش می‎کشد. زیرا، نه تنها رسالت اصلی زبان را که برقراری ارتباط است محقق نمی‎کند و باعث گسست در درک خواننده می‎گردد، بلکه به دوگانگی متون چاپی و رایانه‎ای نیز منجر می‎شود، که این امر آسیب شدیدی به ارتباطات و نیز فرهنگ نوشتاری وارد می‎سازد.
از طرفی، با توجه به آمیختگی شدید زبان عربی و فارسی، تغییر املایی این واژه‎ها به منظور هماهنگی با رسم الخط فارسی، سبب از بین رفتن و یا دگرگونی معنای آنها و در نتیجه ابهام، بدفهمی‎و حتی گاهی درک نشدن واژه توسط خواننده می‎گردد و درصد ریزش کاذب را در نتایج بازیابی نیز افزایش می‎دهد. برای مثال، اگر واژه «قالب» به معنای «شکل» به صورت «غالب» نگارش شود، معنی «پیروز» از آن برداشت می‎شود، یا نگارش واژه «صبور» به صورت «سبور»، برای خواننده کاملاً نامأنوس بوده، ممکن است سبب درک نشدن آن شود. علاوه بر این، روی آوردن به چنین راهکاری، موجب گسستی عمیق بین حال و گذشته ادبی، فرهنگی و تاریخی می‎شود و تردید بسیاری را بر جای می‎گذارد.
حرکت به سوی خودکارسازی پردازش متن فارسی
چنان‎که گفته شد، به طور کلی دو دسته راهکار ایجاد ابزار و استانداردسازی تولید متن را می‎توان در جهت کاهش دشواریهای بازیابی فارسی به کار گرفت. ایجاد و تدوین ابزارهایی چون اصطلاحنامه‎ها، فرهنگهای املایی و قواعد نگارش استاندارد، گامی‎مؤثر در افزایش اثربخشی بازیابی به شمار می‎آید. این ابزارها، ضمن توسعه معنایی اصطلاحات جستجو و نمایه، می‎توانند با هدف یکسان‎سازی نگارش و از بین بردن گوناگونی نحوی و ریخت‎شناختی نیز به کار روند. یکسان‎سازی نگارش می‎تواند متن مدرک، اصطلاحات نمایه یا اصطلاحات پرسش را در برگیرد. از این رو، این روش را می‎توان در هر مرحله‎ای از چرخه زندگی اطلاعات، از تولید، ذخیره‎سازی، نمایه‎سازی گرفته تا جستجو و بازیابی، اعمال کرد. اما این راهکار زمانی بیشترین بازده را خواهد داشت که بیش از آنکه به قضاوت و تصمیم کاربر یا تغییر عادتها و رفتار وی وابسته باشد، بر خودکارسازی پردازش متن، نمایه‎سازی، یا ترجمه ماشینی استوار باشد. چه در روش خودکار، می‎توان صورتهای متغیر کلمه را صرف نظر از عادتهای نگارشی افراد، یکدست و بهنجار کرد.
همان‎گونه که در متن اشاره شد، با توجه به قاعده‎مندی بسیاری از چالشها مانند اعراب، علایم جمع، همزه پایانی و برخی وندهای اسم‎ساز و صفت‎ساز، می‎توان در الگوریتمهای جستجو، این واژه‎ها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. آشکار است که به سادگی نمی‎توان به الگوریتمی‎تمام‎عیار با اثربخشی مطلق دست یافت. برای نمونه، در مورد علامت جمع، شاید بتوان واژه‎های جمع و مفرد را با حذف «ها» و «ان» یکسان کرد. با این حال، زمانی که این علایم بخشی از واژه باشند، مانند «تنها»، «رها»، «زمان»، «نان» یا «انسان» احتمال بروز خطا می‎رود. البته در برخی از این موارد، این امکان وجود دارد که با فنون سنجش در الگوریتم، در صورتی که تعداد نویسه‎ها کمتر از دو نویسه باشد، بهنجارسازی را اعمال نکرد. برای نمونه‎ای دیگر، همان‎گونه که پیشتر ذکر شد، در برخی موارد بهنجارسازی صورت جمع با صورت مفرد کلمه باعث تغییر معنا می‎شود (مانند مصالح / مصلحت). همچنین، همیشه نمی‎توان شکلهای بلند یک واژه را به شکل کوتاه آن یا برعکس بهنجار کرد، زیرا در پاره‎ای موارد شکل اختصاری با واژه‎ای دیگر هم‎املا می‎شود یا معنای آن به کلی تغییر می‎کند. (مانند کوه/که؛ آگاهی/آگهی). با این حال، باید توجه داشت که بروز درصدی از خطا ذاتیِ هر گونه روش «اکتشافی» است و حتی در الگوریتمهای موفق و رایجی مانند پرتر نیز ممکن است روی دهد. از این‎رو، پیش از طراحی این گونه الگوریتمها، بررسی قاعده‎مندیهای نگارش زبان فارسی و درصد واژه‎هایی که این قاعده‎مندیها را نقض می‎کنند، می‎تواند ما را نسبت به میزان رواداری این الگوریتمها آگاه سازد.
ایجاد الگوریتمهای ریشه‌یابی کلمات فارسی که در متون نیز آمده بود، به بخشی از راهکارهای خودکارسازی پردازش متن اشاره دارد. چنانچه منظور از ریشه‌یابی حذف وندهای کلمه باشد می‎تواند بسیار راهگشا باشد، زیرا در زبان فارسی، واژه‎سازی بیشتر به کمک پیشوندها و پسوندها صورت می‎گیرد که ریخت واژه را چندان دستخوش تغییرات بنیادین نمی‎کند. با این حال، چنانچه منظور از ریشه‌یابی طراحی الگوریتمی‎برای یافتن بن‎واژه باشد، کار یافتن قاعده‎مندیها دشوارتر خواهد شد، زیرا تغییر ریخت واژگان در فارسی، بیشتر بر واژگان وام گرفته عربی روی می‎دهد. برای مثال، جمع مکسر، یا صرف کلمه در بابهای مختلف (مانند تعمیر یا استعمار). آشکار است که تقلیل این صورتهای صرف شده به ریشه آنها نه به سادگی ممکن است و نه مطلوب، زیرا در بسیاری از موارد جمع مکسر یا صرف کلمه در بابی دیگر به تغییری بنیادین در معنا می‎انجامد. از این گذشته، به‎کارگیری فنون بازیابی روادار بویژه فنون تصحیح املا که نسبت به گونه‎گونی ریختی یا صرفی واژه نیرومند باشد، از دیگر راهکارهای ممکن است. در این فنون، املاهای مختلف، خواه ناشی از اشتباه کاربر باشد یا تنوع املایی واژه، به یک ریخت واحد تقلیل می‎یابد و در نتیجه همه احتمالات ممکن مورد جستجو قرار می‎گیرد (مانینگ، راگاوان و شوتس، ۲۰۰۸). فنون تصحیح املا بر بازیابی فارسی در گوگل به کار گرفته شده است. برای نمونه، جستجو به دنبال «یگتا» یا «اسربخشی» ضمن ارائه نتایج حاصل از جستجوی این دو املای غلط، نتایج مربوط به واژه «یکتا» یا «اثربخشی» را نیز پیشنهاد می‎دهد.
نتیجه‎گیری
به طور کلی، ۴٣ گروه چالش نگارشی در متون معرفی شده است. آنچه بیش از همه مد نظر پژوهشگران بوده مسئله «پیوسته یا جدانویسی»، «تنوع نشانه‎های جمع»، «تفاوت در آوا / اعراب‎گذاری»، «تنوع دگرنوشته‎ها»، «الف کوتاه»، «فاصله بین حروف واژه»، و «نگارش از راست به چپ» بوده است. برخی از چالشها نیز کمتر مورد توجه قرار گرفته یا به طور کلی نادیده گرفته شده است. با توجه به اینکه در هر گروه ممکن است بیش از دو شکل املایی روی دهد، آشکار خواهد شد نگارش فارسی اصولا به شیوه‎ای بسیار متنوع صورت می‎گیرد. آشکار است که این گونه‎گونی نگارشی به نایکدستی و دگرگونی بسیار در نگارش فارسی می‎انجامد که می‎تواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد.
اگرچه راهکارهای ارائه شده در متون از کاستیهایی بویژه نداشتن جامعیت رنج می‎برند، کم و بیش اثربخش به نظر می‎رسند. با این حال، با توجه به اینکه راهکارهای انسانی نیازمند مشارکت فعالانه نویسندگان متون (تایپیستها و کاربران) است و از روندی کُند، بلندمدت و هزینه‎بر برخوردار است، ضروری است راهکارهای خودکارسازی پردازش متن و نمایه‎سازی بیش از پیش مورد تأکید قرار گیرد. مرور آثار پژوهشی در بخش پیشینه پژوهش نشان داد شمار پژوهشها در حوزه طراحی و آزمایش تکنیکها، ابزارها و الگوریتمهای خودکارسازی بازیابی زیاد است که نشان از پیشرفتها و دستاوردهای روزافزون در این حوزه دارد. با این حال، دانش اندکی در مورد میزان به‎کارگیری این فنون در سامانه‎های اطلاعاتی مختلف و میزان اثربخشی آنها در بافتار عملی در دست است. از این رو، ضروری است ضمن آنکه در طراحی سامانه‎های فارسی به این چالشها توجه می‎شود، مطالعات مقدماتی به منظور سنجش میزان اثربخشی و همچنین هزینه – سودمندی راهکارها انجام شود. چه، طراحی الگوریتمی‎که تنها به ازای درمان یک چالش نادر یا ناچیز، پیچیدگی زیادی را بر سامانه تحمیل کند، به کاهش کارآیی آن و افزایش هزینه – سودمندی منجر خواهد شد. از این رو، یکی از گامهای بنیادین در پژوهشهای بازیابی فارسی، بررسی میزان رویداد هر یک از چالشها و میزان تأثیر آنها بر اثربخشی بازیابی است.
گام بنیادین دیگر در این راستا، تدوین شیوه‎نامه نگارش فارسی، اصطلاحنامه‎ها و فرهنگهای املایی در محیط دیجیتالی است. مشارکت متخصصان موضوعی، زبان و ادب فارسی، رایانه و کتابداری در این امر ضروری است. کتابخانه ملی یکی از سازمانهای مهم و تأثیرگذار است که می‎تواند در تدوین استانداردها با طراحان پایگاه‎های اطلاعاتی و نرم‎‎افزارها مشارکت کند. با توجه به آنکه این راهکار در بلندمدت به بار می‎نشیند، پیشنهاد می‎شود هم‎زمان با اقدامهای پژوهشی و زیربنایی، اقدامهای عملی نیز از سوی کتابخانه‎ها و مراکز اطلاع‎رسانی به منظور افزایش بهره‎وری پایگاه‎ها و سامانه‎های اطلاعاتی صورت گیرد. برای نمونه، تدوین دستنامه یا راهنمای جستجو می‎تواند کاربران را در رابطه با تدوین راهبردهای جستجوی موفق آموزش دهد. لازم است در این راهنما، در کنار شرح فنون و تسهیلات جستجو مانند امکانات جبر بولی و جز آن، نکات مهمّ نگارش فارسی مؤثر بر اثربخشی بازیابی اطلاعات آموزش داده شود. همچنین، در طراحی پایگاه‎های اطلاعاتی، الگوریتمهای متفاوت بسته به نوع پایگاه و پوشش موضوعی آن به کار گرفته شود. برای نمونه، در برخی رشته‎های علمی‎مانند شیمی‎و ریاضی، فرمول‎نویسی مشکل غالب است، حال آنکه در متون مذهبی یا متون فارسی- عربی، احتمالاً اعراب‎گذاری تأثیر بسزایی بر بازیابی اطلاعات خواهد داشت.

منبع: http://lis.aqr-libjournal.ir/article_42651.html

همچنین ببینید

ReSearch تحقیق پژوهش مقاله

فرق تحقیق و تالیف

فرق تحقیق و تالیفامتیاز دهی به این نوشته تحقیق : تحقیق، از ریشه«حق» است. حق …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *