جمعه 1392/02/27 12:44
مشکل بسیار بزرگی در نوشتن خط فارسی در دنیای اینترنت وجود دارد که که خیلی‌ از کسانی که در وب فعالیت می‌کنند هیچ اطلاعی از آن ندارند. مثلاً نمی‌دانند که بعضی از حروفی که تایپ می‌کنند را دارند با نویسه‌های عربی وارد می‌کنند و این مسأله باعث می‌شود که هم خودشان و هم دیگران در جستجوهای اینترنتی و حتی آفلاین به مشکل بخورند. متأسفانه از آن‌جایی که خیلی‌ها در دنیا ما را با عرب‌ها یکی فرض می‌کنند خیلی به استانداردهایی که ما در ایران داریم توجه نمی‌کنند و همان معیارهای اعراب را هم بر ما وارد می‌کنند! از جمله‌ی این استانداردها استانداردی است که برای صفحه کلید فارسی در ایران وضع شده. مایکروسافتی‌های نامرد وقتی که داشتند کیبورد فارسی را تنظیم می‌کردند هیچ توجهی به این نکردند که بین حرف «ی» فارسی و «ی» عربی و بین حرف «ک» فارسی و «ك» عربی تفاوت است. خیلی از فارسی‌زبان‌ها هم هیچ توجهی به این مسأله نکردند و به راحتی شروع به تایپ میلیون‌ها صفحه چه در اینترنت و چه در محیط‌های دیگر کردند. بعدها که در خیلی از سیستم عامل‌ها این مسأله اصلاح شد این بار با صفحه کلید جدید شروع به تایپ کردند غافل از این که بین کمک و كمك فرق است.

بگذارید کمی فنی‌تر صجبت کنم. در استاندارد یونیکد به هر نویسه (کاراکتر) یک کد اختصاص داده شده. وقتی شما نوشته‌ای را در اینترنت ثبت می‌کنید، در حقیقت مجموعه‌ای از این شماره‌ها را به میزبان اینترنتی خود می‌فرستید. مثلاً برای حرف C بزرگ در خط لاتین کد 0043 (به صورت مبنای شانزده یا هگزادسیمال) اختصاص داده شده. این حرف یا شماره بین تمام زبان‌هایی که از این حرف استفاده می‌کنند مشترک است. حروف خاص دیگر که در زبان‌های دیگر استعمال می‌شوند هم شماره‌های خاص خود را دارند مثلاً é در فرانسه که دارای کد 00E9 است. این‌ها مخصوص مجموعه خط لاتین است.

در مجموعه حروف عربی که فارسی را هم با استفاده از آن می‌نویسیم هم چنین حالتی وجود دارد. مثلاً برای حرف (ش) کد 0634 اختصاص داده شده و برای (ن) شماره 0646. متأسفانه وجود تشابه ظاهری و عدم آشنایی اکثر فارسی‌زبانان با تفاوت‌های خطوط معمول بین عرب‌زبانان و فارسی‌زبانان مشکلاتی به وجود آمده. برای بهتر متوجه شدن این موضوع بهتر است ابتدا برنامه Character Map رو در ویندوز از منوی Start سپس از All Programs سپس از Accessories و بعد از System Tools انتخاب کنید. فونت Tahoma را انتخاب کنید. دنبال حروف الفبای عربی بگردید. به سراغ حرف کاف عربی بروید. می‌بینید که این حرف بدون سرکش است و چیزی شبیه به همزه در خود دارد. به شماره آن در پایین همین برنامه نگاه کنید، شماره آن 0643 است. این حرف فارسی نیست و نباید هنگام نوشتن زبان فارسی از آن استفاده کرد. کمی پایین‌تر بروید و حرف کاف با سرکش را پیدا کنید. شماره آن 06A9 است. این حرف درست است. مشکل برای حرف (ی) بیشتر است. در حروف عربی دو حرف ی به صورت ی نقطه‌دار که دارای دو نقطه در زیر است و یک ى که به آن الف مکسوره گفته می‌شود و در کلماتی مثل موسی استفاده می‌شود وجود دارند. هر دوی این‌ها مخصوص نوشتن زبان عربی هستند. شماره اولی 064A و شماره دومی 0649 است. حرف ی فارسی دارای شماره 06CC است.

مشکل دیگر در نگارش اعداد است. شکل شماره‌ها در عربی با فارسی متفاوت است. فرق ظاهری آن‌ها در نوشتن اعداد ٤٥٦ است که در فارسی به صورت ۴۵۶ نوشته می‌شوند و هر کدام کد خاص خود را دارند. از آن گذشته هر کدام از اعداد فارسی و عربی هم کد خاص خود را دارند. یعنی هر چند عدد ۱ در هر دو نگارش به یک شکل نوشته می‌شود ولی در مجموعه کدهای یونیکد دو خانه‌ی جدا (برای عربی و فارسی) برای آنها در نظر گرفته شده.

ممکن است این پرسش برای شما پیش بیاید که بر فرض که من واژه‌ی «کمان» را با کاف عربی بنویسیم یا با کاف فارسی؛ چه فرقی ایجاد می‌شود؟ من که منظورم را رسانده‌ام. مشکل زمانی پیش می‌آید که شخصی بخواهد همین واژه را از طریق موتورهای جستجوگر پیدا کند. اگر واژه‌ی مورد نظرش را با حرف «کاف» که شما تایپ نکرده‌اید وارد کند احتمالاً به نتیجه‌ی مورد نظرش نمی‌رسد.

خوشبختانه برنامه‌نویسان گوگل این مشکل را متوجه شدند و با توجه به نوع واژه‌ای که تایپ می‌کنید حروف شما را درست تشخیص می‌دهد. اما فرض کنید در طول یک متن در یک فایل Word یا یک صفحه‌ی اینترنتی به دنبال کلمه مورد نظر خود بگردید. در این حالت اگر واژه را با همان نویسه‌هایی که نویسنده اصلی تایپ کرده وارد نکنید به هیچ وجه به نتیجه دلخواهتان نخواهید رسید.

یک نمونه را در این جا ذکر می‌کنم تا به عمق فاجعه پی ببرید: سایت خبری تابناک مثل خیلی از سایت‌های فارسی‌زبان دیگر بدون اطلاع از موارد فوق دست به انتشار اخبار می‌زد. برای مثال می‌توانید به خبری که در سال ۱۳۸۸ در مورد نامه‌ی هاشمی به رهبری داده است مراجعه کنید:


از هر مرورگری که استفاده می‌کنید با استفاده از کلیدهای Ctrl+F می‌توانید به جستجوی کلمات بپردازید. این کلیدها را فشار دهید و مثلاً به دنبال واژه‌ی «رهبری» بگردید. اگر از صفحه‌کلید استاندارد استفاده می‌کنید به هیچ‌وجه نخواهید توانست این واژه را پیدا کنید در حالی که این واژه بیش از ۱۰ بار در متن تکرار شده. خوب نگاه کنید و وجود دو نقطه زیر حرف ی را ببینید. به نظر می‌رسد سایت تابناک اخیراً متوجه این مشکل شده و اقدام به حل آن کرده (ولی نمی‌دانم با آرشیو خود چه می‌خواهد بکند؟!). یکی دیگر از هزاران سایتی که دچار این مشکل هستند سایت دایرةالمعارف بزرگ اسلامی به آدرسی www.cgie.org.ir است.

برای این که شما را بدون راه‌حل رها نکرده باشم باید خدمتتان عرض کنم که کاربران سایت ویکی‌پدیای فارسی به آدرس fa.wikipedia.org از ابتدا متوجه این موضوع شدند و اجازه ندادند هیچ کاربری اقدام به ارسال مطالب همراه با نویسه‌های اشتباه بکند. اگر دچار این مشکل هستید و می‌خواهید آن را حل کنید کافی است به صفحه‌ی فارسی‌نویسی در این وبسایت مراجعه کنید. نشانی آن هم از قرار زیر است:


اگر مشکلی داشتید با خود من مطرح کنید یا در صفحه‌ی بحث همان صفحه در ویکی‌پدیا بنویسید تا کاربران خبره‌ی آنجا به شما کمک کنند.