تکنولوژی زبان؛ مطالعات بینارشتهای_زبان شناسی شناختی
تالیف: سعید جهانپولاد
پیش درآمد
پیش از ورود به بحث مایلم نتیجه پژوهشی زبان و مدرنیت استاد داریوش آشوری از(کتاب باز و مدرنیته ۱۳۸۷ نشر مرکز) ایشان را ذکر نمایم که به طرزی نگارنده و پژوهشگران جدی زبان ملی فارسی را به چنین امر مهمی سوق داده. آشوری در این کتاب (زبان باز …) ناقوس زنگ خطر و نیز دریچههای ورود به عصر مدرنیت و هجوم این زبان را مورد پژوهش قرار داده و نسبت جوامع توسعه یافته و توسعه نیافته را از دیدگاه زبانهای آنان در نسبتی جهانی به سنجش گذاشته، در مبحث تکنولوژی زبان و زبان علمی و فناوری شده که تابلو ورودی به این مبحث و مقال هست، نظرات مبنایی ارائه دادهاند که میباید جدی انگاشته شود. آشوری در نتیجه این پژوهش و نسبت زبان ملی ما در چنین فرآیند هضم و جذب مدرنیت و تکنولوژی.. باور دارد «زبان فارسی، چنانکه گفتیم، همچون دیگر جنبههای زند گی ایرانی در کل، از راه این کشاکشها و کوششها تا حدودی خود را با خواستههای زندگانی مدرن سازگار کرده است اما نبود دید علمی روشن نسبت به کل مسئله دخالت پر زور عوامل همستیز سیاسی و ایدیولوژیک و سرانجام ناپایداری سیاسی و اجتماعی در چگونگی وضع آن اثر تعیین کنندهای داشته است. به عبارت دیگر زبان ملی ما اگر چشم بینا برای نگریستن به آن داشته باشیم، آیینهای ست که بیش از هر عامل دیگر آشوب ذهنی جامعه ایرانی را در برخورد با مدرنیت باز می تاباند” (کتاب باز و مدرنیت)
- ورود به بحث
امروزه در حوزه زبان بشری (زبان طبیعی و زبانهای معین و)… در فضای اینترنت و جهان دیجیتالی و چگونگی ارتباطات بیناانسانی و بهرهوری از این ماشین افزارهای و ابزارهای موجود و نیز با توجه به حجم فزاینده اطلاعات الکترونیکی موجود، هم در اینترنت و هم در شبکههای رسانه / مجازی و در نتیجه ناهمگونی شدید آرشیوهای اطلاعات منابع ساختاریافته یا بدون ساختار و متغیرهای این منابع، شناسایی اطلاعات مرتبط و دسترسی به آنها موضوع پیچیده و بحران فزایندهای را ایجاد کرده است. جزئیات مستند، تعدد فرمتهای ثبت، ضبط، بارگذاری و کدگذاری، نشانه پردازی و نیز چند زبانه بودن آنها و … بنابراین در مواجهه با این فوران و تراکم اطلاعات و سرگردانی شناختی که در کاربران ایجاد نموده، اطلاعات و دانش مجازی در وهله نخست فرآیند حذف و اختلال اطلاعات تلقی می شود، چنانکه همه ما کم و بیش این موضوع را تجربه کردهایم. با تمایز قایل شدن بین گزینههای ممکن تفسیر، عمل و با آشکار کردن نوعی «نظم جدید» که در آن دامنه احتمالات تنها به بسیار کمتر از خطاها کاهش مییابد، و بینظمی موجود در دادههای ذخیره شده دراین اطلاعات خارجی را به طور مستمر کاهش خواهد داد. بنابراین دسترسی به اطلاعاتی که با نیازهای اطلاعاتی آن لحظه مطابقت داشته باشد بیشتر قابل استناد و اعتماد خواهد بود. فضای اینترنتی در واقع مکان نمادینی از این اختلالات و تراکم اطلاعاتی را بروز میدهد. رشد کمی اطلاعات در حوزههای متعدد آن (وبسایتها، پایگاههای اطلاعاتی، مدیاها، ژورنالها وبلاگها، ویکیها، و غیره) باعث ایجاد احساس عدم اطمینان میشود که به وضعیت شناختی هر کاربرعادی، و حتی بیشتر ازآن به کتابخوانهای حرفهای و کتابدارها هم سرایت میکند. این حس غیر قابل اطمینان در این فضای متراکم، نیاز به طبقهبندی سیستماتیک دارد که مسئولیت مؤسسات تکنولوژی زبان انسان و حفاظت و پاسداری از گردش صحیح و مبنایی دانش بینارشتهایی از این اطلاعات را به یک استراتژی اصولی این مؤسسات تکنولوژیکی زبانی مبدل کرده است، تلاش برای ایجاد معنا از این آشفتگی اطلاعاتی و کمک به کاربر اعم از حرفهای یا غیر حرفهای برای جهت دهی به دانش بینارشتهایاش چالش جدی این فناوری است و نیز بازنمایی و کاربردی کردن استنادی اسناد و صحت منابع اطلاعاتی آن محسوب میشود پرسشی بدیهی – که چندان تازه نیست – مطرح است. چگونه میشود با توجه به حجم فزاینده ثبت اسناد و اطلاعات الکترونیکی موجود و ناهمگونی میان آنها، اسناد، اطلاعات و منابع اصلی آنها را باز شناخت و از اطمینانیابی و اعتماد به این دانش با سندیت منابع و ارجاعاتش استفاده و بهرهوری کرد و به چه روش و روشهای نوینی میتوان تکنولوژی و فناوری زبانی آنان را به طرزی قابل اعتماد بدل کرد، نخست باید بدانیم تکنولوژی زبان چیست ؟
- تکنولوژی زبان
تکنولوژی زبان، حوزه از فناوری هوش مصنوعی Al به ماشینافزارهای الکترونیکی و دیجیتالی توانایی خواندن، تجزیه و تحلیل و پردازش و محاسبه زبان انسان را میدهد. نمونه رایج آن عبارتند از تشخیص خودکار زبان گفتار، ترجمه و برگردان زبان، طبقه بندی، تجزیه و تحلیل ریشه شناسی کلمات و مفاهیم آن، محاسبات زنجیرها صداها و تحلیل و طبقهبندی آنها و معادل سازی، تجزیه و تحلیل نحوی و بلاغی و صنعات گرامری و مورفولوژیکی و نیز فلوژنی زبان که توسط موتورهای پر قدرت و هوش مصنوعی به جذب، ذخیره، محاسبه، پردازش و … زبان انسانی میپردازد. تکنولوژی زبان، که معمولا فناوری زبان انسانی (HLT) نامیده میشود، روشهایی را جهت مطالعه بینارشتهای زبانشناسی و شناختی انسانی بهواسطه برنامههای رایانهای یا ماشینافزارهای الکترونیکی را مهیا کرده که در واقع به تجزیه و تحلیل، اصلاح، محاسبه و پویش جنبههای کاربردی زبان، متون، اسناد و گفتار انسانی میسر ساختهاست. تکنولوژی زبان اغلب به دانش گسترده و بینارشتهای در مورد زبان شناسی، علوم رایانه روان زبانشناسی، تکامل شناختی زبان باستانی و فیلوژنتیک زبانی، تکامل شناختی زبانها و.. نیاز مبرم دارد که شامل پردازش زبان طبیعی (NLP) و زبان شناسی محاسباتی (CL) از یک سو، بسیاری از جنبههای کاربرد گرا از این موارد نیز هست و نیز جنبههای سطح پایینتر مانند رمزگذاری و فناوری گفتاری، شفاهی، اصطلاحی، ترجمه و … زبان انسانی را نیز در برمیگیرد و توسعه و کاربری آنها در بهرهوری از دانش زبانی دستگاههای الکترونیکی، دیجیتالی و مصنوعات و… در زندگی امروزی و آینده بشری را مورد مطالعه علمی قرار میدهد.
تکنولوژی زبان در واقع روشهایی را ارائه میدهد که بر پردازش محتوای اطلاعاتی اسناد، متون با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه میباشد.
- روش نخست
از نظر تاریخی نخستین رویکرد تکنولوژی زبان به آغاز قرن بیستم و انفجار مستندات متنی برمیگردد. این پروژه شامل طراحی و برنامهریزی زبانهای مستند هست که در دهه پنجاه و شصت میلادی انجام پذیرفت، اختلال در فناوری دیجیتالی سیستمهای اسنادی مستلزم توسعه روشها و ابزارهایی بود که بتواند خودکارسازی، نمایهسازی کنترل شده را ارایه دهد، نخستین پایگاه اطلاعاتی و دادهایی کتاب شناختی رایانهای تاسیس شد. پروژهای که شامل ساختن نمایشی از یک سند مکتوب با انتخاب توصیفگرهای آن که در یک زبان مستند از پیش تعیین و تعریف شده که شامل (فهرست توصیفگرها ، فرهنگ اصطلاحات، فرهنگ دیکشنری و … ) بود، این نمایهسازی از بهرهوری توصیفگرهای غیررسمی و غیرمجاز ممانعت به عمل میآورد و قصد داشت نمایش همگن اسناد را تضمین نماید، در هنگام جستجو و پرسمان از مبنای استنادی اسناد، معمولا کار نمی کرد و متوقف میماند، اگر چه آزمایشات بسیاری بعد آن صورت گرفت و درگاهها و شبکهها برای باز تعریف و یا انتقال آن به شبکههای مرتبط تعبیه شد اما این خلاء و نقصان همچنان برای دسترسی به مبنای اطلاعات و صحت و سقم آن متخصصان را واداشت که به ابزارها و شبکههای استنادی و منابع قابل دسترستر فکر کنند و ابداعات موفق آمیزی داشته باشند.
- روش دوم
به طور گسترده به واسطه چند موتور جستجوگر در فضای وب سایتی رایج شد، نشان دادن اسنادی که توسط یک موتور پویشی و خزنده که با اتکا به کلمات موجود در اسناد، شبکهای از اطلاعات نمایهسازی شده رایگان را در اختیار کاربر قرار میداد که میتوانست به صورت خودکار و با استفاده از کلمات موجود، اطلاعات اسناد را در نمایشگر جستجو کند. و مهمترین عنوانهای انتخاب شده از طریق این موتور پویشی و توصیفگر را بر اساس تکنیکهای آماری که امکان محاسبه واجی، آوایی و موسیقیایی در سطوحی از اسناد را قابل رویت کند، در صفحه نمایش در اختیار کاربر قرار دهد. در این رویکرد شبکهای از کاراکترهای نمایهای (توکن ها) را شناسایی میکرد و آنها را از ذخیرگاه، آرشیو آورده و نمایش میداد. این رویکرد چنان نبود که بتواند واحدهای معنایی و مفاهیم آنرا در هر گونه برخورد زبانی مستثنی کرده و تفکیک دهد. در واقع نقص موجود این بود که پدیدههای همنام، چند معنایی یا مترادف به صورت کلی مورد پردازش قرار نگرفته بود و در این سیستم تعبیه نشده بود. برای چنین نقص عمدهای که محدودیت برانگیز بود، تکنولوژی زبان روشهای نوینی را براساس پردازش محتوایی و کاربردیشدن آنها در اطلاعات و اسناد در سطوح صرفی، نحوی، معنایی زبان در نظر گرفت.
- روش سوم
این روش در تکنولوژی زبان و در این سیستم فراگیر به سرعت انجام پذیرفت عبارت بود از ساختاردهی و قالببندی منابع اطلاعاتی به ویژه در وبسایتها و منابع لینکی آنها، این روش به طور صریح روابط معنایی و محتوایی واحدهای اطلاعاتی مختلف را دستهبندی نمود و مجموعه اسناد که حاوی شبکهای از معناها و محتوای مشترک با اتکا از ابردادهها بر اساس عمدتا زبان XML و انواع دیگر آن به ساختاردهی و ساماندهی رسمی و دقیقتر این اطلاعات و اسناد از این روش به چالش جدی وبمعنایی و جستجوگر معنایی و محتوایی در تکنولوژی زبان تبدیل شد. مثلا اینکه تعریف و تفسیر خود سند، یا طرحوارههای آن اسناد که توصیفات معنایی را از اسناد با درجهبندیها محتوایی شروع به طبقه بندی کرد و درواقع برای تسهیل جستجوگر اطلاعات میتوانست به صورت یک جستجوگر مکمل در طول و عرض اسناد و اطلاعات با ابردادهها و نمایهسازی آنها در سطح نمایشگر به کاربر زبانی کمک شایانی نماید. چنانکه یک واسطه در زبان طبیعی در زیرشاخههای معنایی و محتوای آنها میتوانست جستجو را آغاز کند و دسترسی را تسهیل نماید. این روش بر اساس تکنولوژی آماری از زبان تهیه و تنظیم شده بود، در نهایت سیستمهای پشتیبانی و بازیابی اطلاعات آماری زبان بیشتر ماژولهای زبانی را به صورت ساختاری و یکپارچه سازماندهی کرده بودند که بتواند مکملها را در اختیار کاربر بگذارد.
- روشهای کاربردی و سطوح ترکیبی
طبقهبندی، دستهبندی اسناد متنی برای استخراج دانش، نمایهسازی خودکار یا خلاصه سازی آنها، عملی است که اهمیت آن مدتی است که مورد توجه قرارگرفته. این سیستمهای پردازش خودکار متون، مجموعههایی از متون را بهعنوان ورودی میگیرند که آنها را برای به دست آوردن یک یا چند نمایش از معنا و محتوا به عنوان خروجی تبدیل میکنند. وظیفه اصلی این عملیات تبدیلکردن اسناد مبهم بالقوه به نمایشهای بدون ابهام (به جز ابهامات ساختاری اولیه) برگرداندن و ترجمه (تعریف و تسهیل) آنهاست.
مسئله «درک» یک سند متنی که در بطن این ماشینافزار تعبیه شده، وظیفه پردازش خودکار زبان (NLP) است. بنابراین به دو مشکل عمده اشاره دارد. اولی مربوط به نمایش معنای متن و دومی در نظر گرفتن دنیای دانش مرجع و منبع اسناد و متون است. به همین ترتیب یک سیستم NLP میتواند تجزیه و تحلیل، و توصیف را در سطح کلمه آغاز نماید تا ماهیت و ساختار صرفی آن را تعیین کند. در سطح جمله نیز چنین تجزیه و تحلیلی را برای تعیین ترتیب کلمه (کلمات) ساختار نحوی و معنای کلی جمله را بررسی نماید. این روش میتواند پیش از آنکه در نهایت به پسزمینهها و پسنوشتها و خود متن برسد، محیط و محدوده محتوا و معناها و یا حوزه مرجع و منبعی یک کلمه یا یک عبارت را با توجه به یک زمینه یا یک زمینه معنای خاصش یا یک مفهوم خاصتر محاسبه و توصیف نماید. در واقع از کوچکترین جز حرفی و صامت، مصوتی یک کلمه تا قرار گرفتن آن در رکنها و سطوح کلمات و یا جملات، یا عبارات دیگر در یک زمینههای خاص یا بر اساس یک کاربرد خاصتر آنها در متون را منعکس نماید. برای انجام یک عملیات سیستم زبانی NLP، ما معمولاً (برای زبان نوشتاری) شش سطح پردازش را متمایز میکنیم:
- سطح تقسیمبندی به کلمات و جملات
- سطح صرفی که به نحوه تشکیل واحدهای واژگانی در واحد حرفی (واک، رکن، پایه و برش، ترکیب و … (میپردازد و هدف آن تعیین مقوله گفتمان واحد مورد نظر است.
- سطح نحوی که ساختار جملات را با توجه به دستور زبان مرجع تعیین میکند.
- سطح معنایی که به معنای کلمات و جملات میپردازد.
- سطح گفتمانی که هدف آن شناسایی ساختار گفتمانی و استدلالی سند است
- سطح عملگرایانهای یا کنشی و کاربردی زبان است که با دنیای دانش مرجع سروکار دارد، یعنی اطلاعات برونزبانی را در نظر میگیرد که میتواند به درک متن کمک کند.
- نتیجه بحث
این تقسیم بندی به شش سطح البته کاملاً تئوری است. لزوماً با حالت عملکرد واقعی همه نرم افزارهای NLP مطابقت ندارد. برخی از سطوح دوم، سوم و چهارم را در یک مرحله پردازش واحد قرار میدهد در حالی که بعضی دیگر از مراحل ذکر شده را در نظر نمی گیرند (به عنوان مثال، سطح عملگرایانه و بینارشتهای به ندرت در نظر میگیرد، اما دانش و ماهیت عملگرایانه را میتواند در مرجع آنها ادغام کند و لغتنامهها، فرهنگنامهها و به ویژه دانش تجاری و … (به صورت زیر مجموعهها به شبکههای مرتبطاش ارجاع دهد. در نهایت، الگوریتمهای مورد استفاده برای سطوح مختلف تحلیل، همه به یک شکل پیش نمیروند (تحلیل رو به پایین یا رو به بالا، یا بدون پسگرد و غیره). این امکان البته در حال توسعه و بارآوری مجدد هست که شبکهای فعالتر و پرسرعت با دسترسی آسانتر را به نمایش بگذارد. البته امروزه عملکرد چهار سطح نخست را که در حال حاضر با پیشرفتهترین سیستمهای اینترنتی و دیجیتالی برنامه نویسی و پردازششده این فقدان با توسعه فناوری دیجیتالی و سیستمهای تجاری نیز در اکثر کشورهای اروپایی و آمریکا سازماندهی شده که با توسعه سیستم تکنولوژی زبانی مطابقت تام دارد. نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است. از آنجایی که یک متن مجموعهای از گزارههای جداشده از یکدیگر نیست، بلکه مجموعهای از گزارههای به هم پیوسته و ارجاع شدهاست، بهاین معنا که بیان شده و برای یکدیگر «معنا» دارند، در این سیستم به سنجش و پردازش هر کلمه، جمله، عبارات یک متن و توسعه و همپیوندی میان آنها برای رسیدن به یک اجماع نظری و مفاهیم کلی در مجموعه و زیرمجموعه ارجاعی و منبعی آنها بهکار میرود. البته بحث از تکنولوژی زبان بخاطر دانش بینارشتهای و فناوری رایانه، علوم دیجیتالی نیاز به دانش بسیار وسیع و پیچیده، فنی از نوع عملکرد این سیستمها و هوش مصنوعی و رباتیک دارد و عاملیت علوم فناوری ارتباطات و رایانهای و سیستمهای عامل، پشتیبانی پروژهای بسیار پیچیده، تخصصی و فنی است، اما قصد نگارنده از نوشتن این مقال در حد نیاز به توجه مؤسسات فناوری اطلاعات و دانش بینارشتهای از تکنولوژی زبان است. ضرورتی که ایجاب میکند برای بقا زبان فارسی و جلوگیری از انقراض گونهگی زبانهای در حال خفتگی در سرزمین ایران، چنانکه گفته آمد، نیاز به این سیستمانه و فناوری زبان در مؤسسات دانشگاهی و ملی، یک ضرورت اجتناب ناپذیر تلقی میشود. زبان فارسی به گفته استاد داریوش آشوری در کتاب (زبان باز و مدرنیته) دارای آن ظرفیتها و پتانسیلهای غنی در خود هست که میتواند با مقاومت و پرورش خود در برابر هجوم مدرنیته و امپریالیسم زبانی و زبان مدرنیته، به هضم و بهروزرسانی خود با اتکا به این فناوری و سیستم تکنولوژیکی زبانی دست یابد. پر واضح هست این مقال و معرفی کوتاه این فناوری که تحت عنوان تکنولوژی زبان در بسیاری از کشورهای توسعه یافته فناوری، چه در اروپا و چه در غرب و … تمام جنبههای آنرا لحاظ نکرده و میدان وسیعی جهت پژوهش و تحقیق سیستماتیک در آن پیشاروی ماست. نگارنده با استفاده از بخشی از منابع مذکور ورود به چنین مبحثی را در محدوده زیستی زبان فارسی در رویکرد ملی / قاره / و جهانی لازم و ضروری می داند. ورود به مبحث تقسیمبندی و یا طبقهبندی اطلاعاتی از زبانها، در این فضای مجازی کیهانی به نوبه خود تلاش و همتی فراگیر را طلب میکند. در این مقال اشارات از چنین رویکردی در کشورهای دارای چنین همفناوری و نتایج بسیار علمی و مبناییاش میتواند الگوی مناسبی برای مروجان و دانشگاهیان، موسسات، فرهنگستانها که ترویج زبان فارسی را هدف والای خود میدانند، ضرورتی اجتناب ناپذیر تلقی شود.
تاریخ نوشته ۱۳۹۲
——-
منابع
- Language Technology, its applications, and the undergraduate units on offer by the Centre for
Language Technology.
- The site of the Australasian Language Technology Association (ALTA). It contains a mailing list and
further information about language technology in Australia and New Zealand.
- A Survey of the State of the Art in Human Language Technology. You can get a feel for the broad range of issues addressed in language technology research by browsing the contents of this online
survey.
- کتاب زبان باز _پژوهشی در زبان و مدرنیته ، نوشته داریوش آشوری ، سال ۱۳۸۷ نشر مرکز چاپ اول
- فیلوژنتیک زبانی ، مطالعات تکاملی رنگها در زبان ، نوشته سعیدجهانپولاد خبرگزاری یکتاپرس ، سال ۱۳۹۶ انتشار ۱۴۰۰
- انقراض زبان ، مرگ گونگی زبا نها، سعیدجهانپولاد خبرگزاری یکتاپرس سال انتشار ۱۴۰۰
- درباره نویسنده:
- تازهترینها:
سعید جهانپولاد؛ متولد ۱۳۴۷ – تهران، کارشناس ارشد زبان و ادبیات تطبیقی ملل، شاعر، مترجم و پژوهشگر. او فعالیتهای ادبیاش را از اواسط دهۀ ۱۳۶۰ با نشریات و روزنامههای اطلاعات (صفحۀ بشنو از نی)، سلام، ادبستان فرهنگ و ادب، آدینه، گردون، دنیای سخن، کارنامه، کلک و… و فصلنامههای فلسفه و هنر در زمینه نقد ادبی آثار ادبیات داستانی ایران و جهان آغاز کرده.
جهانپولاد در دهه ۱۳۷۰ با همکاری دفتر ماهنامۀ معیار و اعضای تحریریه، کارگاه شعر و نقد شعر دهه هفتاد را، با گروهی از فعالان عرصۀ شعر و ادبیات آن زمان کلید زد که منجر به شکلگیری جریان شعر دهۀ هفتاد شد.
گزیدۀ آثار منتشر شده:
در کوچههای اول حرکت؛ (مجموعه شعر- ۱۳۷۷)
آوای جنینی؛ (مجموعه شعر- ۱۳۹۵)
گزینه شاهکارهای هایکو معاصر جهان؛ (ترجمه و بازسرایی- ۱۳۹۶)
منظومۀ چهار کوارتت؛ (تی اس الیوت، ترجمه همراه نقد و تفسیر- ۱۳۹۶)
شاهکارهای شعر جهان؛ (ترجمه با فیروزه محمدزاده- ۱۳۹۸)
شعر به وقت گرینویچ؛ مجموعه برگزیده شعر و شاعران معاصر جهان (۱۳۹۷)
زره کرگدن به تن دارم؛ (مجموعه شعر- ۱۳۹۷)
فصل گلهای سفید داوودی؛ (ناتسومه سوسه کی- ترجمۀ هایکو، ۱۳۹۸)