تبلیغات

صفحه را انتخاب کنید

تکنولوژی زبان؛ مطالعات بینارشته‌ای_زبان شناسی شناختی

تالیف: سعید جهانپولاد 

 

پیش درآمد 

پیش از ورود به بحث مایلم نتیجه پژوهشی زبان و مدرنیت استاد داریوش آشوری از(کتاب باز و مدرنیته  ۱۳۸۷ نشر مرکز)  ایشان را ذکر نمایم  که به طرزی نگارنده و پژوهش‌گران جدی زبان ملی فارسی را به چنین امر مهمی سوق داده‌. آشوری در این کتاب (زبان باز …) ناقوس زنگ خطر و نیز دریچه‌های ورود به عصر مدرنیت و هجوم این زبان را مورد پژوهش قرار داده و نسبت ‌جوامع توسعه یافته و توسعه نیافته را ‌از دیدگاه زبان‌های آنان در نسبتی جهانی به سنجش گذاشته، در مبحث تکنولوژی زبان و زبان علمی و فناوری شده که تابلو ورودی به این مبحث و مقال هست، نظرات مبنایی ارائه داده‌اند که می‌باید جدی ‌انگاشته شود.  آشوری در نتیجه این پژوهش و نسبت زبان ملی ما در چنین فرآیند هضم و جذب مدرنیت و تکنولوژی..  باور دارد «زبان فارسی، چنانکه گفتیم، هم‌چون دیگر جنبه‌های زند گی ایرانی در کل، از راه این کشاکش‌ها و کوشش‌ها تا حدودی خود را با خواسته‌های زندگانی مدرن سازگار کرده است اما نبود دید علمی روشن نسبت به کل مسئله ‌دخالت پر زور عوامل  هم‌ستیز سیاسی  و ایدیولوژیک و سرانجام ناپایداری سیاسی و اجتماعی در چگونگی وضع آن اثر تعیین کننده‌ای ‌داشته است. به عبارت دیگر زبان ملی ما اگر چشم بینا برای نگریستن به آن داشته باشیم، آیینه‌ای ست که بیش از هر عامل دیگر آشوب ذهنی جامعه ایرانی را در برخورد با مدرنیت باز می تاباند” (کتاب باز و مدرنیت) 

 

  • ورود به بحث

امروزه در حوزه زبان بشری (زبان طبیعی و زبان‌های معین و)… در فضای اینترنت و جهان دیجیتالی و چگونگی ارتباطات بیناانسانی و بهره‌وری از این ماشین افزارهای و ابزارهای موجود و نیز با توجه به حجم فزاینده اطلاعات الکترونیکی موجود، هم در اینترنت و هم در شبکه‌های رسانه / مجازی و در نتیجه ‌ناهمگونی شدید آرشیوهای اطلاعات منابع ساختاریافته یا بدون ساختار و متغیرهای این منابع،  شناسایی اطلاعات مرتبط و دسترسی به آنها موضوع  پیچیده و بحران فزاینده‌ای ‌را ایجاد کرده است.  جزئیات مستند، تعدد فرمت‌های ثبت‌، ضبط‌، بارگذاری و کدگذاری، نشانه پردازی و نیز چند زبانه بودن آنها و … بنابراین در مواجهه با این فوران و تراکم اطلاعات و سرگردانی شناختی که در کاربران ایجاد نموده، اطلاعات و دانش مجازی در وهله نخست فرآیند حذف و اختلال اطلاعات تلقی می شود، چنانکه همه ما کم و بیش این موضوع را تجربه کرده‌ایم. با تمایز قایل شدن بین گزینه‌های ممکن تفسیر، عمل و با آشکار کردن نوعی «نظم جدید» که در آن  دامنه احتمالات تنها  به بسیار کمتر از خطاها  کاهش   می‌یابد، و بی‌نظمی موجود در  داده‌های ذخیره شده دراین اطلاعات خارجی را به طور مستمر کاهش خواهد داد. بنابراین دسترسی به اطلاعاتی که با نیازهای اطلاعاتی آن لحظه مطابقت داشته باشد بیشتر قابل استناد و اعتماد خواهد بود.  فضای اینترنتی در واقع مکان نمادینی از این اختلالات و تراکم اطلاعاتی را بروز می‌دهد. رشد کمی ‌اطلاعات ‌در حوزه‌های  متعدد آن (وبسایت‌ها، پایگاه‌های اطلاعاتی، مدیاها، ‌ژورنال‌ها وبلاگ‌ها، ویکی‌ها، و غیره) باعث ایجاد احساس عدم اطمینان می‌شود که به وضعیت شناختی هر کاربرعادی، و حتی بیشتر ازآن به کتاب‌خوان‌های حرفه‌ای و کتابدارها هم سرایت می‌کند. این حس غیر قابل اطمینان در این فضای متراکم، نیاز به طبقه‌بندی سیستماتیک دارد که مسئولیت مؤسسات تکنولوژی زبان انسان و حفاظت و پاسداری از گردش صحیح و مبنایی دانش ‌بینارشته‌ایی از این اطلاعات  را به یک  استراتژی اصولی این  مؤسسات‌‌‌ تکنولوژیکی زبانی مبدل کرده است،  تلاش برای ایجاد معنا از این آشفتگی اطلاعاتی و کمک به کاربر اعم از حرفه‌ای یا غیر حرفه‌ای برای جهت دهی به دانش بینا‌رشته‌ای‌اش ‌چالش ‌جدی این فناوری است و نیز بازنمایی و کاربردی کردن استنادی اسناد و صحت منابع اطلاعاتی آن محسوب می‌شود پرسشی بدیهی – که چندان تازه نیست – مطرح است. چگونه می‌شود با توجه به حجم فزاینده  ثبت اسناد و اطلاعات الکترونیکی موجود و ناهمگونی میان آنها، اسناد، اطلاعات و منابع اصلی آنها را باز شناخت و از اطمینان‌یابی و اعتماد به این دانش با سندیت منابع و ارجاعاتش استفاده و بهره‌وری کرد و ‌به چه روش و ‌روش‌های نوینی می‌توان تکنولوژی و فناوری زبانی آنان را به طرزی قابل اعتماد بدل کرد‌، نخست ‌باید بدانیم تکنولوژی زبان چیست ؟

 

  • تکنولوژی زبان

تکنولوژی زبان، حوزه از فناوری هوش مصنوعی Al به ماشین‌افزارهای الکترونیکی و دیجیتالی توانایی خواندن، تجزیه و تحلیل و پردازش و محاسبه زبان انسان را می‌دهد. نمونه رایج آن عبارتند از تشخیص خودکار زبان گفتار‌، ترجمه و برگردا‌ن زبان‌، طبقه بندی‌، تجزیه و تحلیل ریشه شناسی کلمات و ‌مفاهیم آن‌، محاسبات زنجیرها صداها و تحلیل و طبقه‌بندی آنها و معادل ‌سازی‌، تجزیه و تحلیل ‌نحوی  و بلاغی و ‌صنعات گرامری و ‌مورفولوژیکی و نیز فلوژنی زبان که توسط موتورهای پر قدرت و هوش مصنوعی به جذب‌، ‌ذخیره، محاسبه، پردازش و … زبان انسانی می‌پردازد. تکنولوژی زبان، که معمولا فناوری زبان انسانی (HLT) نامیده  میشود، روش‌هایی را جهت مطالعه بینارشته‌ای ‌زبان‌شناسی و شناختی ‌انسانی‌ به‌واسطه برنامه‌های رایانه‌ای یا ماشین‌افزارهای الکترونیکی را مهیا کرده که در واقع به تجزیه و تحلیل، اصلاح، محاسبه و پویش جنبه‌های کاربردی زبان، متون، اسناد و گفتار انسانی میسر ساخته‌است. تکنولوژی زبان اغلب به دانش گسترده و بینارشته‌ای در مورد زبان شناسی، علوم  رایانه روان زبانشناسی، تکامل شناختی زبان باستانی و  فیلوژنتیک زبانی، تکامل شناختی زبان‌ها و..  نیاز مبرم دارد که شامل پردازش زبان طبیعی (NLP) و زبان شناسی محاسباتی (CL) از یک سو، بسیاری از جنبه‌های کاربرد گرا از این موارد نیز هست و نیز جنبه‌های سطح پایین‌تر مانند رمزگذاری و فناوری گفتاری‌، شفاهی‌، اصطلاحی‌، ترجمه و … زبان انسانی را نیز در برمی‌گیرد و توسعه و کاربری آنها در بهره‌وری از دانش زبانی دستگاه‌های الکترونیکی‌، دیجیتالی و مصنوعات و… در زندگی امروزی و آینده بشری را مورد مطالعه علمی قرار می‌دهد.

تکنولوژی زبان در واقع روش‌هایی را ارائه می‌‌دهد که بر پردازش محتوای اطلاعاتی اسناد‌، ‌متون‌ با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه می‌باشد.   

 

  • روش نخست

از نظر تاریخی نخستین رویکرد تکنولوژی زبان به آغاز قرن بیستم و انفجار مستندات متنی برمی‌گردد. این پروژه شامل طراحی و برنامه‌ریزی زبان‌های مستند هست که در دهه پنجاه و شصت میلادی انجام پذیرفت، اختلال در فناوری دیجیتالی سیستم‌های اسنادی مستلزم توسعه روش‌ها و ابزارهایی بود که بتواند خودکارسازی، نمایه‌سازی کنترل شده را ارایه دهد، نخستین پایگاه اطلاعاتی و داده‌ایی کتاب شناختی رایانه‌ای تاسیس شد. پروژه‌ای که شامل ساختن نمایشی از یک سند مکتوب با انتخاب توصیف‌گرهای آن که در یک زبان مستند از پیش تعیین و تعریف شده که شامل (فهرست توصیف‌گرها ، فرهنگ اصطلاحات، فرهنگ دیکشنری و … ) بود، این نمایه‌سازی از بهره‌وری توصیف‌گرهای غیر‌رسمی و غیر‌مجاز ممانعت به عمل می‌آورد و قصد داشت نمایش همگن اسناد را تضمین نماید، در هنگام جستجو و  پرسمان از مبنای استنادی اسناد، معمولا کار نمی کرد و  متوقف می‌ماند، اگر چه آزمایشات بسیاری بعد آن صورت گرفت و درگاه‌ها و شبکه‌ها برای باز تعریف و یا انتقال آن به شبکه‌های مرتبط تعبیه شد اما این خلاء و نقصان همچنان برای دسترسی به مبنای اطلاعات و صحت و سقم آن متخصصان را واداشت که به ابزارها و شبکه‌های استنادی و منابع قابل دسترس‌تر فکر کنند و ابداعات موفق آمیزی داشته باشند.  

 

  • روش دوم

به طور گسترده به واسطه چند موتور جستجوگر در فضای وب سایتی رایج شد، نشان دادن اسنادی که توسط یک موتور پویشی و خزنده که با اتکا به کلمات موجود در اسناد، شبکه‌ای از اطلاعات نمایه‌سازی شده رایگان را در اختیار کاربر قرار می‌داد که می‌توانست به صورت خودکار و با استفاده از کلمات موجود، اطلاعات اسناد را در نمایشگر جستجو کند. و مهم‌ترین عنوان‌های  انتخاب شده از طریق این موتور پویشی و توصیف‌گر را بر اساس تکنیک‌های آماری که امکان محاسبه واجی، آوایی و موسیقیایی در سطوحی از اسناد را قابل رویت کند، در صفحه نمایش در اختیار کاربر قرار دهد. در این رویکرد شبکه‌ای از کاراکترهای نمایه‌ای (توکن ها) را شناسایی می‌کرد و آن‌ها را از ذخیرگاه، آرشیو آورده و نمایش می‌داد. این رویکرد چنان نبود که بتواند واحدهای معنایی و مفاهیم آنرا در هر گونه برخورد زبانی مستثنی کرده و تفکیک دهد. در واقع نقص موجود این بود که پدیده‌های همنام، چند معنایی یا مترادف به صورت کلی مورد پردازش قرار نگرفته بود و در این سیستم تعبیه نشده بود. برای چنین نقص عمده‌ای که محدودیت برانگیز بود، تکنولوژی زبان روش‌های نوینی را براساس پردازش محتوایی و کاربردی‌شدن آنها در اطلاعات و اسناد در سطوح صرفی، نحوی، معنایی زبان در نظر گرفت. 

 

  • روش سوم

 

این روش در تکنولوژی زبان و در این سیستم فراگیر به سرعت انجام پذیرفت عبارت بود از ساختاردهی و قالب‌بندی منابع اطلاعاتی به ویژه در وب‌سایت‌ها و منابع لینکی آن‌ها، این روش به طور صریح روابط معنایی و محتوایی واحدهای اطلاعاتی مختلف را دسته‌بندی نمود و مجموعه اسناد که حاوی شبکه‌ای از معناها و محتوای مشترک با اتکا از ابرداده‌ها بر اساس عمدتا زبان XML و انواع دیگر آن به ساختار‌دهی و ساماندهی رسمی و دقیق‌تر این اطلاعات و اسناد از این روش به چالش جدی وب‌معنایی و جستجوگر معنایی و محتوایی در تکنولوژی زبان تبدیل شد. مثلا اینکه تعریف و تفسیر خود سند، یا طرح‌واره‌های آن اسناد که توصیفات معنایی را از اسناد با درجه‌بندی‌ها محتوایی شروع به طبقه بندی کرد و درواقع برای تسهیل جستجوگر اطلاعات   می‌توانست به صورت یک جستجوگر مکمل در طول و عرض اسناد و اطلاعات با ابر‌داده‌ها و نمایه‌سازی آن‌ها در سطح نمایشگر به کاربر زبانی کمک شایانی نماید. چنان‌که یک واسطه در زبان طبیعی در زیرشاخه‌های معنایی و محتوای آن‌ها می‌توانست جستجو را آغاز کند و دسترسی را تسهیل نماید. این روش بر اساس تکنولوژی آماری از زبان تهیه و تنظیم شده بود، در نهایت  سیستم‌های پشتیبانی و بازیابی اطلاعات آماری زبان بیشتر ماژول‌های زبانی را به صورت ساختاری و یکپارچه سازماندهی کرده بودند که بتواند مکمل‌ها را در اختیار کاربر بگذارد. 

 

  • روش‌های کاربردی و سطوح ترکیبی

طبقه‌بندی‌، دسته‌بندی اسناد متنی برای استخراج دانش، نمایه‌سازی خودکار یا خلاصه سازی آن‌ها، عملی است که اهمیت آن مدتی است که مورد توجه قرارگرفته. این سیستم‌های پردازش خودکار متون، مجموعه‌هایی از متون را به‌عنوان ورودی می‌گیرند که آنها را برای به دست ‌آوردن یک یا چند نمایش از معنا و محتوا به عنوان خروجی تبدیل می‌کنند. وظیفه اصلی این عملیات تبدیل‌کردن اسناد مبهم بالقوه به نمایش‌های بدون ابهام (به جز ابهامات ساختاری اولیه) برگرداندن و ترجمه (تعریف و تسهیل) آن‌هاست. 

مسئله  «درک» یک سند متنی که در بطن این ماشین‌افزار تعبیه شده، وظیفه پردازش خودکار زبان (NLP) است. بنابراین به دو مشکل عمده اشاره دارد. اولی مربوط به نمایش معنای متن و دومی در نظر گرفتن دنیای دانش مرجع و منبع اسناد و متون است. به همین ترتیب یک سیستم NLP می‌تواند تجزیه و تحلیل، و توصیف را در سطح کلمه آغاز نماید تا ماهیت و ساختار صرفی آن را تعیین کند. در سطح جمله نیز چنین تجزیه و تحلیلی را برای تعیین ترتیب کلمه (کلمات) ساختار نحوی و معنای کلی جمله را بررسی نماید. این روش می‌تواند پیش از آنکه در نهایت به پس‌زمینه‌ها و پس‌نوشت‌ها و خود متن برسد، محیط و محدوده محتوا و معناها و یا حوزه مرجع و منبعی یک کلمه یا یک عبارت را با توجه به یک زمینه یا یک زمینه معنای خاصش یا یک مفهوم خاص‌تر محاسبه و توصیف نماید. در واقع از کوچکترین جز حرفی و صامت، مصوتی یک کلمه تا قرار گرفتن آن در رکن‌ها و سطوح کلمات و یا جملات، یا عبارات دیگر در یک زمینه‌های خاص یا بر اساس یک  کاربرد خاص‌تر آن‌ها در متون را منعکس  نماید. برای انجام یک عملیات سیستم زبانی NLP، ما معمولاً (برای زبان نوشتاری) شش سطح پردازش را متمایز می‌کنیم:

 

  • سطح تقسیم‌بندی به کلمات و جملات
  • سطح صرفی که به نحوه تشکیل واحدهای واژگانی در واحد حرفی (واک، رکن، پایه و برش، ترکیب و … (می‌پردازد و هدف آن تعیین مقوله گفتمان واحد مورد نظر است.

 

  • سطح نحوی که ساختار جملات را با توجه به دستور زبان مرجع تعیین می‌کند.
  • سطح معنایی که به معنای کلمات و جملات می‌پردازد.
  • سطح گفتمانی که هدف آن شناسایی ساختار گفتمانی و استدلالی سند است  
  • سطح عمل‌گرایا‌نه‌ای یا کنشی و کاربردی زبان است که با دنیای دانش مرجع سروکار دارد، یعنی اطلاعات برون‌زبانی را در نظر می‌گیرد که می‌تواند به درک متن کمک کند.

 

  • نتیجه بحث

 

این تقسیم بندی به شش سطح البته کاملاً تئوری است. لزوماً با حالت عمل‌کرد واقعی همه نرم افزارهای NLP مطابقت ندارد. برخی از سطوح دوم، سوم و چهارم را در یک مرحله پردازش واحد قرار می‌دهد در حالی که بعضی دیگر از مراحل ذکر شده را در نظر نمی گیرند (به عنوان مثال، سطح عمل‌گرایانه و بینارشته‌ای به ندرت در نظر می‌گیرد، اما دانش و ماهیت عمل‌گرایانه را می‌تواند در مرجع آنها ادغام کند و لغت‌نامه‌ها، فرهنگ‌نامه‌ها و به ویژه دانش تجاری و … (به صورت زیر مجموعه‌ها به شبکه‌های مرتبط‌اش ارجاع دهد.  در نهایت، الگوریتم‌های مورد استفاده برای سطوح مختلف تحلیل، همه به یک شکل پیش نمی‌روند (تحلیل رو به پایین یا رو به بالا، یا بدون پس‌گرد و غیره). این امکان البته در حال توسعه و بارآوری مجدد هست که شبکه‌ای فعال‌تر و پرسرعت با دسترسی آسان‌تر را به نمایش بگذارد. البته امروزه عمل‌کرد چهار سطح نخست را که در حال حاضر با پیشرفته‌ترین سیستم‌های اینترنتی و دیجیتالی برنامه نویسی و پردازش‌شده این فقدان با توسعه فناوری دیجیتالی و سیستم‌های تجاری نیز در اکثر کشورهای اروپایی و آمریکا سازماندهی شده که با توسعه سیستم تکنولوژی زبانی مطابقت تام دارد. نخستین وظیفه سیستم  تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است.  این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است.  از آن‌جایی که یک متن مجموعه‌ای ‌از گزاره‌های جدا‌شده از یکدیگر نیست، ‌بلکه مجموعه‌ای از گزاره‌های به هم پیوسته و ارجاع شده‌است، به‌این‌ معنا که بیان شده و ‌برای یکدیگر ‌«معنا» ‌دارند، در این سیستم به سنجش و پردازش هر کلمه، جمله، عبارات یک متن و توسعه و هم‌پیوندی میان ‌آن‌ها برای رسیدن به یک اجماع نظری و‌ مفاهیم کلی در مجموعه و زیر‌مجموعه ارجاعی و منبعی آنها به‌کار می‌رود. البته بحث از تکنولوژی زبان بخاطر دانش بینارشته‌ای و فناوری رایانه‌، علوم دیجیتالی نیاز به دانش بسیار وسیع و پیچیده، ‌فنی از نوع عملکرد این سیستم‌ها و هوش مصنوعی و رباتیک دارد و عاملیت علوم فناوری ارتباطات و رایانه‌ای و سیستم‌های عامل‌، پشتیبانی پروژه‌ای بسیار پیچیده، ‌تخصصی و فنی است‌، اما قصد نگارنده از نوشتن این مقال در حد نیاز به توجه مؤسسات ‌فناوری اطلاعات و دانش بینارشته‌ای از تکنولوژی زبان است‌. ضرورتی که ایجاب می‌کند برای بقا زبان فارسی و جلوگیری از انقراض گونه‌گی زبان‌های در حال خفتگی در سرزمین ایران، چنان‌که گفته آمد، نیاز به این سیستمانه و فناوری زبان در مؤسسات دانشگاهی و ملی، یک ضرورت اجتناب ناپذیر تلقی می‌شود. زبان فارسی به گفته استاد داریوش آشوری در کتاب (زبان باز  و مدرنیته) دارای آن ظرفیت‌ها و پتانسیل‌های غنی در خود هست که می‌تواند با مقاومت و پرورش خود در برابر هجوم مدرنیته و امپریالیسم زبانی و زبان مدرنیته‌، به هضم و به‌روزرسانی خود با اتکا به این فناوری و سیستم تکنولوژیکی زبانی دست یابد. پر واضح هست این مقال و معرفی کوتاه این فناوری که تحت عنوان تکنولوژی زبان در بسیاری از کشورهای توسعه یافته فناوری‌، چه در اروپا و چه در غرب و … تمام جنبه‌های آنرا لحاظ نکرده و میدان وسیعی جهت پژوهش و تحقیق سیستماتیک در آن پیشاروی ماست. نگارنده با استفاده از بخشی از منابع مذکور ورود به چنین مبحثی را در محدوده زیستی زبان فارسی در رویکرد ملی / قاره / و جهانی لازم و ضروری می داند. ورود به مبحث تقسیم‌بندی و یا طبقه‌بندی اطلاعاتی از زبان‌ها،  در این فضای مجازی کیهانی به نوبه خود تلاش و همتی  فراگیر را طلب می‌کند. در این مقال اشارات از چنین رویکردی در کشورهای دارای چنین هم‌فناوری و نتایج بسیار علمی و مبنایی‌اش می‌تواند الگوی مناسبی برای مروجان و دانشگاهیان‌، موسسات، فرهنگستان‌ها که ‌ترویج زبان فارسی را هدف والای خود می‌دانند‌، ضرورتی اجتناب ناپذیر تلقی شود.   

تاریخ نوشته ۱۳۹۲

——-

منابع 

  • Language Technology, its applications, and the undergraduate units on offer by the Centre for

 Language Technology.

  • The site of the Australasian Language Technology Association (ALTA). It contains a mailing list and

  further information about language technology in Australia and New Zealand.

  • A Survey of the State of the Art in Human Language Technology. You can get a feel for the broad range of issues addressed in language technology research by browsing the contents of this online

  survey.

  • کتاب زبان باز _پژوهشی در زبان و مدرنیته ، نوشته داریوش آشوری ، سال ۱۳۸۷ نشر مرکز چاپ اول
  • فیلوژنتیک زبانی ، مطالعات تکاملی رنگها در زبان ، نوشته سعیدجهانپولاد خبرگزاری یکتاپرس ، سال ۱۳۹۶ انتشار ۱۴۰۰
  • انقراض زبان ، مرگ گونگی زبا نها، سعیدجهانپولاد  خبرگزاری یکتاپرس سال انتشار ۱۴۰۰

 

لطفاً به اشتراک بگذارید
تبلیغات

تازه‌ترین نسخه دیجیتال شهرگان

تازه‌ترین نسخه‌ی دیجیتال هم‌یان «ویژه‌نامه‌ی پیوست شهرگان»

آگهی‌های تجاری:

ویدیوی تبلیفاتی صرافی عطار:

شهرگان در شبکه‌های اجتماعی

آرشیو شهرگان

دسته‌بندی مطالب

پیوندها:

Verified by MonsterInsights