مدل‌سازی موضوعی

 

مدل‌سازی موضوعی یک‌سری روش است که به طور اتوماتیک ساماندهی، فهمیدن، جستجوکردن و خلاصه کردن اسناد الکترونیکی را انجام می‌دهند. یا به عبارت دیگر مدل‌سازی موضوعی یکی از روش‌های مرسوم یافتن موضوعات نهان در مجموعه‌ی اسناد می‌باشد.

با افزایش حجم اسناد و اطلاعات و از طرفی نمایش آن‌ها به صورت دیجیتال در قالب اخبار، وبلاگ‌ها، مقالات علمی، کتاب‌های الکترونیکی، عکس، صوت و تصویر و شبکه‌های اجتماعی پیدا کردن مطالبی که به دنبال آن هستیم مشکل می‌شود. ازاین‌رو نیاز به ابزار محاسباتی جدیدی برای سازمان‌دهی، جستجو و درک این حجم عظیم اطلاعات هستیم.

تابه‌حال کار ما روی اسناد آنلاین به دو طریق انجام می‌گرفت: یکی جستجو و دیگری پیوندها. کلمه‌ی کلیدی را در یک موتور جستجو وارد و مجموعه‌ای از اسناد مرتبط با آن را مشاهده می‌کردیم. در این اسناد اگر پیوند مفیدی به اسناد دیگر می‌دیدیم با کلیک روی آن به مجموعه اسناد دیگر دسترسی پیدا می‌کردیم. این دو روش‌های قدرتمندی برای کار کردن با آرشیوهای الکترونیکی بودند اما مشکلاتی نیز وجود داشت.

روش جستجویی که در بالا شرح داده شد مبتنی بر ظاهر یک کلمه بود و هنگام انجام عمل جستجو تمامی اسنادی که حاوی آن کلمه‌ی کلیدی هستند به عنوان نتیجه برگردانده می‌شوند. این اسناد اگرچه دربردارنده‌ی آن کلمه هستند ولی ممکن است متعلق به موضوعات مختلفی باشند درحالی‌که ما احتمالاً فقط به دنبال یک موضوع خاص هستیم. برای اینکه جستجوی دقیق‌تری داشته باشیم بایستی ابتدا موضوع مورد علاقه‌ی خود را در بین اسناد جستجو کرده و سپس جستجوی خود را محدود به این اسناد جدید کنیم و می‌توانیم در این اسناد جدید دوباره موضوع خود را محدودتر کنیم و همین‌طور پیش برویم تا جایی که به طور دقیق به اسناد مورد نیاز خود دسترسی پیدا کنیم.

به عنوان مثال فرض کنیم می‌خواهیم در آرشیو یک روزنامه به دنبال یک موضوع باشیم. موضوعات در دسته‌های سیاسی، اقتصادی، فرهنگی، ورزشی و حوادث قرار دارند. مثلاً می‌خواهیم در موضوع سیاسی جستجو کنیم. داخل این موضوع زیرموضوع‌های سیاست داخلی و خارجی وجود دارد که یکی را انتخاب می‌کنیم و همین‌طور پیش می‌رویم تا دقیقاً به اسناد مورد نیازمان دسترسی پیدا کنیم.

البته این‌گونه کار کردن با اسناد به‌سادگی امکان‌پذیر نیست؛ زیرا هر چه حجم اسناد و اطلاعات افزایش مییابد دسته‌بندی فوق برای انسان کار مشکل و یا غیرممکنی می‌شود؛ بنابراین نیاز به تکنیک‌های یادگیری ماشین داریم تا بتوانیم از طریق کامپیوتر دسته‌بندی فوق را انجام دهیم. پژوهش‌گران حوزه‌ی یادگیری ماشین برای این کار مجموعه‌ای از الگوریتم‌ها تحت عنوان مدل‌سازی موضوعی آماری را توسعه داده‌اند.

الگوریتم‌های مدل‌سازی موضوعی روش‌های آماری هستند که کلمات داخل یک متن را تحلیل کرده و از این طریق موضوعات داخل متون را استخراج می‌کنند. هم‌چنین ارتباط این موضوعات با یکدیگر و نیز تغییر آن‌ها در طول زمان را مشخص می‌کنند. این الگوریتم‌ها نیازی به هیچ فرض اولیه‌ای در مورد موضوعات متون و یا برچسب‌گذاری متون ندارند. بلکه ورودی آن‌ها متن اصلی است. الگوریتم‌های مدل‌سازی موضوعی به ما این امکان را می‌دهند تا سازمان‌دهی و خلاصه‌سازی آرشیوهای الکترونیکی‌مان را در ابعادی که از عهده‌ی انسان برنمی‌آید انجام دهیم.

در مدل‌سازی موضوعی سه هدف زیر را دنبال می‌کنیم:

  • پیدا کردن موضوعات نامعلوم که در مجموعه اسناد وجود دارند. (شایع هستند)
  • تفسیر کردن اسناد بر اساس موضوعات آن‌ها.
  • استفاده کردن از این تفاسیر برای سازمان‌دهی کردن، خلاصه کردن و جستجو کردن متن‌ها
0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *