عنوان‌های هم‌سان؛ کشف هوشمند عنوان‌های هم‌سانِ مقاله‌ای از انبوه مقالات

روزانه مقالات و اخبار و اسناد متنی فراوانی در محیط رقومی (دیجیتال) تولید و منتشر می‌شود که بررسی درون‌مایه این حجم گسترده اطلاعات، به آسانی امکان‌پذیر نخواهد بود، بلکه مشکلاتی پدید خواهد آورد. شمار فراوان متن‌ها، گوناگونی زبانی آنها، طول‌های مختلف و رمزینه‌های متفاوتشان، از دشواری‌های کار با اسناد متنی به شمار می‌روند.

کارشناسان شاخه‌های علمی مختلف، برای حل این مشکل دست گشاده‌اند. برای نمونه متخصصان هوش مصنوعی، بازیابی اطلاعات، داده‌کاوی و متن‌کاوی و مشابه‌‌یابی متون، کارهای صورت داده و به کمک دانش‌های بازیابی اطلاعات برای حل این مشکلات پیش‌نهادهایی عرضه کرده‌اند. این مقاله، با نام «عنوان‌های هم‌سان»، از این مشابه‌یاب‌هاست که با توجه به داده‌های فراوان پایگاه مجلات «noormags» تولید و عرضه شده است.

عنوان‌های هم‌سان، خصلتی برای کشف هوش‌مند عنوان‌های مشابه مقاله‌هاست که به کمک ترفندهای (Technics) متن‌کاوی و هوش مصنوعی، در بازدید هر مقاله، مشابه‌ترین مقالات را از دید عنوان به کاربر پیشنهاد می‌کند. یافتن مقالات مرتبط با هر مقاله، دغدغه‌ای پژوهشی است که برای سامان‌دهی پژوهش‌های فراگیر و نامکرّر در کم‌ترین زمان، باید بدان پاسخ گفت. هم‌چنین اصلی‌ترین شیوه برای شناخت ارتباط مقالات با یک‌دیگر، بررسی الفاظ مشترک میان عنوان‌های آنهاست. این ابزار از عنوان مقالات برای شناسایی ارتباط آنها با یک‌دیگر بهره می‌گیرد.

بهره‌گیری از مشابه‌یاب‌ها برای کشف روابط پنهان داده‌های متنی با یک‌دیگر، کاربردهای گوناگونی دارد. برخی از این کاربردها در پایگاه‌های خبری و برای شناسایی ارتباط خبرهای مختلف با یک‌دیگر رواج دارد. نمونه چنین کاربردی را در بخش اخبار پایگاه گوگل[1] یا بخش «در همین زمینه» پایگاه خبری هم‌شهری[2] می‌توان دید. این ویژگی هم‌چنین در پایگاه‌های علمی گنجانده شده است که بخش «See also» دانش‌نامه [3]«Wikipedia»، از آن بهره می‌گیرد.

تنها ویژگی کاربردی در فرآیند مشابه‌یابی، عنوان مقاله‌هاست، اما طراحان نورمگز کوشیده‌اند که مشابه‌یابی‌ها از سطح لفظ عنوان مقالات بگذرند و به معنا و موضوع آنها نزدیک‌تر شود. از این‌رو، آزمون‌های گوناگونی در بخش متن‌کاوی مرکز تحقیقات کامپیوتری علوم اسلامی صورت گرفت تا این گذر به شیوه بهتری صورت پذیرد. سامان‌دهی «لایه‌ای از خوشه‌بندی معنایی کلمات»، نمونه‌ای از ترفند‌ها در این آزمون‌هاست. این ترفند به کشف بسیاری از روابط «باهم‌آیی کلمات» خواهد انجامید. باهم‌آیی دو کلمه با یک‌دیگر بدین معناست که حضور یکی از آن کلمات، حضور دیگری را در پی خواهد داشت. برای نمونه، با رخداد کلمه‌ای مانند «نفت« بسیار محتمَل است که واژه «گاز» نیز به کار رود. از سوی دیگر، باهم‌آیی دو کلمه، نشان‌دهنده مشترکاتی میان آنهاست. این مشترکات در بسیاری از کلمات، خصال معنایی آنهایند. از این‌رو، فرآیند خوشه‌بندی معنایی به کمک رابطه‌ باهم‌آیی آنها امکان‌پذیر خواهد بود.

گفتنی است ترفندهای معمول در این ویژگی، با دیگر موتور جست‌جو متفاوتند و کارکردهایی دارند که خود حاصل پژوهش‌های محققان بومی است. خوشه‌بندی کلمات و جداسازی واژگان کلیدی از دیگر واژگان و مؤثرتر کردن آنها برای محاسبات مشابه‌یابی، از ویژگی‌های این ابزار به شمار می‌روند. البته این ویژگی‌ها در دست گسترشند؛ چنان‌که به خواست خدا ویژگی عنوان‌های هم‌سان در نسخه‌های آینده، از دقت و کیفیت بیش‌تری برخوردار خواهند بود.

بخش متن‌کاوی مرکز تحقیقات کامپیوتری علوم اسلامی امیدوار است که با عرضه این ویژگی، راه پژوهش برای محققان حوزه و دانشگاه هموارتر شود.

0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *