فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی داده‌ها


در حال بارگذاری
10 جولای 2025
فایل ورد و پاورپوینت
20870
4 بازدید
۹۹,۰۰۰ تومان
خرید

توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد

 فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی داده‌ها دارای ۴۰ صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است

فایل ورد فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی داده‌ها  کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه  و مراکز دولتی می باشد.

توجه : در صورت  مشاهده  بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی داده‌ها،به هیچ وجه بهم ریختگی وجود ندارد


بخشی از متن فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی داده‌ها :

چکیده:
بازیابی اطلاعات می‌تواند به ساخت آنتولوژیها و کاربرد مؤثر و مفید آنها، کمک کند. ما از استخراج واژه اصلی مبتنی بر ترکیب و تجانس (Collocation)، جهت ارائه مفاهیم جدید، استفاده و در مورد ارائه ارتباط وسیع جهت اتوماتیک سازی جمعیت آنتولوژی با مثال، مطالعه می‌کنیم. ما، متدهای خود را در تنظیم پروژه کتابخانه دیجیتال، با استفاده از متدولوژی ارزیابی اطلاعات، ارزیابی می‌کنیم. در یک تنظیم مشابه، در مورد متدهای بازیابی مطالعه می‌کنیم که ساپورت جهت‌یابی ارائه شده توسط روابط معنایی و لغوی موجود در اغلب آنتولوژیها را جهت کمک به کاربران در بررسی آنتولوژی تکمیل می‌کنند.

مقدمه:
متدهای جستجو، جهت یابی و سازماندهی اطلاعات اینترنت رایج امروز، دهه‌های تحقیق دوره بازیابی اطلاعات را پایه و مبنا قرار می‌دهند. این متدها مبنی بر قوانین آماری کنترل کننده استفاده انسان از زبان، نه تنها در بازیابی سند و مدرک، بلکه در امورغنی‌تر به لحاظ معنایی مثل پاسخگویی به پرسش، مورد استفاده قرار می‌گیرند. یک شکل Semantic Web این است که بسیار شبیه به Web است که ما امروزه می‌شناسیم و انتظار داریم که اسناد مدارک، سرشار از منافع قابل فهم باشند. این تفسیرها را در مورد اسناد وعبارات قابل توجیهی که در جستجوی معانی مضمون اسناد ومدارک هستند، ارائه خواهند داد. ما توضیح می‌دهیم که صورتهای صرفی IR چگونه می‌توانند در این امر، با کمک آرشیتکت‌های آنتولوژی غیرمعمولی، مؤثر باشند. تکنیکهای IR می‌توانند به تعریف، تشخیص و بررسی ثبات و تداوم آنتولوژی کمک کنند. هشت مرحله می‌توانند در پروسه ایجاد آنتولوژی متمایز شوند.

۱- تعیین محدوده آنتولوژی
۲- توجه به استفاده مجدد از قسمتهای مربوط به آنتولوژی موجود
۳- بر شماری و ذکر کلیه مفاهیمی که می‌خواهید
۴- تعریف و تشخیص تاکونومی این مفاهیم
۵- تعریف و تشخیص ویژگیهای مفاهیم
۶- تعریف و تشخیص جنبه‌هایی از مفاهیم مثل اصول و ارزش‌های مورد نیاز وغیره
۷- تعریف و تشخیص نمونه‌ها
۸- بررسی ثبات و تداوم آنتولوژی

ما، از میان این مراحل، مراحل ۳ و۷ را با تکنیکهای مبتنی بر IR بررسی کرده و معتقدیم که این مراحل می‌توانند به طور مفیدی با استفاده از تکنولوژی بازیابی قابل دسترس امروزی، انجام شوند. مرحله ۴ برای اتوماتیک سازی، مناسب است، در عین حال، مسئله حل‌شده‌ای به شمار نمی رود و مرحله ۸ در مورد متدهای استدلال سمبولیک به گونه‌ای که مثلاً در PACER و FACT اجرا می‌شوند، بهترین گزینه است. تکنیکهای IR ، علاوه بر اینکه جهت کمک به سازندگان آنتولوژی مورد استفاده قرار می‌گیرند، می‌توانند در جستجو، مرورگری و ارائه موارد غیرمترقبه نیز به کاربران کمک کنند. مردم تمایل دارند که از Semantic Web شرکتها جهت جستجوی اسناد و مدارک، بلکه جهت جستجوی اطلاعاتی در مورد روابط معنایی خاص، مثلاً در تنظیم کتابخانه های دیجیتال، استفاده کنند.

بنابراین، روش‌هایی را جهت «بازیابی در یک سلسله مراتب مفهومی» ارائه می‌دهیم، که در آن‌ها به جستجوی واقعی هماهنگی به نحوییکه توسط اغلب ابزارهای جهت‌یابی و ویراستارهای آنتولوژی ارائه می‌شود. ممکن است مناسب و کافی نباشد. پیشرفتهای گذشته، با ایجاد آلگوریتم‌های بازیابی سند و مدرک مفید امروزی جهت ایجاد و به‌کارگیری زیرساختار Semantic web، مستقیماً منجر به ایجاد پیشرفتهایی در آینده می‌شوند. اما دلیل متدولوژیکی بیشتری برای نزدیک تر که من اقدامات Semantic web در IR به هم داریم، جامعه IR بر اهمیت ارزیابی، تأکید کرده است. با ظهور کنفرانس‌های بازیافت متن (IRC)، ارزیابی آزمایشی امور مربوطه به بازیابی، به پیشرفت چشمگیری رسیده که منجر به پیشرفت سریع در امور ارزیابی شده، شده است. منافع مشابهی با اقدامات ارزیابی مربوط به بازیایب و اقدامات مربوط به امور پردازش زبان غنی‌تر به لحاظ معنایی، وجود دارند. جامعه Semantic web، از تأکید شدیدتر بر ارزیابی و اموری که می‌توانند ارزیابی شوند، سود می‌برد. با خوردن غذای سگ خود، ارزیابی تجربی در مورد کلیه امور مورد بررسی در این مقاله انجام می‌دهیم.

بخش ۲، تنظیمی را بررسی می‌کند که کلیه امور در آن رخ می‌دهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوری امکان دستیابی مبتنی بر آنتولوژی به یک کتاب راهنمای الکترونیکی در فصل مشترک و واسط زبانشناسی و منطق. در بخش ۳، اتوماتیک سازی مرحله ۳ و ارزیابی آنرا، توصیف می‌کنیم. در بخش ۴، در مورد اتوماتیک سازی مرحله ۷ و ارزیابی آن، صحبت می‌کنیم در بخش ۵، جستجو در سلسله مراتب مفهوم LaLaLi را ارزیابی می‌کنیم. در بخش ۶، نتیجه گیری می‌کنیم.
۲- LoLaLi:
کارما، و آزمایشات مربوط به آن، در تنظیم پرونده کتابخانه دیجیتال، انجام شدند. پروژه LoLaLi ، متدهایی را جهت گسترش مزمت قدیمی کتابهای راهنمایی علمی با ابزارهای الکترونیکی ، ارائه می‌دهد. این ابزارها به خوانندگان کمک می کنند که به مضمون و محتوای کتاب راهنما دست یابند و این ابزارها، یافتن اطلاعات مربوطه را آسانتر می‌سازند.

طبق این مطالعه ، پروژه Handbook of Logic and Language در فصل ۲۰ ص ۱۲۰۰ تمرکز دارد، مانند آزمایشات از منابع Latex استفاده کردیم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوری امکان دستیابی به کتاب راهنما استفاده می‌کند. سلسله مراتب مفهوم، غالباً جهت جهت یابی از طریق ترکیب‌ها و تجانس‌ها اسناد در مدارک، مورد استفاده قرار می‌گیرند. آنها برای سازماندهی، نمایش دهی و ارائه اطلاعات متعدد،مفید واقع می‌شوند، و کاربرانی در جستجوی یک hypertext هستند و دارای الگوهای مرورگری سلسله مراتبی هستند، بهتر از کاربران دارای مسیرهای مرورگری متوالی، این کار را انجام می‌دهند. از اینرو، معماریهای مربوط به کتاب‌های راهنمای الکترونیکی باید الگوهای سلسله مراتبی را توجیه کننده یک سلسله مراتب مفهومی، روش مناسبی برای انجام این کار باشد.

سلسله مراتب مهم LoLaLi با دست و توسط متخصصین این رشته که اخیراً حدود ۶۰۰ مفهوم را جمع آوری، سازماندهی و مرتبط ساخته‌اند، ایجاد می‌شود و یک سرویس دهنده مبتنی بر secame ، اطلاعات سلسله مراتبی را ذخیره می‌کند که از طریق یک مجموعه از نوشته‌جات و Protégé هدفمند، ویرایش و به روز رسانی می‌شود. ما در بخش ۳، توضیح می‌دهیم که تکنیکهای اصلی IR، چگونه می‌توانند به نویسندگان در تعیین و انتخاب مفاهیمی جهت تحول در سلسله مراتب، کمک کنند.
هر مفهوم در سلسله مراتب LoLaLi، با یک توضیح و تفسیر، حاشیه نویسی می‌شود که به طور خلاصه، آنرا توصیف می‌کنند.

بعلاوه، مفاهیم دارای توصیفات طولانی‌تری هستند و آنها هم توسط نویسندگان، ارائه می‌شوند. سلسله مراتب، از یک مفهوم TOP با چهار شعبه اصلی در زیر آن تشکیل می‌شود : علم کامپیوتر، ریاضیات، زبانشناسی و فلسفه که توسط روابط زیر موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهی و تنظیم می‌شوند. این روابط، تایپ می شوند و تایپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بیشتر یک نمودار است یا یک قالب دقیق و واضح شکل ۱ . روابط غیرسلسله مراتبی نیز در نظر گرفته شده و به منظور اهداف جهت یابی مورد استفاده قرار می‌گیرند؛ این روابط مشتمل بر Sibing(همشیره و خواهر)، “معانی دیگر” و “مفاهیم مربوطه” می باشند. مفاهیم موجود در سلسله مراتب LoLaLi نیز به منابع خارجی ارتباط دارند. مورد اصلی در میان این روابطHand book of Logicians lenguage می‌باشد، مثال‌های دیگر مشتمل بر روابط با ابزارهای مستقیم (on line) مربوطه می‌باشند روابط با Handbook ، مفهومی را در سلسله مراتب، به عنوان منبع وبخش‌های مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ می‌کنند. در بخش ۴، ما توضیح‌می‌دهیم که چگونه تکنیکهای IR به بررسی این امر کمک می‌کنند.

در حال حاضر ، کابران می‌توانند به شکل “آسانی”سلسله مراتب دست یابند از نتایج مطالعه یک کاربر، جهت یابی در راستای روابط معنایی فوق اینکه، با تسهیلات جستجوی کامل شده است که کاربران را مجاز می‌سازد مفاهیم موجود در سلسله مراتب را به شیوه‌ای اختیاری، بیابند. دربخش ۵، ما تکنیکهای اصلی IR را ارزیابی و توصیف
می‌کنیم.
۳- کمک به سازندگان آنتولوژی
طبق پروژه LoLaLi، درزمان ساختن یک آنتولوژی برای یک رشته علمی خاص، آثار ادبی ارزشمندی وجود دارند که محتوا و معانیشان باید تحت پوشش آنتولوژی قرار گیرند. ما در مورد ساپورت IR جهت بررسی سوال زیر، گزارش می‌دهیم: کدام مفاهیم باید در آنتولوژی قرارگیرند؟ ما به جای اینکه به صورت دستی و غیراتوماتیک به جستجوی آثار ادبی بپردازیم، متدهای شناسائی مفاهیم مورد نظر را از یک متن خاص، با استفاده از استخراج واژه توضیح می‌دهیم. اسامی مفاهیم، معمولاً عبارات اسمی (noun phrase) هستند. از اینرو، تشخیص عبارات اسمی، احتمالاً اولین مرحله برای تشخیص مفاهیم مورد نظر به شمار می‌رود. ما دو مورد را در عین به کارگیری تکنیکهای مختلف، متمایز می‌کنیم: کاندیداهای تک واژه‌ای و کاندیداهای چندواژه‌ای.

۱-۳- مفاهیم یک اسمی
با جهت یافتن اسامی جالب، ابتدا ‍POS را به دنبال متن Hand book اضافه کرده و سپس کلیه اسم ها را انتخاب می‌کنیم. ما از دو روش برای طبقه بندی آنها استفاده می کنیم. توسط تواتر و تعداد خام و توسط تواتر یا تعدد نسبی، یعنی توسط تعداد وقایع تقسیم بر تعداد وقایع در مجموعه اسناد ومدارک با هدف کلی. لیستهای حاصله، توسط سه ارزیابی، ارزیابی شدند که از آنها در مورد هر اسم در فهرستهای حاصله پرسیده می‌شد که آیا آنها در فهرست جامعی از نظریات مفید یا مهم که به مبتدیان و متخصصین کمک می‌کند، قرار دارند یا خیر. در مورد “استاندارد طلائی” ما، یک اسم در صورتی در نظر گرفته می‌شد که اکثر ارزیاب‌ها، آنرا وابسته به آن فهرست بدانند.

ما، با این استاندارد طلایی، امتیازات دقیق a(n) را جهت افزایش ارزش‌های n ، محاسبه کردیم در جدول۱، دومین ردیف، فهرست حاصله تنظیم شده توسط تواتر و تعدد خام و سومین فهرست تنظیمی توسط تعدد وتواتر نسبی را نشان می‌دهد. نمایانگر کننده است که حتی فهرست حاصله تعدد خام از کیفیت بالایی برخوردار بوده ودارای اسم‌های نامربوط به تعدد و تواتر و تکرار زیاد در راس، می‌باشد و با احتساب ویژگیهای این حیطه خاص، امتیازات دقیق بسیار بالا می‌توانند حاصل شوند. در مورد یادآوری چطور؟ گردآوری وت دوین فهرست کاملی از اسم‌های مفید یا مهم محدوده Hand book، کار مشکلی است، البته اگر غیرممکن نباشد، در عوض، ما تصمیم داریم که با استفاده از یادآوری مفهوم به یادآوری تقریبی بپردازیم(CK): چه تعدادی از مفاهیم تک اسمی در سلسله مراتب LoLaLi را ما شناسایی کرده ایم، و آنها کدام قسمت فهرستهای حاصله قرار دارند؟ از ۵۲۲ مفهوم در سلسله مراتب مفهومی، ۱۵۸مفهوم، تک اسمی هستند؛ از اینرو، CR در برابر آن ۱۵۸ مفهوم ، ارزیابی شد. آلگوریتم استخراج اسم، ۷۷% از مفاهیم تک اسمی موجوددر سلسله مراتب LoLaLi را شناسایی کرد؛ و ۷۰% این مفاهیم در ۷۵۰ مورد از ۱ به بعد قرار دارند. در حالیکه این، امتیاز یادآوری کاملی نیست، سازندگان آنتولوژی ما، به موارد بسیار مهمی در ارائه سلسله مراتب پی برده و به ما می‌گویند که این موارد غالباً آنها را به تفکر در مورد مفاهیم دیگر و بررسی غیرمستقیم مسئله یادآوری وا می‌دارند.

۲-۳- عبارات اسمی چند واژه ای
بیائید به استخراج عبارات اسمی چند واژه‌ای بپردازیم، ما متد مفیدی را ارائه می‌دهیم که مبتنی بر ترکیبها و تجانس ها بوده و می‌تواند به مرحله تقسیم شود. Parsel سطحی متن، ۲ ارائه توالی های واژه‌ای با الگوهای جالب pos-tag برای ارزیابی و بررسی دقیق‌تر،۳/ تصمیم‌گیری در مورد اینکه هر توالی واژه، یک تجانس یا ترکیب اسمی هست یا خیر. مرحله ۱/ با Schmid Tree-Tagger pos-tagger انجام می شود. مرحله ۲، با متدی که توسط Katz,Justeson ارائه شده، انجام می شود و از الگوهای pos-tag جدول ۲ استفاده می‌کند. ما متن ضمیمه شده یا اضافه شده را بررسی کرده و هر چیزی را که بایکی از الگوهای pos-tag فهرستی، هماهنگ نیست، کنار می‌گذاریم. مرحله ۳ ، با آزمایش اینکه آیا واژه‌های موجود در توالی، بیشتر از موقعی ایجاد می‌شوند که کلیه واژه های موجود در متن به صورت تصادفی، تنظیم شده باشند. طبق نظریه Krenn , Evert که آشکارسازی ترکیبها و تجانس‌های pp-Verb را بررسی کرده اند، از t-test جهت بررسی مرحله ۳ استفاده می‌کنیم. فرضیه بی اعتبار ما این است که در متن، واژه‌هایی که توالی را می‌سازند، کاملاً مستقل از یکدیگر هستند.

زمانیکه از متد چند واژه‌ای خود در مورد Handbook of logic and lansuage استفاده می‌کنیم، به نتایج امیدوار کننده ای می‌رسیم. مثلاً ، ۱۰ ترکیب یا تجانس اسمی با بالاترین امتیازات t در جدول ۳ نشان داده می‌شوند. در واقع، ما چگونه این کار را انجام می‌دهیم؟ مثل عبارات تک اسمی، ما از یادآوری مفهوم (CR) و دقت (P) جهت پاسخگویی به این سوال، استفاده می‌کنیم از ۵۲۲ مفهوم موجود در این شکل سلسله مراتب مفهومی مورد استفاده، ۳۶۴ مفهوم، چند واژه‌ای هستند؛ از اینرو، CR در برابر آن ۳۶۴ مفهووم، ارزیابی شد. آلگوریتم ما با کار در مورد Hand book،۳۸۹۶ ترکیب و تجانس را ارائه داد، ۹۹ مورد، مفاهیم مربوط به سلسله مراتب هستند. مثلا، با ۲۸% از مفاهیم چند واژه‌ای را یافتیم؛ ۷۳% آنها در ۷۵۰ هستند. با توجه به P، ما از سه ارزیاب جهت ارزیابی مفاهیم کاندیدای مورد نظر، استفاده کردیم. جدول ۳، نمونه‌ای از نتایج را بهمراه ارزیابی‌های انسانی، ارائه می‌دهد. جدول ۴، دارای امتیازات دقت حاصله در درجات مختلف می‌باشد؛ دقت با حرکت به سمت پائین فهرست، کاهش می‌یابد.
در حالیکه وقت در سطح قابل قبولی است، یادآوری مفهووم، در حد مطلوبی باقی ماند. چند راه برای افزایش یادآوری وجود دارد: توسعه الگوهای استخراج بیشتر، واضح سازی کمتر الگوها، یا افزایش اطلاعات و داده‌هایی که بر روی آنها کار می شود. ممکن است در بین گزینه به دقت لطمه بزند، و اولین گزینه الگوهای بسیار خاصی را ایجاد کرده و هیچ تفاوتی در دوره‌های یادآوری مفهوم ایجاد نکند. به سومین گزینه می‌پردازیم. عبارت اسمی جالب بسیاری، تنها در اhand book ایجاد می‌شوند؟ زمانیکه متد تشخیص ما، از طریق افزونگی عمل می‌کند، تا در به یافتن آن واژه ها نخواهیم برد.

جهت ایجاد یک مجموعه اطلاعاتی وسیع‌تر باید به شرح زیر عمل کنیم. هر یک از ۵۲۲ مفهوم موجود در سلسله مراتب LoLaLi به موتور تحقیق وب دارد شدند.که در عین حال، خروجی فایل‌های PDF را محدود کردند. ۲۰ نتیجه بالایی، حفظ شدند؛ متن، با استفاده از pstotext، استخراج شد و MB385 از متن قابل استفاده ایجاد کرد. ما ۴۷۵/۲۰۶ ترکیب و تجانس را استخراج کردیم،کل ۱۹۷ مفهوم یافت شده و مهمتر اینکه ۴۴% آنها در میان ۷۵۰ نتیجه بالایی بودند. بنابراین، CR مشخصاً در زمان مقایسه با نتایج اجرا کننده آلگوریتم ما در برابر متن Handbook، ایجاد شده است. در جدول ۵، اعداد دقیق مربوط به مجموعه Web را در رابطه با مجموعه CLEF فهرست می‌کنیم. تخصیص و تصریح این امر، به خلاص شدن از دست عباراتی مثل “other hand” کمک می‌کند، اما عباراتی مثل “next section” (بخش بد) را به درجات بالا می برد و امتیاز p@10 پائین را در ردیف ۳، توجیه می‌کند.

  راهنمای خرید:
  • لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.