فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی دادهها
توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد
فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی دادهها دارای ۴۰ صفحه می باشد و دارای تنظیمات در microsoft word می باشد و آماده پرینت یا چاپ است
فایل ورد فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی دادهها کاملا فرمت بندی و تنظیم شده در استاندارد دانشگاه و مراکز دولتی می باشد.
توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل ورد می باشد و در فایل اصلی فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی دادهها،به هیچ وجه بهم ریختگی وجود ندارد
بخشی از متن فایل ورد کامل مقاله بازیابی اطلاعات و ساخت آنتولوژی؛ تحلیل علمی و فنی نقش آنتولوژی در سازماندهی دادهها :
چکیده:
بازیابی اطلاعات میتواند به ساخت آنتولوژیها و کاربرد مؤثر و مفید آنها، کمک کند. ما از استخراج واژه اصلی مبتنی بر ترکیب و تجانس (Collocation)، جهت ارائه مفاهیم جدید، استفاده و در مورد ارائه ارتباط وسیع جهت اتوماتیک سازی جمعیت آنتولوژی با مثال، مطالعه میکنیم. ما، متدهای خود را در تنظیم پروژه کتابخانه دیجیتال، با استفاده از متدولوژی ارزیابی اطلاعات، ارزیابی میکنیم. در یک تنظیم مشابه، در مورد متدهای بازیابی مطالعه میکنیم که ساپورت جهتیابی ارائه شده توسط روابط معنایی و لغوی موجود در اغلب آنتولوژیها را جهت کمک به کاربران در بررسی آنتولوژی تکمیل میکنند.
مقدمه:
متدهای جستجو، جهت یابی و سازماندهی اطلاعات اینترنت رایج امروز، دهههای تحقیق دوره بازیابی اطلاعات را پایه و مبنا قرار میدهند. این متدها مبنی بر قوانین آماری کنترل کننده استفاده انسان از زبان، نه تنها در بازیابی سند و مدرک، بلکه در امورغنیتر به لحاظ معنایی مثل پاسخگویی به پرسش، مورد استفاده قرار میگیرند. یک شکل Semantic Web این است که بسیار شبیه به Web است که ما امروزه میشناسیم و انتظار داریم که اسناد مدارک، سرشار از منافع قابل فهم باشند. این تفسیرها را در مورد اسناد وعبارات قابل توجیهی که در جستجوی معانی مضمون اسناد ومدارک هستند، ارائه خواهند داد. ما توضیح میدهیم که صورتهای صرفی IR چگونه میتوانند در این امر، با کمک آرشیتکتهای آنتولوژی غیرمعمولی، مؤثر باشند. تکنیکهای IR میتوانند به تعریف، تشخیص و بررسی ثبات و تداوم آنتولوژی کمک کنند. هشت مرحله میتوانند در پروسه ایجاد آنتولوژی متمایز شوند.
۱- تعیین محدوده آنتولوژی
۲- توجه به استفاده مجدد از قسمتهای مربوط به آنتولوژی موجود
۳- بر شماری و ذکر کلیه مفاهیمی که میخواهید
۴- تعریف و تشخیص تاکونومی این مفاهیم
۵- تعریف و تشخیص ویژگیهای مفاهیم
۶- تعریف و تشخیص جنبههایی از مفاهیم مثل اصول و ارزشهای مورد نیاز وغیره
۷- تعریف و تشخیص نمونهها
۸- بررسی ثبات و تداوم آنتولوژی
ما، از میان این مراحل، مراحل ۳ و۷ را با تکنیکهای مبتنی بر IR بررسی کرده و معتقدیم که این مراحل میتوانند به طور مفیدی با استفاده از تکنولوژی بازیابی قابل دسترس امروزی، انجام شوند. مرحله ۴ برای اتوماتیک سازی، مناسب است، در عین حال، مسئله حلشدهای به شمار نمی رود و مرحله ۸ در مورد متدهای استدلال سمبولیک به گونهای که مثلاً در PACER و FACT اجرا میشوند، بهترین گزینه است. تکنیکهای IR ، علاوه بر اینکه جهت کمک به سازندگان آنتولوژی مورد استفاده قرار میگیرند، میتوانند در جستجو، مرورگری و ارائه موارد غیرمترقبه نیز به کاربران کمک کنند. مردم تمایل دارند که از Semantic Web شرکتها جهت جستجوی اسناد و مدارک، بلکه جهت جستجوی اطلاعاتی در مورد روابط معنایی خاص، مثلاً در تنظیم کتابخانه های دیجیتال، استفاده کنند.
بنابراین، روشهایی را جهت «بازیابی در یک سلسله مراتب مفهومی» ارائه میدهیم، که در آنها به جستجوی واقعی هماهنگی به نحوییکه توسط اغلب ابزارهای جهتیابی و ویراستارهای آنتولوژی ارائه میشود. ممکن است مناسب و کافی نباشد. پیشرفتهای گذشته، با ایجاد آلگوریتمهای بازیابی سند و مدرک مفید امروزی جهت ایجاد و بهکارگیری زیرساختار Semantic web، مستقیماً منجر به ایجاد پیشرفتهایی در آینده میشوند. اما دلیل متدولوژیکی بیشتری برای نزدیک تر که من اقدامات Semantic web در IR به هم داریم، جامعه IR بر اهمیت ارزیابی، تأکید کرده است. با ظهور کنفرانسهای بازیافت متن (IRC)، ارزیابی آزمایشی امور مربوطه به بازیابی، به پیشرفت چشمگیری رسیده که منجر به پیشرفت سریع در امور ارزیابی شده، شده است. منافع مشابهی با اقدامات ارزیابی مربوط به بازیایب و اقدامات مربوط به امور پردازش زبان غنیتر به لحاظ معنایی، وجود دارند. جامعه Semantic web، از تأکید شدیدتر بر ارزیابی و اموری که میتوانند ارزیابی شوند، سود میبرد. با خوردن غذای سگ خود، ارزیابی تجربی در مورد کلیه امور مورد بررسی در این مقاله انجام میدهیم.
بخش ۲، تنظیمی را بررسی میکند که کلیه امور در آن رخ میدهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوری امکان دستیابی مبتنی بر آنتولوژی به یک کتاب راهنمای الکترونیکی در فصل مشترک و واسط زبانشناسی و منطق. در بخش ۳، اتوماتیک سازی مرحله ۳ و ارزیابی آنرا، توصیف میکنیم. در بخش ۴، در مورد اتوماتیک سازی مرحله ۷ و ارزیابی آن، صحبت میکنیم در بخش ۵، جستجو در سلسله مراتب مفهوم LaLaLi را ارزیابی میکنیم. در بخش ۶، نتیجه گیری میکنیم.
۲- LoLaLi:
کارما، و آزمایشات مربوط به آن، در تنظیم پرونده کتابخانه دیجیتال، انجام شدند. پروژه LoLaLi ، متدهایی را جهت گسترش مزمت قدیمی کتابهای راهنمایی علمی با ابزارهای الکترونیکی ، ارائه میدهد. این ابزارها به خوانندگان کمک می کنند که به مضمون و محتوای کتاب راهنما دست یابند و این ابزارها، یافتن اطلاعات مربوطه را آسانتر میسازند.
طبق این مطالعه ، پروژه Handbook of Logic and Language در فصل ۲۰ ص ۱۲۰۰ تمرکز دارد، مانند آزمایشات از منابع Latex استفاده کردیم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوری امکان دستیابی به کتاب راهنما استفاده میکند. سلسله مراتب مفهوم، غالباً جهت جهت یابی از طریق ترکیبها و تجانسها اسناد در مدارک، مورد استفاده قرار میگیرند. آنها برای سازماندهی، نمایش دهی و ارائه اطلاعات متعدد،مفید واقع میشوند، و کاربرانی در جستجوی یک hypertext هستند و دارای الگوهای مرورگری سلسله مراتبی هستند، بهتر از کاربران دارای مسیرهای مرورگری متوالی، این کار را انجام میدهند. از اینرو، معماریهای مربوط به کتابهای راهنمای الکترونیکی باید الگوهای سلسله مراتبی را توجیه کننده یک سلسله مراتب مفهومی، روش مناسبی برای انجام این کار باشد.
سلسله مراتب مهم LoLaLi با دست و توسط متخصصین این رشته که اخیراً حدود ۶۰۰ مفهوم را جمع آوری، سازماندهی و مرتبط ساختهاند، ایجاد میشود و یک سرویس دهنده مبتنی بر secame ، اطلاعات سلسله مراتبی را ذخیره میکند که از طریق یک مجموعه از نوشتهجات و Protégé هدفمند، ویرایش و به روز رسانی میشود. ما در بخش ۳، توضیح میدهیم که تکنیکهای اصلی IR، چگونه میتوانند به نویسندگان در تعیین و انتخاب مفاهیمی جهت تحول در سلسله مراتب، کمک کنند.
هر مفهوم در سلسله مراتب LoLaLi، با یک توضیح و تفسیر، حاشیه نویسی میشود که به طور خلاصه، آنرا توصیف میکنند.
بعلاوه، مفاهیم دارای توصیفات طولانیتری هستند و آنها هم توسط نویسندگان، ارائه میشوند. سلسله مراتب، از یک مفهوم TOP با چهار شعبه اصلی در زیر آن تشکیل میشود : علم کامپیوتر، ریاضیات، زبانشناسی و فلسفه که توسط روابط زیر موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهی و تنظیم میشوند. این روابط، تایپ می شوند و تایپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بیشتر یک نمودار است یا یک قالب دقیق و واضح شکل ۱ . روابط غیرسلسله مراتبی نیز در نظر گرفته شده و به منظور اهداف جهت یابی مورد استفاده قرار میگیرند؛ این روابط مشتمل بر Sibing(همشیره و خواهر)، “معانی دیگر” و “مفاهیم مربوطه” می باشند. مفاهیم موجود در سلسله مراتب LoLaLi نیز به منابع خارجی ارتباط دارند. مورد اصلی در میان این روابطHand book of Logicians lenguage میباشد، مثالهای دیگر مشتمل بر روابط با ابزارهای مستقیم (on line) مربوطه میباشند روابط با Handbook ، مفهومی را در سلسله مراتب، به عنوان منبع وبخشهای مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ میکنند. در بخش ۴، ما توضیحمیدهیم که چگونه تکنیکهای IR به بررسی این امر کمک میکنند.
در حال حاضر ، کابران میتوانند به شکل “آسانی”سلسله مراتب دست یابند از نتایج مطالعه یک کاربر، جهت یابی در راستای روابط معنایی فوق اینکه، با تسهیلات جستجوی کامل شده است که کاربران را مجاز میسازد مفاهیم موجود در سلسله مراتب را به شیوهای اختیاری، بیابند. دربخش ۵، ما تکنیکهای اصلی IR را ارزیابی و توصیف
میکنیم.
۳- کمک به سازندگان آنتولوژی
طبق پروژه LoLaLi، درزمان ساختن یک آنتولوژی برای یک رشته علمی خاص، آثار ادبی ارزشمندی وجود دارند که محتوا و معانیشان باید تحت پوشش آنتولوژی قرار گیرند. ما در مورد ساپورت IR جهت بررسی سوال زیر، گزارش میدهیم: کدام مفاهیم باید در آنتولوژی قرارگیرند؟ ما به جای اینکه به صورت دستی و غیراتوماتیک به جستجوی آثار ادبی بپردازیم، متدهای شناسائی مفاهیم مورد نظر را از یک متن خاص، با استفاده از استخراج واژه توضیح میدهیم. اسامی مفاهیم، معمولاً عبارات اسمی (noun phrase) هستند. از اینرو، تشخیص عبارات اسمی، احتمالاً اولین مرحله برای تشخیص مفاهیم مورد نظر به شمار میرود. ما دو مورد را در عین به کارگیری تکنیکهای مختلف، متمایز میکنیم: کاندیداهای تک واژهای و کاندیداهای چندواژهای.
۱-۳- مفاهیم یک اسمی
با جهت یافتن اسامی جالب، ابتدا POS را به دنبال متن Hand book اضافه کرده و سپس کلیه اسم ها را انتخاب میکنیم. ما از دو روش برای طبقه بندی آنها استفاده می کنیم. توسط تواتر و تعداد خام و توسط تواتر یا تعدد نسبی، یعنی توسط تعداد وقایع تقسیم بر تعداد وقایع در مجموعه اسناد ومدارک با هدف کلی. لیستهای حاصله، توسط سه ارزیابی، ارزیابی شدند که از آنها در مورد هر اسم در فهرستهای حاصله پرسیده میشد که آیا آنها در فهرست جامعی از نظریات مفید یا مهم که به مبتدیان و متخصصین کمک میکند، قرار دارند یا خیر. در مورد “استاندارد طلائی” ما، یک اسم در صورتی در نظر گرفته میشد که اکثر ارزیابها، آنرا وابسته به آن فهرست بدانند.
ما، با این استاندارد طلایی، امتیازات دقیق a(n) را جهت افزایش ارزشهای n ، محاسبه کردیم در جدول۱، دومین ردیف، فهرست حاصله تنظیم شده توسط تواتر و تعدد خام و سومین فهرست تنظیمی توسط تعدد وتواتر نسبی را نشان میدهد. نمایانگر کننده است که حتی فهرست حاصله تعدد خام از کیفیت بالایی برخوردار بوده ودارای اسمهای نامربوط به تعدد و تواتر و تکرار زیاد در راس، میباشد و با احتساب ویژگیهای این حیطه خاص، امتیازات دقیق بسیار بالا میتوانند حاصل شوند. در مورد یادآوری چطور؟ گردآوری وت دوین فهرست کاملی از اسمهای مفید یا مهم محدوده Hand book، کار مشکلی است، البته اگر غیرممکن نباشد، در عوض، ما تصمیم داریم که با استفاده از یادآوری مفهوم به یادآوری تقریبی بپردازیم(CK): چه تعدادی از مفاهیم تک اسمی در سلسله مراتب LoLaLi را ما شناسایی کرده ایم، و آنها کدام قسمت فهرستهای حاصله قرار دارند؟ از ۵۲۲ مفهوم در سلسله مراتب مفهومی، ۱۵۸مفهوم، تک اسمی هستند؛ از اینرو، CR در برابر آن ۱۵۸ مفهوم ، ارزیابی شد. آلگوریتم استخراج اسم، ۷۷% از مفاهیم تک اسمی موجوددر سلسله مراتب LoLaLi را شناسایی کرد؛ و ۷۰% این مفاهیم در ۷۵۰ مورد از ۱ به بعد قرار دارند. در حالیکه این، امتیاز یادآوری کاملی نیست، سازندگان آنتولوژی ما، به موارد بسیار مهمی در ارائه سلسله مراتب پی برده و به ما میگویند که این موارد غالباً آنها را به تفکر در مورد مفاهیم دیگر و بررسی غیرمستقیم مسئله یادآوری وا میدارند.
۲-۳- عبارات اسمی چند واژه ای
بیائید به استخراج عبارات اسمی چند واژهای بپردازیم، ما متد مفیدی را ارائه میدهیم که مبتنی بر ترکیبها و تجانس ها بوده و میتواند به مرحله تقسیم شود. Parsel سطحی متن، ۲ ارائه توالی های واژهای با الگوهای جالب pos-tag برای ارزیابی و بررسی دقیقتر،۳/ تصمیمگیری در مورد اینکه هر توالی واژه، یک تجانس یا ترکیب اسمی هست یا خیر. مرحله ۱/ با Schmid Tree-Tagger pos-tagger انجام می شود. مرحله ۲، با متدی که توسط Katz,Justeson ارائه شده، انجام می شود و از الگوهای pos-tag جدول ۲ استفاده میکند. ما متن ضمیمه شده یا اضافه شده را بررسی کرده و هر چیزی را که بایکی از الگوهای pos-tag فهرستی، هماهنگ نیست، کنار میگذاریم. مرحله ۳ ، با آزمایش اینکه آیا واژههای موجود در توالی، بیشتر از موقعی ایجاد میشوند که کلیه واژه های موجود در متن به صورت تصادفی، تنظیم شده باشند. طبق نظریه Krenn , Evert که آشکارسازی ترکیبها و تجانسهای pp-Verb را بررسی کرده اند، از t-test جهت بررسی مرحله ۳ استفاده میکنیم. فرضیه بی اعتبار ما این است که در متن، واژههایی که توالی را میسازند، کاملاً مستقل از یکدیگر هستند.
زمانیکه از متد چند واژهای خود در مورد Handbook of logic and lansuage استفاده میکنیم، به نتایج امیدوار کننده ای میرسیم. مثلاً ، ۱۰ ترکیب یا تجانس اسمی با بالاترین امتیازات t در جدول ۳ نشان داده میشوند. در واقع، ما چگونه این کار را انجام میدهیم؟ مثل عبارات تک اسمی، ما از یادآوری مفهوم (CR) و دقت (P) جهت پاسخگویی به این سوال، استفاده میکنیم از ۵۲۲ مفهوم موجود در این شکل سلسله مراتب مفهومی مورد استفاده، ۳۶۴ مفهوم، چند واژهای هستند؛ از اینرو، CR در برابر آن ۳۶۴ مفهووم، ارزیابی شد. آلگوریتم ما با کار در مورد Hand book،۳۸۹۶ ترکیب و تجانس را ارائه داد، ۹۹ مورد، مفاهیم مربوط به سلسله مراتب هستند. مثلا، با ۲۸% از مفاهیم چند واژهای را یافتیم؛ ۷۳% آنها در ۷۵۰ هستند. با توجه به P، ما از سه ارزیاب جهت ارزیابی مفاهیم کاندیدای مورد نظر، استفاده کردیم. جدول ۳، نمونهای از نتایج را بهمراه ارزیابیهای انسانی، ارائه میدهد. جدول ۴، دارای امتیازات دقت حاصله در درجات مختلف میباشد؛ دقت با حرکت به سمت پائین فهرست، کاهش مییابد.
در حالیکه وقت در سطح قابل قبولی است، یادآوری مفهووم، در حد مطلوبی باقی ماند. چند راه برای افزایش یادآوری وجود دارد: توسعه الگوهای استخراج بیشتر، واضح سازی کمتر الگوها، یا افزایش اطلاعات و دادههایی که بر روی آنها کار می شود. ممکن است در بین گزینه به دقت لطمه بزند، و اولین گزینه الگوهای بسیار خاصی را ایجاد کرده و هیچ تفاوتی در دورههای یادآوری مفهوم ایجاد نکند. به سومین گزینه میپردازیم. عبارت اسمی جالب بسیاری، تنها در اhand book ایجاد میشوند؟ زمانیکه متد تشخیص ما، از طریق افزونگی عمل میکند، تا در به یافتن آن واژه ها نخواهیم برد.
جهت ایجاد یک مجموعه اطلاعاتی وسیعتر باید به شرح زیر عمل کنیم. هر یک از ۵۲۲ مفهوم موجود در سلسله مراتب LoLaLi به موتور تحقیق وب دارد شدند.که در عین حال، خروجی فایلهای PDF را محدود کردند. ۲۰ نتیجه بالایی، حفظ شدند؛ متن، با استفاده از pstotext، استخراج شد و MB385 از متن قابل استفاده ایجاد کرد. ما ۴۷۵/۲۰۶ ترکیب و تجانس را استخراج کردیم،کل ۱۹۷ مفهوم یافت شده و مهمتر اینکه ۴۴% آنها در میان ۷۵۰ نتیجه بالایی بودند. بنابراین، CR مشخصاً در زمان مقایسه با نتایج اجرا کننده آلگوریتم ما در برابر متن Handbook، ایجاد شده است. در جدول ۵، اعداد دقیق مربوط به مجموعه Web را در رابطه با مجموعه CLEF فهرست میکنیم. تخصیص و تصریح این امر، به خلاص شدن از دست عباراتی مثل “other hand” کمک میکند، اما عباراتی مثل “next section” (بخش بد) را به درجات بالا می برد و امتیاز p@10 پائین را در ردیف ۳، توجیه میکند.
- لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
- همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
- ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
- در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
یزد دانلود |
دانلود فایل علمی 