پروژه پاورپوینت سیستمهای پالایش اطلاعات بررسی سیستم SIFT
خلاصه ای از پروژه:
این متن به بررسی سیستمهای انتشار اطلاعات، به ویژه سیستم SIFT، میپردازد. در ابتدا، جایگاه سیستمهای بازیابی و پالایش اطلاعات در مقایسه با سایر روشهای جستجوی اطلاعات بررسی شده و ویژگیهای اصلی یک سیستم بازیابی اطلاعات (IR) مانند ساختارمند نبودن اسناد و پرس و جوها، پویایی و نزدیکی به زبان طبیعی مورد بحث قرار میگیرد. سپس، تفاوتهای بین IR و IF (پالایش اطلاعات) از نظر نرخ تغییر منبع و نیاز اطلاعاتی مشخص میشود.
فعالیتهای اصلی در یک سیستم پالایش اطلاعات شامل جمعآوری، انتخاب و نمایش اطلاعات است. دو رویکرد اصلی در انتخاب اطلاعات، محتوا-مبنا (مانند SIFT و InfoScope) و اجتماعی (مانند Tapestry و GroupLens) هستند. در طراحی این سیستمها، مدلسازی کاربر (صریح یا ضمنی) و مدلسازی پرس و جوها (Boolean یا Vector Based) اهمیت دارند. معماری کلی SIFT و ویژگیهای شاخص آن، از جمله تطبیق کارا بین اسناد و پروفایلها، جلوگیری از ارسال چندگانه و توزیع عملیات تطبیق، مورد بررسی قرار میگیرند.
در طراحی SIFT، هر کاربر دارای یک یا چند پروفایل است که شامل متن پرس و جو، فرکانس اطلاعرسانی و عمر پروفایل است. ساختار پرس و جوها میتواند Boolean یا VSM باشد و از Relevance feedback برای وزندهی به ترمها استفاده میشود. محاسبه شباهت بین سند و پرس و جو و استفاده از یک Relevance Threshold نیز از جمله نکات مهم در طراحی SIFT است.
شاخصگذاری در SIFT با استفاده از روشهای مختلفی مانند Brute Force (BF)، Query Indexing (QI) و Selective Query Indexing (SQI) انجام میشود. در SQI، پرس و جوها بر اساس بعضی از ترمها شاخصگذاری میشوند و ISVهای (insignificant sub-vector) کم اهمیت انتخاب میشوند. برای SIFT از QI استفاده شده است. توزیعشدگی در SIFT به منظور افزایش بار سندها و پرس و جوها و نیاز به یک سیستم با قابلیت اطمینان بالا مورد توجه قرار گرفته است.
در نهایت، حفظ حریم شخصی در سیستمهای پالایش اطلاعات به دلیل در اختیار داشتن اطلاعات مربوط به علائق کاربران مورد بحث قرار میگیرد. جلوگیری از دسترسی غیرمجاز به پروفایلها، رمز عبور، کد کردن اطلاعات، جلوگیری از بازسازی پروفایل و کنترل ترافیک از جمله راهکارهای حفظ حریم شخصی هستند.
به دنبال پروژههای دانشجویی برتر و آماده برای استفاده هستید؟ همین حالا این پروژه آماده را دانلود کنید و در زمان خود صرفهجویی کنید!
عناوین و فهرست کلی پروژه:
سيستم های انتشار اطلاعات
بررسی سيستم SIFT
ساختار شاخص گذاری در SIFT
پياده سازی SIFT
ارزيابی SIFT
بررسی جايگاه سيستم های بازيابی اطلاعات
ويژگيهای اصلی يک سيستم IR
ساختارمند نبودن سندها
ساختارمند نبودن پرس و جو ها
پويايی سند ها و پرس و جوها
نزديکی به زبان طبيعی (کاربرد NLP)
دو پارامتر اصلی
مقايسه با ساير روشهای جستجوی اطلاعات
IR در مقايسه با IF
Grand Challenge
فعاليتهای اصلی در يک سيستم پالايش اطلاعات
جمع آوری اطلاعات
انتخاب
نمايش
ساختار کلی يک سيستم پالايش
دو رويکرد اصلی در انتخاب
محتوا-مبنا (content-based)
اجتماعی (Social)
ويژگی های مطرح در طراحی
مدل سازی کاربر
مدل سازی پرس و جو ها
شاخص گذاری
معماری کلی SIFT
ويژگيهای شاخص سيستم SIFT
تطبيق کارا بين اسناد و profile ها
جلوگيری از ارسال چندگانه
توزيع عمليات تطبيق بر روی سيستم های مختلف
سيستم های مشابه
پالايش محلی
نکات اصلی در طراحی SIFT
Profile
ساختار پرس و جو ها
محاسبه شباهت بين سند و پرس و جو
استفاده از يک Relevance Threshold
شاخص سازی در SIFT
روشهای موجود شاخص سازی
Brute Force (BF) Method
Query Indexing (QI) Method
Selective Query Indexing (SQI)
شبيه سازی جهت ارزيابی سيستم
چگونگی توليد اسناد و پرس و جو های نمونه
توزيع شدگی در SIFT
افزايش توزيع شدگی
روشی بهتر برای جلوگيری از تکرار G(m,n)
روش ترکيبی-سلسله مرتبی
حفظ حريم شخصی در سيستم خای پالايش
جلوگيری از دسترسی غير مجاز به Profile ها
جلوگيری از بازسازی Profile
کنترل ترافيک و برقراری ترافيک امن
مراجع
نقد و بررسیها
هنوز بررسیای ثبت نشده است.