Распечатать страницу
Главная \ База готовых работ \ Готовые работы по компьютерным дисциплинам \ Интернет и всемирная паутина \ 908. Лабораторна робота №3, Основи семантичного пошуку в мережі Internet

Лабораторна робота №3, Основи семантичного пошуку в мережі Internet

« Назад

Код роботи: 908

Вид роботи: Лабораторна робота

Предмет: Інтернет та всесвітня павутина

Тема: №3, Основи семантичного пошуку в мережі Internet

Кількість сторінок: 12

Дата виконання: 2016

Мова написання: українська

Ціна: 150 грн

Мета: Ознайомитись з можливостями пошукових систем. Оволоділи навичками здійснення простого та розширеного пошуку в мережі INTERNET.

Загальні положення

Інформаційний пошук - information retrieval – це процес відшукування в деякій множині документів тих, які присвячені вказаній у інформаційному запиті темі або містять необхідні користувачу факти, відомості.

У загальному випадку інформаційний пошук складається з таких етапів:

- уточнення інформаційної потреби і формулювання запиту;

- визначення сукупності утримувачів інформаційних масивів;

- одержання інформації з інформаційних масивів;

- ознайомлення користувача з одержаною інформацією і оцінка результатів пошуку.

Залежно від цілі розрізняють інформаційний пошук адресний (відшукування інформаційних повідомлень за формальними ознаками. Для здійснення адресного інформаційного пошуку необхідна умова наявності у інформаційного повідомлення точної адреси) і семантичний (відшукування інформаційних повідомлень за їх змістом), а від об’єкта – документальний (пошук, при якому об’єктом пошуку є документи) і фактографічний.

При оцінюванні ефективності інформаційного пошуку використовуються наступні поняття:

Коефіцієнт повноти пошуку - Recall ratio – відношення числа знайдених релевантних документів до загального числа релевантних документів, що містяться у інформаційному масиві.

Коефіцієнт точності пошуку - Precision ratio – відношення числа знайдених релевантних документів до загального числа виданих документів.

Коефіцієнт шуму - Noise ratio - відношення числа виданих нерелевантних до загального числа виданих документів.

Пертинентність - pertinence– відповідність одержаної інформації інформаційній потребі користувачів.

Пошуковий шум - Noise – сукупність виданих не релевантних документів.

Релевантність - Relevance – міра відповідності результатів пошуку завданню, поставленому у запиті. Розрізняють змістову і формальну релевантність. Релевантний документ - документ, зміст якого відповідає інформаційному запиту.

Ефективність інформаційного пошуку визначається семантичними показниками повноти та точності. Повнота видачі інформації – кількісна характеристика, яка визначається відношенням між числом виданих на запит документів і загальним числом релевантних документів в інформаційному масиві.

Інформаційно-пошукова мова системи

Однією з основних складових пошукового апарату інформаційно-пошукової системи є інформаційно-пошукова мова, яка дозволяє сформулювати запит до системи у простій і наочній формі. Якщо користувач вводить запит:

Інформаційний пошук у мережі Інтернет

фраза розбивається на слова, з яких видаляються загальні слова, інколи відбувається нормалізація лексики, потім всі слова пов’язуються між собою логічними операторами AND, OR або NOT.

Отже, запит буде перетворений у:

Інформаційний AND пошук AND мережі AND Інтернет

Що буде означати: “Знайти всі документи, у яких одночасно містяться слова Інформаційний, пошук, мережі, Інтернет”.

Види розширеного пошуку

Пошук з відстанню - proximity search – пошук, при якому користувач вказує, на якій відстані між собою мають розташовуватись ключові слова у документі. Під відстанню розуміють кількість слів між двома виділеними словами.

Пошук за ключовими словами - keyword search – пошук документів, які містять вказані ключові слова.

Пошук за словосплолученнями - phrase search – пошук документів, які містять точно вказане користувачем словосполучення. У інформаційно-пошукових системах мережі Інтернет для знаходження документів із точним словосполученням застосовуються подвійні лапки “....”.

Оператор title дозволяє здійснювати пошук за заголовком документа. Наприклад, за запитом title(дистанційна освіта) будуть знайдені документи, у заголовках яких міститься термін дистанційна освіта.

Оператор Heading дозволяє здійснювати пошук за назвами розділів документа. Так, за запитом Heading (інформа­ційна нерівність) будуть знайдені документи, які містять термін інформаційна нерівність у полі heading документа.

Булів пошук - Boolean search – інформаційний пошук за запитом, побудованим з використанням операцій булевої алгебри: AND, OR і NOT. Використання булевих операцій істотно підвищує ефективність пошуку. Особливості конкретної мови запитів викладені у описах пошукових систем.

Логічні оператори

Оператор

Опис

AND

Логічне І дозволяє знайти документи, у яких присутні всі пошукові терміни, об’єднані цим оператором

NOT

Логічне НЕ дозволяє виключити із результатів пошуку документи, які містять термін, що знаходиться після оператора. Наприклад, у запиті освіта NOT вища із списку результатів будуть знайдені ті документи, у яких є слово освіта, але немає слова вища.

OR

Логічне АБО дозволяє знайти документи, які містять хоча б одне із слів запиту. Наприклад, у запиті менеджмент OR управління будуть знайдені документи, які містять або слово менеджмент, або слово управління.

Порядок дії операторів можна задавати дужками (…). Наприклад, у запиті (інформаційний менеджмент) OR бізнес будуть одержані документи, що містять фразу інформаційний менеджмент або слово бізнес. Якщо необхідно знайти документи, у яких зустрічаються слова інформаційний менеджмент або інформаційний бізнес, запит повинен бути таким: інформаційний (менеджмент OR бізнес). 

Завдання до виконання роботи

1. Для кожної відомої пошукової системи (AltaVista, Google, Rambler, МЕТА) дослідити її пошукові можливості.

2. Виконати семантичний пошук в мережі Інтернет з використанням інформаційно-пошукових систем AltaVista (www.altavista.com), Google (www.google.com), Rambler (www.rambler.ru), МЕТА (www.meta-ukraine.com). Дослідити мову запитів для кожної із систем. Використати наявні можливості мови запитів при пошуку інформації. Занести дані у таблицю. Порівняти одержані результати. Виконати пошук для запиту, складеного українською мовою. Повторити процедуру для запиту російською та англійською мовами.

Приклади запитів: українська вишивка, информационное общество, digital divide.

Пошуковий запит: українська вишивка

Умова пошуку

Кількість одержаних документів

AltaVista

Google

Rambler

МЕТА

укр. вишивка

информ. общ.

digital divide

укр. вишивка

информ. общ.

digital divide

укр. вишивка

информ. общ.

digital divide

укр. вишивка

информ. общ.

digital divide

одне із слів запиту

 

 

 

 

 

 

 

 

 

 

 

 

Одночасно присутні всі пошукові терміни

 

 

 

 

 

 

 

 

 

 

 

 

виключити із результатів пошуку одне із слів

 

 

 

 

 

 

 

 

 

 

 

 

обмежити відстань між словами (3 слова)

 

 

 

 

 

 

 

 

 

 

 

 

пошук цитати

 

 

 

 

 

 

 

 

 

 

 

 

  

Запитання для перевірки

1. Охарактеризувати призначення та основні можливості інформаційно-пошукових систем.

2. Описати технологію здійснення простого пошуку.

3. Що являє собою розширений пошук. Описати технологію здійснення розширеного пошуку.

4. Охарактеризувати поняття, які використовуються при оцінюванні ефективності інформаційного пошуку.

5. Охарактеризувати види розширеного пошуку.

6. Для кожної з досліджуваних пошукових систем описати, які засоби використовуються для здійснення булівого пошуку.