Дипломна робота Аналіз ефективності систем пошуку інформації в мережі Інтернет
Код роботи: 5106
Вид роботи: Дипломна робота
Предмет: Сучасні Інтернет технології
Тема: Аналіз ефективності систем пошуку інформації в мережі Інтернет
Кількість сторінок: 97
Дата виконання: 2015
Мова написання: українська
Ціна: 1800 грн
Перелік умовних скорочень
Вступ
Розділ 1. Пошукові системи
1.1. Історія пошукових систем
1.2. Використання пошукових систем на Заході
1.3. Українські та російські пошукові системи
Розділ 2. Основні методи пошуку інформації в інтернеті
2.1. Безпосередній пошук з використанням гіпертекстових посилань
2.2. Використання пошукових машин
2.3. Пошук за допомогою каталогів
Розділ 3. Аналіз ефективності інформації в різних пошукових системах
3.1. Ефективність інформації в пошукового сервісу Google
3.2. Ефективність інформації в пошуковому сервісі Yandex
3.3. Ефективність інформації в пошукового сервісу Bing
Висновки
Список використаних джерел
Додатки
Актуальність дипломної роботи:
На сучасному етапі актуальність даної теми є очевидною, тому що в теперішній час володіння актуальною інформацією є запорукою упіху. А в час новітніх технологій, пошук потрібної інформації в інтернеті має важливе значення.
Об’єктом дослідження є пошукові системи мережі інтернет.
Мета дипломної роботи:
Розглянути:
- пошукові системи мережі Інтернет;
- правила пошуку інформації в глобальній мережі Інтернет;
- сформувати вміння пошуку необхідної інформації (текст, графіка і т. д.) в мережі Інтернет.
Завдання дипломної роботи:
Провести аналіз ефективності інформації на прикладі певних пошукових систем.
Наукова новизна полягає в одержанні результатів проведених дослідженнь, щодо пошукових систем інформації.
У ХХI столітті, володіння інформацією, говорить про те, що людина освічена і респектабельна. Більш-менш серйозний підхід до будь-якій задачі починається з аналізу можливих методів її вирішення. Пошук інформації в Інтернеті може бути проведений за декільком методам, які значно розрізняються як по ефективності і якості пошуку, так і по типу отриманої інформації. У ряді випадків доводиться використовувати вельми трудомісткі методи – але результат того вартий.
Пошукова система - програмно-апаратний комплекс з веб-інтерфейсом, що надає можливість пошуку інформації в Інтернеті. У просторіччі під пошуковою системою мають на увазі веб-сайт, на якому розміщений інтерфейс (фронт-енд) системи.
Програмною частиною пошукової системи є пошукова машина (пошуковий движок) - комплекс програм, що забезпечує функціональність пошукової системи і є комерційною таємницею компанії-розробника пошукової системи.
Перш ніж почати пошук, слід чітко сформулювати завдання. До тих пір, поки завдання не буде сформульоване про успішність, а тим більше оптимізації пошуку, не може бути й мови. Обсяг інформації в Інтернеті занадто великий, і як ніде тут вірна приказка «Час - гроші». Тому тут не можна шукати за принципом «Піди туди, не знаю куди. Візьми те, не знаю що». Інакше результат буде плачевний.
Дати загальний рецепт ефективної стратегії пошуку інформації в Інтернет, мабуть, неможливо. Є лише деякі принципи, що дозволяють витрачати менше часу. Ось деякі з них. Наприклад, вам необхідно дізнатися, де мешкає лінивець, то навряд чи ви підете в алфавітний каталог бібліотеки. Може бути, ви знайдете потрібну літературу за допомогою систематичного каталогу. З дещо більшою ймовірністю - з допомогою предметного. Але, швидше за все, жоден з бібліотечних каталогів вам не допоможе. Але, зайшовши в інформаційно-бібліографічний відділ великої бібліотеки, черговий бібліограф дістане бібліографічний покажчик за твариною або якусь схожу книжечку, з якої ви і знайдете відповідь на своє питання. Подібну стратегію можна з успіхом застосовувати і в Інтернет.
В ІПМ (інформаційно-пошукових мережах) загального призначення можна потонути в тисячах посилань, виданих вам на простий запит. Метою використання універсальної ІПМ загального призначення може бути пошук спеціалізованої ІПМ, присвяченій тематиці вашого пошуку. Така ІПМ може бути розпізнана за наявністю слів "інформація (information)", "документ (document)" і т. п. Але часто спеціалізована ІПМ може переховуватися на сервері громадської, професійної чи спеціалізованої організації, видавництва.
Цей приклад ілюструє ще один елемент стратегії: читайте знайдені документи в пошуках найбільш точних термінів і зв'язків між термінами. Можливо, ви мислите в зовсім не тих термінах, які використовують автори шуканих документів (адже велику роль відіграють культурні відмінності!).
Третій елемент стратегії: використовуйте кілька ІПМ. Якщо ви регулярно займаєтеся пошуком інформації за якоюсь тематикою, відмітьте ті ІПМ, які для вас найбільш ефективні.
Якщо відома конкретна назва, фраза або термін, то для одержання інформації щодо предмета пошуку слід використовувати пошукові системи.
Пошук на таких системах здійснюється за допомогою спеціально розроблених програм. Завдання програм полягає у безперервному відвідуванні web - сайтів Інтернету з метою створення каталогів web-сторінок. У більшості випадків для визначення місцезнаходження певної інформації, наприклад, якогось відомого документа, зображення або фрази, а не загальної теми, найкраще застосовувати пошукові системи.
Пошукові системи працюють з використанням автоматичних засобів при докладанні мінімуму ручної праці. З одного боку, це дає можливість порівняно швидко опрацьовувати велику кількість web-документів і створювати бази даних розміром у сотні мільйонів web-документів. З другого боку, ніхто не може гарантувати, що наявність у документі певних слів, за якими здійснюється пошук користувачем, вказує на належність документа до конкретної теми. Тому точність пошуку інформації в таких базах даних залишає бажати кращого. А пошукові системи зручні для використання лише тоді, коли користувач знає ім'я автора документа, його точну назву або якусь цитату з нього. Разом з тим бази даних у пошукових систем значно більші за бази даних тематичних каталогів. Та й поновлюються вони частіше.
Як свідчить практика, пошукові системи дозволяють провести найбільш глибокий пошук у рамках заданої теми. Робота пошукової системи проводиться в три етапи. На першому етапі сканується інформаційний простір і збираються копії web-ресурсів. На другому етапі бази даних, складені за результатами сканування, змінюються таким чином, щоб у них можна було проводити прискорений пошук.
Висновки
Існують десятки великих і тисячі малих і спеціалізованих Web-сайтів, призначених для пошуку в Інтернеті. Засоби пошуку цієї групи дозволять користувачеві за певними правилами сформулювати вимоги до необхідної йому інформації (з допомогою мови запитів створити запит). Після цього машина пошуку автоматично переглядає документи на контрольованих (індексуються) нею сайтах і відбирає ті з них, які, на думку» пошукового сервера, відповідають сформульованим користувачем вимогам (релевантні запиту).
У пошукових сайтах використовуються власні індекси Інтернету, постійно оновлювані особливими програмами, що називають павуками (spiders). Програма-павук обстежує Web, перевіряючи кожну посилання на даній сторінці, потім на сторінках, адресованих посиланнями, і т. д., і повідомляє своєму власнику інформацію про всіх сторінках для подальшої індексації.
В результаті пошуку створюється одна або кілька сторінок, які містять посилання на релевантні запиту документи (Web-сторінки). Для кожної посилання зазвичай також вказуються дата створення документа, його обсяг, ступінь відповідності релевантності запиту, фрагменти тексту, які характеризують зміст документа. Клацання мишею на такому посиланню дозволяє завантажити цікаву сторінку. У випадку дуже великої кількості знайдених документів можна уточнити запит і відповідно з ним повторити пошук, але тільки серед відібраних сторінок (такий пошук в різних машинах називається по-різному, але зазвичай це – шукати в знайденому). У ряді машин пошуку можна певним способом поміняти посилання на сторінку, зміст якої найбільшою мірою задовольняє вашим потребам, і повторити пошук, зажадавши шукати схожі.
Гідність автоматизованого пошуку полягає в тому, що він забезпечує перегляд дуже великих обсягів інформації, наявної в Інтернет в даний момент. Однак складність точного опису запиту, адекватно відображає ваші інформаційні потреби, а також ще велика складність задачі автоматичного визначення ступеня відповідності вашим запитом сторінок, що переглядаються, призводить до того, що кількість сторінок, відібраних «з першого заходу», як правило, або дуже мало, або надмірно великий. Загалом пошук з використанням пошукової машини являє собою ітераційний (багатоходової) процес, у результаті якого поступово уточнюється форма запиту.
Правильна побудова запиту набагато підвищує ймовірність знайдення потрібної інформації в мережі Інтернет. Однак, крім цього існують ще суто технічні проблеми, що заважають ефективному використанню Інтернету в якості джерела потрібної інформації.
Можливість використання баз даних при створенні web-вузлів набагато підвищує їхню інформативність, значно підвищує обсяги корисної інформації, що її може надати певний ресурс. Разом з тім використання баз даних в Інтернеті передбачає, як правило, використання спеціальних скриптів (програм, які реалізують функції, відсутні у мові HTML).
За технічними причинами адреси web-сторінки при цьому набуває спеціальних символів ("?", "%", "$" та інші), які заважають роботам пошукових машин відкривати такі сторінки і індексувати інформацію на них. Таким чином, виникає проблема: інформація в базах даних не індексується ПМ через технічні причини, а отже, вона недосяжна для кінцевого користувача.
Іншою важливою проблемою, що заважає пошуку інформації в мережі Інтернет є обмеження реєстрації сайтів з одного домену, що часто встановлюється пошуковими машинами для уникнення спаму (спам – нав'язувати язлива інформація, переважно рекламного характеру, що примусово розповсюджується засобами Інтернету).
Такий підхід дозволяє значною мірою уникнути небажаної реклами, але заважає індексуванню web-сторінок, розміщених на безкоштовних web-хостингах (сервери, що надають дисковий простір для розміщення HTML-документів, які не підпадають під встановлені сервером обмеження; традиційними обмеженнями, наприклад, є заборона пропаганди насильства, порнографії, екстремальних політичних і релігійних поглядів та ін.).
Ще одна проблема появи "прихованої" інформації в Інтернеті полягає в особливостях реіндексування web-сторінок. Для того, щоб уникнути недійсних посилань на неіснуючі web-документи, а також відслідковувати зміну вмісту web-сторінок, пошукові машини періодично проводять реіндексацію індексованих ресурсів. У цьому випадку робот порівнює головну сторінку з тією, що міститься в базі даних.
Якщо він знаходить відмінності, то відслідковує усі web-сторінки пов'язані з даною (за допомогою переходу за гіперпосиланням), якщо ні – перехід до пов'язаних web-сторінок (а відповідно й їх реіндексація) не відбувається. Більш за все від такого підходу потерпають сайти учбових закладів. Головна сторінка на таких ресурсах може не змінюватися декілька років, проте на персональних сторінках викладачів і інших сторінках інформація може оновлюватися декілька разів на місяць.
Завдання підвищення точності пошуку в Інтернеті не завжди добре вирішується чисто математичними методами. Стосовно пошуку можна сказати, що означаємим є шуканий сенс, а що означає – вся сукупність тих, що виражають цей сенс пропозицій. Пропозиції мови, що виражають один і той же сенс, можуть дуже сильно відрізнятися один від одного. Завдання пошукової машини у такому разі – розпізнати сенс, ігноруючи формальні відмінності.
У найзагальнішому вигляді можна сказати, що лексичні функції – це тривіальні сенси, словесне вираження яких в тексті залежить від того, при якому конкретному слові цей сенс виражається. Для деяких фрагментів лексичної системи мови розроблені лексичною семантикою правила вигляду: «При слові X сенс f1 виражається словом X´, при слові Y сенс f1 виражається словом Y´». Ця опція реалізована на базі лінгвістичного процесора ЕТАП-3. Її основна фунция в доповненні двух- або трехсловних пошукових запитів про числове значення параметра до неповної пропозиції.
Алгоритмічна організації перефразувування заключається в побудові куща перефраз, що грунтується на інформації про лексичні функції. Якщо яка-небудь лексична функція має декілька значень, то система перефразовування будує пропозиції по черзі зі всіма значеннями. Такий спосіб дає можливість збільшити точність результатів пошуку по запитах, припускаючи чисельні відповіді. В разі точного запиту кількість релевантних сайтів збільшується. Також лексична система має можливість перекладу отриманих шляхом перефразовування словосполук на англійську мову.
Список використаних джерел
1. Аверченков В. И., Мірошников В. В., Рощин С. М. Информационный поиск в сети Интернет: Учеб. пособие / Брянский гос. технический ун-т / В. И. Аверченков (общ. ред.). — Брянск: Издательство БГТУ, 2007. — 202 с.
2. Асуров Г. П. Сеть Интернет. Библиотека пользователя. — М.: Новые технологии, 2009. – 80 с.
3. Беспалов В. М. Інформатика для економістів: Навч. посіб. – К.: ЦУЛ, 2010. – 788 с.
4. Блюмін А. М. Світові інформаційні ресурси: навчальний посібник / А. М. 2010. – 51 с.
5. Брижко В. М., Базанов Ю. К., Харченко Л. С. Ліцензування прав на інформаційні ресурси. — К., 2008. — 132 с.
6. Вовченко Т. О., Кузьмін С. К., Поляк Ю. Е. Технологии электронных коммуникаций. — М.: Эко- Трендз Ко Т. 68: Информационные ресурсы Интернет. 2008. — 60 с.
7. Використання інформації інтернет-видань як засіб підвищення ефективності інформаційно-аналітичної та управлінської діяльності / Т. Гранчак // Бібл. вісн. — 2009. — N 3. — С. 7-10. — Бібліогр.: 6 назв. — укp.
8. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — СПб.: Питер,2011. – 123 с.
9. Гордієнко Г. В. Входження України у всесвітню систему інформації. // Нова політика. — 2012 р. — №5 – С. 64-67.
10. Дибкова Л. М. Інформатика та комп`ютерна техніка: Посібник: Навчальне видання.-.- К.: Академвидав, 2009.- 320 c.
11. Економічна інформатика: Навчальний посібник: Навчальне видання. - Сумы: Слобожанщина, 2009. - 260 c.
12. Єгоров Р. Н. Интернет вчера, сегодня, завтра. — Спб.: Компьютерный мир, 2011. С. 75-77.
13. Загальні проблеми формування електронних інформаційних ресурсів з науково-технологічноїі економічної діяльності / В. І. Воронков // НТІ. — 2008. — N 4. — С. 7-11.
14. Інформатика: Комп'ютерна техніка. Комп'ютерні технології: Підручник / За ред.. Пушкаря О. І.– К.: "Академія", 2011. - 704 с.
15. Карманєєва К. М. Мировые информационные ресурсы: Учеб. пособие / Санкт-Петербургский гос. инженерно-экономический ун-т. — СПб.: СПбГИЭУ, 2008. — 82 с.
16. Комп'ютерні системи та мережі: навчальний посібник / Під ред. В. П. Косарєва і Ст. Л. Єрьоміна. - М: Фінанси і статистика, 2010. – 464 с.
17. Купріянова Г. І. Інформаційні ресурси Internet / М., 2002 – 94 с.
18. Лучко Л. М. Розвиток мережі Інтернет в Україні. — Х.: Шлях, 2002.
19. Макарова Н. Ст. Інформатика та інформаційно-комунікаційні технології.- СПб.: Пітер, 2009. – 20 с.
20. Макарова М. В., Карнаухова Г. В., Запара С. В. Інформатика та комп'ютерна техніка: Навчальний посібник: Навчальне видання. - Суми: Університетська книга, 2012. - 642 c.
21. Мозговий А. А. Интернет — дорога в будущее. — М.: Искра, 2008. – 65 с.
22. Нікольський О. К. История развития Интернета в эпоху глобализации. — М.: Comp, 2010. – 45 с.
23. Новые информационные технологии. — М.: Дрофа. — 2011. – С. 48-67.
24. Основи інформатики та обчислювальної техніки: Навчальний посібник / За заг. Ред. В. Г. Іванова. – К.: Юрінком Інтер, 2008. – 328 с.
25. Огіенко Л. А. Введение в Интернет-технологии. — М.: Лоск, 2010. – 55 с.
26. Піскунов А. С. Что такое Интернет? — Казань.: Новое слово, 2009. – 87-92 с.
27. Резунов В. О. Всемирная паутина. — Ростов-на Дону.: ВНГИ, 2010. – 45 с.
28. Рзаєв Д. О., Шарапов О. Д. и др. Інформатика та комп`ютерна техніка: Навчально-методичний посібник: Навчальне видання. - К.: КНЕУ, 2008. - 486 c.
29. Самсонов С. Н. Информатика и Интернет. — М.: Русь, 2009. – 68 с.
30. Третяков Д. А. Інтернет і суспільство. – Львів.: Громада, 2012. – 69 с.
31. Халер Міхаель. Пошук і збір інформації: Навч. посіб. / Костянтин Макєєв (пер. з нім.), Павло Демешко (пер.з нім.). — К.: Академія Української Преси, 2008. — 308с. — Тит. арк. парал. укр., нім. мовами.— Бібліогр.: с. 299-307.
32. Янченко О. К. Інтернет-технології сьогодні. – Х.: ХНАМ, 2010. – 87 с.
33. Яковенко В. Я. Інформаційні ресурси: Навч.посібник. — Донецьк: ДонНУ, 2009. — 202 с.
34. Халер Міхаель. Пошук і збір інформації: Навч. посіб. / Костянтин Макєєв (пер. з нім.), Павло Демешко (пер. з нім.). — К.: Академія Української Преси, 2008. — 308с. — Тит. арк. парал. укр., нім. мовами. - Бібліогр.: с. 299-307.
35. Навчання Інтернет-професіями. Search engine Expert. http://searchengine.narod.ru/archiv/se_2_250500.htm.
36. Храмцов Павло "Пошук і навігація в Internet". http://www.osp.ru/cw/1996/20/31.htm.