на тему рефераты Информационно-образоательный портал
Рефераты, курсовые, дипломы, научные работы,
на тему рефераты
на тему рефераты
МЕНЮ|
на тему рефераты
поиск
Пошук інформації в Інтернет
p align="left">Далі доцільно проаналізувати особливості кожного етапу. Зрозуміло, що цей матеріал не є обов'язковим, але він має світоглядне значення, саме тому слід зупинитися на поясненні роботи кожного з етапів організації пошукової роботи індексних баз даних.

Для збирання відомостей про ресурси WWW пошуковим покажчиком використовуються спеціальні програмні засоби, які називають пошуковими роботами або павуками, черв 'яками, гусінню, краулерами та ін. Як правило, кожний пошуковий покажчик має свою спеціальну програму, побудовану на унікальному алгоритмі. Загальний принцип дії пошукових робіт полягає в тому, що вони починають перегляд мережі з деякої заданої адреси Веб-сторінки, копіюють знайдений документ на сервер пошукової системи, переглядають його, знаходять у ньому всі гіперпосилання, переходять на них, знаходять нові документи, копіюють їх, виявляють у них гіперпосилання, знову виконують перехід та ін. "Павуки" дуже подібні за принципами свого функціонування до комп'ютерних вірусів, можуть "саморозмножуватися" та розсилати свої копії за посиланнями, що вказані на сторінках, які аналізуються, а після виконання поставленого перед ними завдання "самоліквідуються".

Проводити у зібраних копіях Веб-сторінок пошук інформації, яка була замовлена клієнтом, дуже незручно, оскільки це займає багато часу. Тому зібрані дані проходять попереднє опрацювання, яке називається індексацією. Метою індексації є одержання індексного файлу, за допомогою якого запит клієнта можна швидко опрацювати. Кожна пошукова система проводить таку індексацію за своїми алгоритмами, які складають комерційну таємницю системи.

Можна навести один із прикладів такого пошукового процесу, коли при індексації формується файл зі словником, до якого входять слова, виявлені на Веб-сторінках, скопійованих з WWW-npoстору і поруч проставляються номери Веб-документів, в яких це слово було виявлене. Часто також може вказуватися і вага слова - це число, яке свідчить, наскільки часто воно зустрілося у даному Веб-документі. Додатково подається ще адресна таблиця, в якій для кожного номера Веб-документа вказана його URL-адреса.

На наступному етапі ранжування пошукова система за спеціальними алгоритмами визначає "цінність" кожного зі знайдених ресурсів і впорядковує їх так, щоб "найцінніші" (за вказаними критеріями) розташовувалися на початку списку. Для цього кожному ресурсу ставиться у відповідність деяка умовна ознака. При цьому окремим Веб-ресурсам можуть нараховуватися "призові" бали, а деяким - "штрафні".

"Призові" бали призначаються, наприклад, за таких умов:

якщо ключові слова, які використовувалися клієнтом у запиті, зустрічаються в заголовку Веб-сторінки - це свідчить про те, що Веб-сторінка дійсно присвячена тій темі, яку досліджує клієнт;

якщо ключові слова, які виявлено в документі, мають шрифт збільшеного розміру - це свідчить про те, що вони входять до заголовків розділів всередині документів;

якщо ключові слова неодноразово повторюються всередині документа (особливо, якщо повторення відбувається в перших п'яти-восьми абзацах тексту);

якщо ключові слова входять до так званого альтернативного тексту (це текст, який підміняє ілюстрації, якщо їх відображення на екрані з деяких причин відключено); наявність ключових слів в альтернативному тексті свідчить про те, що автор документа надає їм особливого значення;

якщо існують посилання з інших Веб-сторінок тощо.

"Штрафні" бали можуть призначатися за те, що:

ключові слова повторюються підряд або регулярно з постійною періодичністю - це свідчить про те, що автор примусово намагається підвищити рейтинг своєї сторінки;

ключові слова зроблені невидимими або непомітними, наприклад, набрані кольором, який збігається з кольором фону (чорним на чорному, білим на білому) або набрані шрифтом мінімального розміру. Це свідчить про те, що автор використав ці слова в документі не для читача, а для того, щоб впливати на результати пошукової роботи.

Далі необхідно звернути увагу студентів на основні характеристики індексних баз даних та прокоментувати кожну з них (мал.5.5).

Характеристики індексних баз даних

Кількість проіндексованих документів

Інформаційні джерела, що охоплюються

Сайти доменів, що охоплюються

Швидкість індексування нових документів

Оновлення проіндексованих документів

Перш ніж працювати з конкретною пошуковою системою, слід розглянути з учнями принципи та прийоми пошуку інформації. Учні повинні засвоїти, що для пошуку за одним ключовим словом необхідно ввести це слово до поля введення і натиснути кнопку Знайти (Search). У різних пошукових системах ця кнопка може називатися по-різному, але сутність процесу, що відбувається, від цього не змінюється.

Як правило, пошук за одним словом приводить до одержання величезних списків Веб-сторінок, на яких воно зустрічається. Знайти в цьому списку потрібні ресурси складно, і тому пошук за одним словом малоефективний. Можна для прикладу звернутися із таким запитом до однієї з пошукових машин та проаналізувати одержані результати: визначити кількість знайдених Веб-документів та Веб-вузлів. Тоді учні самостійно доходять висновку, що набагато ефективнішим є пошук за кількома словами, але тут важливу роль відіграє правило, яке вказує пошуковій системі, як опрацювати групу слів. Можна навести конкретні приклади, коли користувача можуть цікавити документи, що містять і перше слово, і друге одночасно, або слід знайти документи, в яких ці слова зустрічаються поруч або недалеко один від одного або перше слово, або друге, або обидва слова разом.

Таким чином, учні повинні дійти висновку, що для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дозволяють зв'язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну, як правило, нескладну мову запитів, яка складається із кількох команд.

Важливо підкреслити, що кожний пошуковий покажчик використовує власну мову запитів, тому при звертанні до різних пошукових систем треба знати її особливості. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: простий, розширений і спеціальний пошуки. Режим простого пошуку запитів передбачає значну кількість результатів, з яких важко вибрати конкретний.

Команди розширеного пошуку дозволяють досить точно описати необхідний документ.

Команди спеціального пошуку не знаходять документи за їх вмістом, а призначені для пошуку Веб-вузлів за їх назвами, фрагментами їх адрес, адресами посилань, які зустрічаються на їхніх Веб-сторінках і т.п.

Важливо, щоб учні зрозуміли, що при пошуку в Інтернеті важливими є дві характеристики: повнота пошуку (тобто намагання не пропустити деяку важливу інформацію - нічого не загубити) і точність (тобто відсутність у результатах пошуку зайвої інформації - не знайти нічого зайвого). Як правило, ці характеристики називають спільним словом релевантність, яка і передбачає максимально змістовну відповідність результатів пошуку вказаному запиту. Іншими словами, релевантність - це відповідність відповіді запитанню. Релевантність також можна розглядати і як спосіб впорядкування знайдених за запитом документів: чим більше документ відповідає запиту, тим ближче до початку списку повинна знаходитися його адреса. Для досягнення цього результату пошуковою системою враховуються такі параметри, як кількість знайдених в тексті ключових слів, "контрастність" слова (його відносна частота входження до цього документа), відстань між словами, розташування слова в документі та його підрозділах і т.п.

При цьому слід враховувати, що релевантність - якісна міра. Відповідність відповіді ІПС запитам користувача залежить не лише від властивостей пошукової системи, а й від того, наскільки вдало сформульовано запит, тобто наскільки правильно останній відображає потреби користувача.

Для оптимальної і швидкої роботи з пошуковими системами індексних баз даних існують певні правила написання запитів. Повний перелік таких правил для конкретного пошукового сервера можна знайти на самому сервері в пунктах "Допомога", "Підказка", "Правила створення запиту" тощо. Учнів можна ознайомити з правилами, які частіше використовуються для ІПС "Апорт", "Яндекс" або будь-якої іншої індексної бази даних:

Незалежно від того, яка форма слова стоїть у запиті, пошук ураховує всі словоформи за правилами російської мови. Наприклад, якщо задано запит "идти", то в результаті пошуку будуть знайдені посилання на документи, які містять слова "идет", "шел", "шла" та ін. На запит "окно" буде видана інформація, яка містить і слово "окон", а на запит "отзывали" - документи, які містять слово "отозвали". На жаль, україномовної частини Інтернету цей процес не торкнувся, хоча на пошуковому сервері МЕТА проводяться роботи щодо коректного врахування при запиті особливостей української та російської мов та можливої омонімії мови (серед результатів за запитом російською мовою "лист каштана", крім російського омоніму, отримуються ще й україномовні документи з цим словом у значенні "письмо").

Якщо в запиті слово набрано з великої літери, то всі ІПС будуть враховувати регістр, в якому набрані літери (маленька/велика).

Якщо запит містить одне чи кілька слів, то в результаті пошуку будуть знайдені документи, в яких зустрічаються всі слова запиту, крім обмеженої кількості слів (сполучники, прийменники та ін), які в запиті ігноруються, оскільки не несуть змістовного навантаження). Наприклад, за запитом "яблука на снігу" будуть знайдені всі документи, в яких зустрічаються одночасно два слова. Де саме в межах документа розташовані слова, в якій граматичній формі вони знаходяться - не важливо. Слово "на", яке є прийменником, ігнорується. Тому вказаний запит можна було записати як: "сніг на яблуках" - результат пошуку буде тим самим.

Зірочка наприкінці слова символізує певну кількість будь-яких літер. Наприклад, за запитом "вер*" будуть знайдені документи, які містять будь-яке зі слів "по вере, верес, Вера, вересень", у будь-якій граматичній формі.

Лапки вказують пошуковій системі, що задані в запиті слова належать до ключової фрази, яку слід шукати в тексті повністю. Наприклад, за запитом "експертна система" будуть знайдені всі документи, де трапляється вказане словосполучення або близькі до нього фрази.

При складанні запиту можна комбінувати ключові слова за допомогою логічних операторів (І, АБО, НЕ).

Далі слід розглянути прийоми формування запитів на прикладі конкретної системи. При цьому після введення звичайного простого запиту для пошуку одного слова необхідно ретельно проаналізувати правила роботи з результатами пошуку.

Учні повинні з'ясувати, що після введення з клавіатури запиту на екран виводиться список посилань на документи, які точно відповідають запиту. На такій сторінці користувач може побачити спеціальні позначення і посилання, які полегшують перегляд знайдених сторінок. Слід звернути увагу учнів на такі елементи сторінки з результатами пошуку (мал.5.6 - для спрощення будемо розглядати пошукову систему Яндекс):

Пошукова форма, головним її елементом є рядок запиту, до якого з клавіатури користувач уводить простий або складений запит. При цьому додатково можна уточнити мету пошуку: сторінки, новини, назви товарів чи картинки. Здійснити подальший пошук у результатах попереднього дозволяє параметр "Шукати в знайденому".

Тематичний спектр результатів пошуку. Показуються тільки ті теми каталога, в яких є знайдені документи. Список тем впорядкований за релевантністю. Вказування на посилання призводить до обмеження пошуку сторінками вибраної теми.

Теми більш глибокого рівня, які найкраще відповідають запиту. Вказування на посилання призводить до обмеження пошуку за сторінками вибраної теми.

Регіони пошуку - можна обмежити пошук сайтами вказаного регіону.

Пошук за каталогом - опис ресурсів, що містять слова запиту. Натиснення на посилання призводить до переходу у відповідний розділ каталога (виводиться на екран тільки за умов точної відповідності запиту).

Пошук за ресурсом - опис ресурсів, що містять слова запиту. Натиснення на посилання веде до переходу на ресурс (виводиться тільки за умов точної відповідності запиту).

Результати пошуку у Веб-просторі. Заголовок документа - це посилання на ресурс. За допомогою посилання Показати знайдені слова можна здійснити перехід на "підсвічений" документ, в якому відповідність запиту (слова, які входять до запиту) виділена стрілочками та кольором.

Посилання на інші служби пошукової системи або на інші пошукові системи.

Перелік сторінок, які містять список знайдених за запитом посилань.

Страницы: 1, 2, 3



© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.