Лабораторная работа 1 (LAB1 Апухтин М.А.)

Посмотреть архив целиком

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ









Лабораторная работа по ВМСС № 1.

Поиск информации в INTERNET.






Выполнил

студент группы А-13-08

Апухтин М.А.


Преподаватель

Куриленко И.Е.




















Москва, 2012

Оглавлени



Принцип адресации ресурсов в сети INTERNET 3

Принципы построения и модели работы поисковых машин разных поколений 4

Современная модель работы поисковой системы 5

Понятие релевантности 6

Функции оценки релевантности 7

Модель работы поисковой машины Yandex 8

Модель работы поисковой машины Google 9

Расширенный режим подачи запросов к поисковой системе 10

Достоинства и недостатки различных функций оценки релевантности 14

Обзор методов борьбы с нерелевантным содержимым 14

Список использованных источников 15





























Принцип адресации ресурсов в сети INTERNET

Основным протоколом сети Интернет является сетевой протокол TCP/IP. Каждый компьютер, в сети TCP/IP (подключенный к сети Интернет), имеет свой уникальный IP-адрес или IP – номер. Адреса в Интернете могут быть представлены как последовательностью цифр, так и именем, построенным по определенным правилам. Компьютеры при пересылке информации используют цифровые адреса, а пользователи в работе с Интернетом используют в основном имена.

Цифровые адреса в Интернете состоят из четырех чисел, каждое из которых не превышает двухсот пятидесяти шести. При записи числа отделяются точками, например: 195.63.77.21. Такой способ нумерации позволяет иметь в сети более четырех миллиардов компьютеров.

Для отдельного компьютера или локальной сети, которые впервые подключаются к сети Интернет, специальная организация, занимающейся администрированием доменных имен, присваивает IP – номера.

Первоначально в сети Internet применялись IP – номера, но когда количество компьютеров в сети стало больше чем 1000, то был принят метод связи имен и IP – номеров, который называется сервер имени домена (Domain Name Server, DNS). Сервер DNS поддерживает список имен локальных сетей и компьютеров и соответствующих им IP – номеров.

В Интернете применяется так называемая доменная система имен. Каждый уровень в такой системе называется доменом. Типичное имя домена состоит из нескольких частей, расположенных в определенном порядке и разделенных точками. Домены отделяются друг от друга точками, например: www.lessons-tva.info или tva.jino.ru.

В Интернете доменная система имен использует принцип последовательных уточнений также как и в обычных почтовых адресах - страна, город, улица и дом, в который следует доставить письмо.

Домен верхнего уровня располагается в имени правее, а домен нижнего уровня - левее. В нашем примере домены верхнего уровня info и ru указывают на то, что речь идет о принадлежности сайта www.lessons-tva.info к тематическому домену верхнего уровня info, а сайта tva.jino.ru к российской (ru) части Интернета. Но в России множество пользователей Интернета, и следующий уровень определяет организацию, которой принадлежит данный адрес. В нашем случае это компания jino.

Интернет-адрес этой компании - jino.ru. Все компьютеры, подключенные к Интернету в этой компании, объединяются в группу, имеющую такой адрес. Имя отдельного компьютера или сети каждая компания выбирает для себя самостоятельно, а затем регистрирует его в той организации Интернет, которая обеспечивает подключение.

Это имя в пределах домена верхнего уровня должно быть уникальным. Далее следует имя хоста tva, таким образом, полное имя домена третьего уровня: tva.jino.ru. В имени может быть любое число доменов, но чаще всего используются имена с количеством доменов от трех до пяти

Доменная система образования адресов гарантирует, что во всем Интернете больше не найдется другого компьютера с таким же адресом. Для доменов нижних уровней можно использовать любые адреса, но для доменов самого верхнего уровня существует соглашение.

В системе адресов Интернета приняты домены, представленные географическими регионами. Они имеют имя, состоящее из двух букв, например:

Украина - ua

Франция - fr;

Канада - са;

США - us;

Россия - ru.

Существуют и домены, разделенные по тематическим признакам, например:

Учебные заведения - edu.

Правительственные учреждения - gov.

Коммерческие организации - com.

В последнее время добавлены новые зоны, например: biz, info, in, .cn и так далее

При работе в Internet используются не доменные имена, а универсальные указатели ресурсов, называемые URL (Universal Resource Locator). URL - это адрес любого ресурса (документа, файла) в Internet, он указывает, с помощью какого протокола следует к нему обращаться, какую программу следует запустить на сервере и к какому конкретному файлу следует обратиться на сервере. Общий вид URL: протокол://хост-компьютер/имя файла (например: http://www.lessons-tva.info/book.html).

Регистрация домена осуществляется в выбранной пользователем зоне ua, ru, com, net, info и так далее. В зависимости от назначения сайта выбирается его зона регистрации. Для регистрации сайта желательно выбрать домен второго уровня, например lessons-tva.info, хотя можно работать и с доменом третьего уровня, например tva.jino.ru.

Домен второго уровня регистрируется у регистратора – организации занимающейся администрированием доменных имен, например http://www.imhoster.net/domain.htm. Домен третьего уровня приобретается, как правило, вместе с хостингом у хостинговой компании. Имя сайта выбирают исходя из вида деятельности, названия компании или фамилии владельца сайта.

Принципы построения и модели работы поисковых машин разных поколений

Поисковая машина — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота базы, учёт морфологии языка.

Первое поколение

Первое поколение поисковых систем оценивало содержание страниц и ранжировало результаты поиска в основном исходя из частоты встречаемости ключевых слов. Такой способ давал определенные результаты, но очень быстро в определенных категориях ключевых слов образовалась путаница – по запросу «Бритни Спирс» вы получаете миллионы страниц, часть из которых не имеет никакого отношения к певице.

Второе поколение

С запуском Google, поиск стал больше опираться на данные сети – анализировалась не только одна страница, но и ссылки, ведущие на нее. Таким образом устанавливалась система авторитетности страниц, подобная системе оценки цитируемости работ, принятой в научном мире. Ссылки становились как бы «голосами» в пользу какой-либо страницы.

Третье поколение

В этой версии, релевантность результата оценивается не только по тому, что находится на странице, и по тому, что окружает страницу (основная страница сайта и ссылки с других сайтов), но и то, как эти данные соотносятся с вашей персональной сетью. Важно не только содержание страницы или ссылки на нее, важно отношение страницы к персональной сети контактов пользователя.

Сейчас есть несколько примеров порталов, которые предназначены для того, чтобы собирать информацию для пользователя по заданным им параметрам. Twitter был одним из первых, кто начал использовать инструмент изменения персонального статуса пользователей. Это позволяет не только говорить о своем состоянии, но и узнавать о том, что происходит прямо сейчас по какой-либо теме. Если вы хотите, например, узнать больше о кандидате на должность, вы не будете спрашивать о нем у Google, вы пойдете изучать его профиль на Facebook, LinkedIn и других сайтах.

Современная модель работы поисковой системы

Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

Процесс поиска информации в сети можно разбить на следующие этапы: сбор информации со страниц сайтов в сети Интернет, индексация сайтов, поиск по запросу и ранжирование результатов. Рассмотрим каждый из этапов отдельно.

Сбор данных

Как только вы запустили свой сайт и дали роботу какой-нибудь поисковой системы понять, что появился новый ресурс, робот приходит к вам, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных (англ. crawling) и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую инфомрацию и добавить новые страницы, если таковые имеются.

Управлять доступом на разные ресурсы для поискового робота можно с помощью файла robots.txt. Карта сайта sitemap.xml также может помочь роботу, если по каким-либо причинам навигация по сайту ему затруднена.






Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.