Лабораторная работа 1 (LAB1 Захаров А.Е.)

Посмотреть архив целиком

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

ИНСТИТУТ АВТОМАТИКИ И ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ

КАФЕДРА ПРИКЛАДНОЙ МАТЕМАТИКИ






Лабораторная работа № 1.

Поиск информации в INTERNET.




Выполнил

студент группы А-13-08

каф. Прикладной Математики

Захаров Антон


Преподаватель

Куриленко Иван Евгеньевич













Москва, 2012

Цель работы

Научиться искать информацию в сети INTERNET и получить знания о внутреннем устройстве и принципах работы поисковых машин.


Подготовка к работе

  1. Изучить принцип адресации ресурсов в сети INTERNET;

  2. Ознакомиться с принципами построения и моделями работы поисковых машин разных поколений;

  3. Ознакомиться с современной моделью работы поисковой системы;

  4. Ознакомиться со способами оценки степени релевантности запросу пользователя информации, найденной поисковой машиной;

  5. Ознакомиться с функциями оценки релевантности TF/IDF, PageRank, LexRank.


Порядок выполнения работы

  1. Изучить принципы и модель работы поисковой машины Yandex.

  2. Изучить принципы и модель работы поисковой машины Google.

  3. Изучить расширенный режим подачи запросов к поисковой системе.

  4. Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).

  5. Составить обзор методов борьбы с нерелевантным содержимым.



Подготовка к работе.


  1. Принцип адресации ресурсов в сети INTERNET.


Интернет состоит из тысяч корпоративных, научных, правительственных и домашних компьютерных сетей. Объединение сетей разной архитектуры и топологии стало возможно благодаря протоколу IP (Internet Protocol) и принципу маршрутизации пакетов данных.


Определение

Протокол передачи данных – набор соглашений интерфейса логического уровня, которые определяют обмен данными между различными программами. Эти соглашения задают единообразный способ передачи сообщений при взаимодействии программного обеспечения разнесённой в пространстве аппаратуры [1].


Для того чтобы при обмене данными компьютеры, объединённые в сеть, действовали согласованно, разработан ряд стандартов и правил, называемых протоколами. Весь набор сетевых протоколов, на которых базируется Интернет, называется TCP/IP. Название образовано из аббревиатур двух базовых протоколов – TCP, отвечающего за гарантированную транспортировку данных по каналам связи, и IP, содержащего правила адресации.

Есть ещё целый ряд протоколов, ещё не стандартизированных, но уже очень популярных в Интернете: OSCAR, CDDB, MFTP, BitTorrent, Gnutella, Skype [5]. Эти протоколы в большинстве своём нужны для обмена файлами и текстовыми сообщениями.

Протоколы, входящие в семейство TCP/IP разделяются на уровни:

  • Физический уровень описывает среду передачи данных (будь то кабель, оптоволокно или радиоканал), физические характеристики такой среды и принцип передачи данных.

  • Канальный уровень описывает, каким образом передаются пакеты данных через физический уровень, включая кодирование.

  • Сетевой уровень изначально разработан для передачи данных из одной сети (подсети) в другую.

  • Транспортный уровень включает протоколы, которые могут решать проблему гарантированной доставки сообщений, а также гарантировать правильную последовательность прихода данных. Транспортные протоколы определяют, для какого именно приложения предназначены эти данные.

  • Прикладной уровень, на котором работает большинство сетевых приложений. Эти программы имеют свои собственные протоколы обмена информацией, например, HTTP, FTP (передача файлов), SMTP (электронная почта), SSH (безопасное соединение с удалённой машиной), DNS (преобразование символьных имён в IP-адреса) и многие другие.

Наиболее распространённые протоколы:

Уровень

Протоколы

Прикладной

DNS, FTP, HTTP, HTTPS, IMAP, LDAP, POP3, SNMP, SMTP, SSH, Telnet, XMPP

Сеансовый/Представления

SSL, TLS

Транспортный

TCP, UDP

Сетевой

BGP, EIGRP, ICMP, IGMP, IP, IS-IS, OSPF, RIP

Канальный

Arcnet, ATM, Ethernet, Frame relay, HDLC, PPP, SLIP


Чтобы компьютеры, объединённые в сеть, могли обмениваться сообщениями, каждый из них должен иметь уникальный адрес. В сети Интернет такой адрес называется IP-адресом.


Определение

IP (Internet Protocol) – межсетевой протокол; относится к маршрутизируемым протоколам сетевого уровня семейства TCP/IP [2].


В последнее время все больше стали говорить о переходе с протокола IPv4 к протоколу IPv6, что не удивительно, и, в общем-то, правильно. Дело в том, что используемая сейчас 4-ая версия протокола создавалась в далёкие 1970-ые годы, и именно сейчас в полной мере стали проявляться проблемы, о которых не думали в то далёкое время.


Историческая справка

Форматов адресов IPv1, IPv2 и IPv3 как таковых не было. История TCP началась в 1973 году, когда создавалась сеть ARPAnet – родитель Интернета, именно для неё и была подготовлена первая версия протокола TCP.

Затем в 1977 году была разработана вторая версия протокола TCP, после чего вышел документ Internet Engineering Note number 2 (IEN2), в котором говорится уже про «Internet Protocol» (сокращение IP там не появляется), которая затем в 1978 году утвердилась в виде так называемой модели OSI.

В третьей версии протокол TCP разделился на два отдельных протокола: TCP и IP. Это произошло в 1978 году, но первый стандарт, который утверждает такое разделение вышел в 1980 году, и протоколу IP дали такую же версию, как и новому TCP, то есть 4-ю версию. Ну а в 1981 году вышел исправленный стандарт протокола IP, который был окончательно утверждён, и используется до сих пор (RFC 791, перевод стандарта на русский язык).

Определение IP адреса с помощью сервиса 2ip.ru


Протокол IPv5 разрабатывался параллельно с IPv6, но считается экспериментальным, и не предназначен для публичного использования, зато некоторые его наработки были взяты в протокол IPv6. Так что на данный момент у нас есть всего две реально используемые версии протокола: четвертая и шестая.

В точечно-десятичной нотации IP-адрес (IPv4) состоит из четырёх частей. Каждая часть, разделённая точкой, представляет собой один байт, и, следовательно, максимальное десятичное число, которое может быть представлено одним байтом 28 = 256 (от 0 до 255).


Примеры IP-адресов и вариантов записи:


IPv4 (двоичный)

11011100.11010111.00001110.00010110

IPv4 (десятичный)

220.215.14.22



IPv6

FEDC:BA98:7654:3210:FEDC:BA98:7654:3210


1080:0:0:0:8:800:200C:7A 1080::8:800:200C:7A


0:0:0:0:0:0:0:1 ::1 (localhost)

0:0:0:0:0:0:0:0 ::


Всего для протокола IPv4 существует различных адресов. Много ли это? В прошлом веке их вполне хватало, а теперь, можно сказать, что эти адреса уже исчерпаны. Дело в том, что 1 февраля 2011 года среди пяти региональных регистраторов распределили последние пять блоков IP-адресов.

В январе 1995 года вышел стандарт RFC 1752, который описывал новую версию протокола, названный тогда IPng (IP Next Generation), впоследствии названный IPv6. Датой принятия окончательной версии протокола считается апрель 2003 года (стандарт RFC 3513).

Самое главное, ради чего создавался новый протокол, это увеличение количества IP-адресов. Если в IPv4 на адрес отводилось 32 бита, то в IPv6 на него выделяется 128 бит. Таким образом, с использованием протокола IPv6 всего возможно адресов.

В отличие от IPv4, адреса в IPv6 могут быть записаны различными способами. Самая развёрнутая запись состоит из восьми частей, разделённых двоеточиям. Каждая часть представляет собой – 16-ричное число.

Однако в реальности в такой записи может быть много последовательно идущих нулей, чтобы их не писать, вместо них можно написать “::”. Чтобы не было неопределённости, сокращать можно только один раз в адресе.

Для человека такая система адресации сложна, так же как нам сложно помнить, поэтому в 1984 году Полом Мокапетрисом была разработана надстройка над IP-адресацией, называемая системой DNS.


Определение

DNS (Domain Name System) – компьютерная распределённая система, предназначенная для поиска по имени домена его IP адрес и некоторой другой информации (например, имени почтового сервера).


Доменные имена системы DNS – синонимы IP-адреса. Они символьные, а не числовые, удобнее для запоминания. Доменные имена также уникальны, т. е. нет в мире двух одинаковых доменных имён (на одном уровне). Доменные имена, в отличие от IP-адресов необязательны, они приобретаются дополнительно.


Определение IP адреса для доменного имени сайта с помощью сервиса ip-whois.net


Чтобы найти в Интернете какой-либо документ, достаточно знать ссылку на него (URL).


Определение

URL (Universal Resource Locator) – универсальный указатель ресурса, который определяет местонахождение каждого файла, хранящегося на компьютере, подключённом к Интернету.


Рассмотрим структуру следующего URL:


http://a1308.ru/homework.php?id=451


  • Протокол (http). В данном случае HTTP, протокол передачи гипертекста, по которому обеспечивается доставка документа с Web-сервера Web-браузеру.

  • Доменное имя (a1308.ru)

  • Пусть к документу (homework.php) с расширением. В рассматриваемом случае документом является файл в формате php, который находится в корневой папке сайта.

  • Параметры запроса (id=451). В данном случае запрашивается содержимое страницы, закреплённое за идентификатором 451.


Случайные файлы

Файл
28193-1.rtf
8080-1.rtf
184520.doc
23953-1.rtf
118067.rtf




Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.