Betonzavod-oreol.ru

Деньги и бизнес
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Разработчик первой поисковой системы

История развития поисковых систем

Период без поисковиков

На первоначальной стадии развития Интернета пользователи были привилегированным меньшинством и объем доступной информации относительно небольшой. В тот период доступ к ней имели, в основном, работники различных крупных учебных заведений и лабораторий, и полученные данные использовались в научных целях. В то время использование Сети не имело такой актуальности, как сейчас.

В 1990 году британский ученный Тим Бернерс-Ли (который также является изобретателем URI, URL, HTTP, World Wide Web) создал сайт info.cern.ch, который является первым в мире доступным каталогом интернет-сайтов. С этого момента Интернет начал набирать популярность не только среди научных кругов, но и среди простых обладателей персональных компьютеров.

Таким образом, первым способом облегчения доступа к информационным ресурсам в Интернете стало формирование каталогов сайтов. Ссылки на ресурсы в них были сгруппированы по тематике.

Первым проектом такого рода принято считать Yahoo, открытый в апреле 1994 года. В связи со стремительным ростом количества сайтов в нём, вскоре появилась возможность поиска необходимой информации по запросу. Конечно же, это ещё не было полноценной поисковой системой. Поиск был ограничен только данными, которые находились в каталоге.

На ранних этапах развития сети интернет каталоги ссылок использовались очень активно, но постепенно утрачивали свою популярность. Причина проста: даже при наличии множества ресурсов в современных каталогах, они все равно показывают только малую часть имеющейся в сети Интернет информации. К примеру, самым большим каталогом сети является — DMOZ (Open Directory Project). Он содержит информацию о чуть более пяти миллионах ресурсов, что несоизмеримо с поисковой базой Google, содержащей более восьми миллиардов документов.

Самым крупным русскоязычным каталогом является Яндекс-каталог. Он содержит информацию о чуть более ста четырёх тысячах ресурсов.

Хронология развития поисковых систем

1945 год – американский инженер Ванневар Буш опубликовал записи идеи, которая привела в дальнейшем к изобретению гипертекста, и рассуждение о необходимости разработки системы быстрого извлечения данных из таким образом хранимой информации (эквивалент сегодняшних поисковых систем). Введённое им понятие устройства-расширителя памяти содержало оригинальные идеи, которые, в конце концов, воплотились в Интернете.

1960-е — Джерард Сэлтон и его группа в Корнелльском университете разработали «Остроумную систему извлечения информации» (SMART information retrieval system). SMART — аббревиатура от Salton’s Magic Automatic Retriever of Text, то есть «Волшебный автоматический извлекатель текста Сэлтона». Джерард Сэлтон считается отцом современной поисковой технологии.

1987-1989 – разработана Archie — поисковая система для индексации FTP архивов. Archie представлял из себя сценарий, автоматизирующий внедрение в листинги на ftp-серверах, которые затем переносились в локальные файлы, а уже потом в локальных файлах осуществлялся быстрый поиск необходимой информации. Поиск основывался на стандартной grep-команде Unix, а доступ пользователя к данным осуществлялся на основе telnet.

В следующей версии данные были разбиты на отдельные базы, одна из которых содержала только текстовые названия файлов; а другая — записи со ссылками на иерархические директории тысячи хостов; и еще одна, соединяющая первые две. Эта версия Archie была эффективней предыдущей, так как поиск производился только по именам файлов, исключая множество существующих ранее повторов.

Поисковая система становилась всё популярнее, и разработчики задумались, как ускорить её работу. Упомянутая выше база данных была заменена на другую, основанную на теории сжатого дерева. Новая версия, по существу, создала полнотекстную базу данных вместо списка имен файлов и была значительно быстрее, чем раньше. В дополнение, второстепенные изменения позволили системе Archie индексировать web-страницы. К сожалению, по различным причинам, работа над Archie вскоре прекратилась.

В 1993 году была создана первая в мире поисковая система для Всемирной сети Wandex. В её основу был заложен World Wide Web Wanderer бот, разработанный Метью Греем из Массачусетского технологического института.

1993 год – Мартин Костер создаёт Aliweb – одну из первых поисковых систем по World Wide Web. Владельцы сайтов должны были сами их добавлять в индекс Aliweb, чтобы они появлялись в поиске. Поскольку слишком мало вебмастеров это делали, Aliweb не стал популярным

20 апреля 1994 г. – Брайан Пинкертон из университета Вашингтон выпустил WebCrawler — первого бота, который индексировал страницы полностью. Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей. Увы пропускная способность была невысокой и в дневное время система часто была недоступной.

20 июля 1994 г. – открылся Lycos — серьезная разработка в технологии поиска, созданная в университете Карнеги Мелон. Майкл Малдин был ответственен за эту поисковую систему и до сих пор остаётся ведущим специалистом в Lycos Inc. Lycos открылся с каталогом в 54,000 документов. И в дополнение к этому результаты, которые он предоставлял, были ранжированными, кроме того он учитывал приставки и приблизительное совпадение. Но главным отличием Lycos был постоянно пополняемый каталог: к ноябрю 1996 было проиндексировано 60 миллионов документов — больше, чем у любой другой поисковой системы того времени.

Январь 1994 г. — был основан Infoseek. Он не был по-настоящему инновационным, но имел ряд полезных дополнений. Одним из таких популярных дополнений была возможность добавления своей страницы в реальном времени.

1995 год – запустилась AltaVista. Появившись, поисковая система AltaVista быстро получила признание пользователей и стала лидером среди себе подобных. У системы была практически неограниченная на то время пропускная способность, она была первой поисковой системой, в которой было возможно формулировать запросы на естественном языке, а также формулировать сложные запросы. Пользователям было разрешено добавлять или удалять их собственные URL в течение 24 часов. Также AltaVista предлагала много советов и рекомендаций по поиску. Основной заслугой системы AltaVista считается обеспечение поддержки множества языков, в том числе китайского, японского и корейского. Действительно, в 1997 году ни одна поисковая машина в Сети не работала с несколькими языками, тем более с редкими.

1996 год — поисковая машина AltaVista запустила морфологическое расширение для русского языка. В этом же году были запущены первые отечественные поисковые системы – Rambler.ru и Aport.ru. Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети.

20 мая 1996 г. — появилась корпорация Inktomi вместе со своим поисковиком Hotbot. Его создателями были две команды из калифорнийского университета. Когда сайт появился, то он быстро стал популярным. В октябре 2001 Дэнни Салливан написал статью под названием «База данных спам сайтов Inktomi открыта для публичного пользования», в которой рассказывалось о том, как Inktomi случайно сделал свою базу данных спам сайтов, которая к тому времени насчитывала уже около 1 миллиона URL, доступной для всеобщего использования.

Читать еще:  Учимся работать в фотошопе

1997 год – в западных странах наступает переломный момент в развитии поисковых систем, когда С. Брин и Л. Пейдж из Стэндфордского университета основали Google (первоначальное название проекта BackRub). Они разработали собственную поисковую машину, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов.

23 сентября 1997 года – анонсирован Yandex, который быстро стал самой популярной у русскоязычных пользователей Интернета системой поиска. С запуском в поисковой системы Яндекс отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги

Таким образом, развитие поисковых систем и их становление можно охарактеризовать перечисленными выше этапами.

На сегодняшний день на мировом рынке обосновались три лидера – Google, Yahoo и Bing. Они имеют свои собственные базы, и свои алгоритмы поиска. Многие другие поисковые системы используют результаты этих трех основных поисковых систем. Например, AOL использует базу данных Google в то время как AltaVista, Lycos и AllTheWeb используют базу данных Yahoo Все остальные поисковые системы в различных комбинациях, используют результаты (выдачу) перечисленных систем.

Если же провести аналогичный анализ поисковых систем, популярных в странах СНГ, то мы увидим, что mail.ru транслирует поиск Google, при этом накладывая свои новые наработки, Rambler, в свою очередь, транслирует Яндекс. Поэтому весь рынок рунета можно разделить между этими двумя гигантами.

Именно поэтому, в странах СНГ продвижение сайта, как правило, осуществляется только в этих двух ПС.

История развития поисковых систем

Во времена, когда только начиналось развитие интернета, объём доступной информации был сравнительно мал, и пользователей сети было немного. На начальных стадиях развития сети, ее использовали сотрудники университетов и исследовательских лабораторий для обмена информацией между учреждениями. В то время поиск информации в сети интернет был не актуальным, в отличие от нынешних дней.

Первым способом организации и систематизации доступа к информационным ресурсам стало создание каталогов сайтов. В них стали группировать ссылки согласно определенной тематике.

Первопроходцем области стал Yahoo, который появился в апреле 1994 года. С течением времени количество сайтов возрастало, и Yahoo добавил опцию поиска по каталогам. Это не была поисковая система в прямом смысле, потому что область поиска ограничивалась ресурсами каталога.

Впоследствии каталоги распространились и стали использоваться повсеместно, но и интернет не стоял на месте, а продолжал развиваться. Вместе с ним развивались и методы поиска. На данный момент каталоги почти утратили популярность, это объясняется тем, что современный каталог, даже если он содержит огромное количество ресурсов, сможет обеспечить доступ лишь к малой части информации, которая содержится в сети.

В наши дни самым большим каталогом сети является Open Directory Project или DMOZ, включающий в себя информацию о 5 миллионах ресурсов, но это относительно мало, если сравнивать его, например, с поисковой системой Google, которая содержит около 8 миллиардов документов.

Полноценная же поисковая система вышла в свет только в 1994 году, ей стала система поиска WebCrawler.

Год спустя, в 1995 году появились проекты поисковых систем AltaVista и Lycos. Одна из них, в частности AltaVista, удерживала лидирующие позиции в области поиска в течение долгих лет.

По прошествии двух лет, в 1997 году, студенты Стэндфордского университета Сергей Брин и Ларри Пейдж разработали поисковую систему Google, являющуюся лидером в области поиска на сегодняшний день.

Этот год так же стал годом, когда было официально анонсировано о создании Российской поисковой системы Яндекс, которая и ныне лидирует в русскоязычном сегменте сети.

На данный момент существует только 3 поисковые системы, которые вышли на международный уровень, это MSN Search, Yahoo и Google. Эти системы имеют свои базы и поисковые алгоритмы. Большая часть остальных поисковиков используют их результаты. Так Mail.ru использует базу Yandex , search.aol.com — Google, а Lycos, AltaVista и AllTheWeb — Yahoo.

Лидером поиска на русских просторах интернета на данный момент является Яндекс, за ним — Rambler, далее идут Google, Mail.ru, A port и KM.ru.

У поисковых систем разные алгоритмы работы, и чтобы занять хорошую позицию в поисковой выдаче и привлечь целевых посетителей, нужно знать особенности SEO оптимизации для разных поисковиков. Например оптимизация под Яндекс отличается от Google оптимизации.

История поисковых систем от создания и развития до наших дней

Поисковая система — позволяющий ориентироваться среди миллионов страниц в интернете. Все знают про поисковые системы и про их важность в жизни, но мало кто задумывался об их происхождении. История возникновения поисковых систем началась в 80-90-х годах и прошла через многое.

Мы расскажем Вам о основных ступенях, создания и развития глобального поиска в интернете.

Предпосылки возникновения поисковых систем

Цель всех поисковых систем — найти и отранжировать данные, найденные в интернете. До разработки поисковиков интернет представлял собой набор сайтов, по которым пользователи переходили вводя прямой адрес сайта, или пользовались специализированными каталогами и списками сайтов. По мере того, как список веб-серверов увеличивался в несколько раз, возрастала потребность в улучшенном поиске.

Дополнительная информация. Первую идею по созданию общего архива для всех мировых данных реализовали в 1945 году. Ванневар Буш опубликовала научную статью, в которой предложила собирать данные и исследования, извлекая из них самое полезное.

Перенесемся в истории создания и развития поисковых систем на полвека вперед. Публичные FTP-серверы были распространены в конце 1980-х, но не было простого способа найти информацию или файлы, если не известно имя и местоположение документа, а также адрес сервера.

Все это изменилось, когда в 1990 году студент Алан Эмтаж создал Archie, первую поисковую систему, которая индексировала и находила FTP архивы. Веб-каталоги и поисковики постепенно приобрели популярность, став предпочтительным методом поиска в Интернете. Основные этапы истории развития поисковых систем приходятся на период с 1993 по 1998 год.

Создание первых поисковых систем

Большинство первопроходцев создания поисковиков, уже вто время понимали потенциал интернета и все его, преимущества. Они так же понимали глобальность

Индексатор FTP файлов Archie

Archie часто считают первой настоящей поисковой системой. Хотя были и ранее разработанные технологии, Archie вошел в историю поисковых систем как первый инструмент для поиска контента, а не пользователей.

Дополнительная информация. Archie состоял из двух компонентов:

  • сервер, который индексировал содержимое общедоступных FTP-серверов;
  • инструмент поиска, используемый для запроса имен файлов, которые были проиндексированы на сервере.

По современным меркам поисковик работал довольно грубо, но тогда он стал огромным шагом вперед.

Поиск по заголовкам страниц Wandex

В 1993 году Мэтью Грей разработал Wandex, первый поисковик в той форме, которую мы знаем сегодня. Wandex сканировала сайты и искала по заголовкам проиндексированных страниц в Интернете. В 1994 году поисковик WebCrawler, основанный на технологии Wandex, начал индексировать полный текст сайтов, а не только заголовки.

Каталоги Yahoo!

Система Yahoo! была основана в 1994 году. Одним из ее крупнейших вкладов в интернет-поиск стала служба каталогов, состоящая из большой коллекции авторитетных сайтов. В 2001 году Yahoo! начал взимать плату за включение в свою подборку.

Читать еще:  Работа через айфон

В октябре 2002 году Yahoo стала поисковиком в привычном понимании и активно его монетизировала. Создатели представили и сделали популярным ряд элементов, которые все еще используются многими, в том числе поиск только по изображениям, только по новостям и так далее.

Возникновение и развитие поисковой системы Google

В январе 1996 года студенты Стэнфордского университета Ларри Пейдж и Сергей Брин начали исследовать концепцию нахождения информации в интернете. Они считали, что поисковые системы должны анализировать и ранжировать сайты в зависимости от того, сколько раз слова, используемые при поиске, появлялись на веб-страницах.

Исследования привели к разработке алгоритма анализа ссылок PageRank, которая стала основой для Google. Именно он помогает определить важность сайта при поисковой выдаче.

Обратите внимание. У PageRank есть две основные идеи:

  • когда многие веб-сайты ссылаются на веб-страницу, это говорит о том, что она полезна и заслуживает доверия;
  • ссылки с полезной и заслуживающей доверия веб-страницы являются более ценными и заслуживающими доверия, чем ссылки с ненадежной веб-страницы.

PageRank оказался отличным способом выявления полезных веб-сайтов, и пользователи быстро поняли, что результаты поиска Google более полезны, чем от других систем. В результате пользователи быстро стекались в Google, а другие поисковики пытались наверстать упущенное.

К 2002 году Google занял лидирующее положение на рынке. Начиная с 2004 года доля Google на рынке неуклонно растет, а компания ежегодно расширяется и выдает новые продукты.

Российские поисковые системы

С развитием интернета в России возник вопрос о создании поисковика под кириллический сегмент интернета, не только Россия но и другие страны СНГ (Белоруссия и Украина)

Google плохо понимал русский язык, и в самом начале русский интернет, как и весь мир. использовал каталоги сайтов (Мейл ру и Рамблер Портал), все изменилось с появлением Яндекса, который теперь занимает лидирующие позиции.

Поисковая система Yandex

Яндекс — компания, основанная в 1997 году. Она известна своим набором сервисов, которые охватывают поисковые системы, AI и аналитику.

Благодаря инновациям в искусственном интеллекте и технологиях чтения данных, поисковик Яндекс может легко работать с российской терминологией при поиске на зарубежных ресурсах, благодаря чему в отдельных нишах обгоняет по эффективности Google.

В настоящее время Яндекс — крупнейшая технологическая компания в России, владеющая более 50% доли рынка поисковых систем в стране. Яндекс является четвертым по популярности сайтом в России.

Портал Rambler

Rambler начала работу в октябре 1996 года, на начальном этапе в ней содержалось всего 100 тысяч проиндексированных сайтов. Rambler был не первой отечественной поисковой системой, но ставшей одной из самых популярных.

Вторая версия поисковика начала разрабатываться летом 2000 года, в ней представили функции, которые уже были доступны в конкурирующих системах. Учитывалась морфология, улучшился поиск по каталогам. Важной фишкой поисковика был каталог Rambler’s Top100, куда попадали сто самых популярных сайтов Рунета.

Удачная архитектура продукта позволяла Rambler иметь количество серверов в два раза меньше, чем у Яндекса и в три раза меньше, чем у Aport.

Каталог Mail.ru

Однажды в 1998 году группа программистов выложила на тестовый сайт свое ПО по поддержке почтового сервиса. На сайт нахлынуло множество пользователей, желающих получить красивый электронный адрес с окончанием @mail.ru.

За несколько лет число пользователей выросло до миллиона, а сейчас их свыше 10. На их базе возник самостоятельный поисковик, ставший частью гигантской Mail.ru Group, куда входит ряд сервисов, сайтов и приложений, включая «Одноклассники» и ICQ.

Большую ставку Mail делала на интеграцию с другими своими сервисами и социализацию, как и Яндекс сейчас.

Будущее поисковых систем

Поисковые системы сейчас движутся в сторону оптимизации под мобильные устройства. По статистике, 51% мультимедиа потребляется со смартфонов, Smart TV и прочих устройств, не имеющих отношения к компьютерам. Так как набирать текст на них неудобно, активно развивается голосовой поиск и умные помощники.

Много сил выделяется на улучшение оптимизации результатов и учитыванию особенностей поиска в регионах. Идет активная интеграция с социальными сетями. Например, пользователь может ввести имя любой знаменитости и увидит не только страницы, где он упоминается, но еще и краткую биографию и ссылки на соцсети — обычно это первое, что люди хотят увидеть.

Число подключенных к интернету устройств, домашних хозяйств и пользователей продолжает расти, а поиск представляет собой основной механизм поиска информации и явно останется с нами надолго, а история создания поисковых систем будет пополняться все новыми и новыми представителями.

Поисковые системы

Поисковые системы (ПС) уже давно являются обязательной частью интернета и нашей повседневной жизни. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.

Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Туле»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. Приучить же пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?

Читать еще:  График работы при сменном режиме образец

Основные характеристики поисковых систем

Полнота.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самым известным и большим каталогом в мире был DMOZ (прекратил работу 14 марта 2017 года) имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.

Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.

В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.

В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.

Доля поисковых систем

  • Google — 70,83 %;
  • Bing — 12,61 %;
  • Baidu — 11,83 %;
  • Yahoo! — 2,30 %;
  • Яндекс — 1,41 %;
  • DuckDuckGo — 0,42 %;

Принципы работы поисковой системы

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.

«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.

Извлекаются все ссылки из тэгов. Вместе с ними обрабатывают редиректы. Любая скачанная страница сохраняется в таком формате:

  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.

Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Crawler, исследуя найденные ссылки, ищет новые документы, еще не ставшие известными поисковой системе.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.

Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).

Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Ссылка на основную публикацию
Adblock
detector