Dmitry Lande. 3. Навигация в Интернет - от каталогов

ЗАТЕРЯННЫЙ ВЭБ

Дмитрий Ландэ,
dwl@visti.net

[an error occurred while processing this directive][an error occurred while processing this directive] File not found. [an error occurred while processing this directive]

Очередной феномен Интернет

Оказывается в Глобальной паутине информации куда больше, чем это можно себе представить. Чаще всего пользователь находит на необходимые ему новые источники в Сети через информационно-поисковые системы, такие как Google, Yahoo! или "Яндекс", которые для многих стали "де-факто" стандартными. Однако кроме видимой для поисковых систем части вэб-пространства существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти вэб- страницы доступны в Интернет, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название - "скрытый" (deep) вэб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также невидимым (invisible) вэб. Они чаще всего охватывают динамически формируемые вэб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.

В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в вэб-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические вэб-станицы, формируемые из баз данных, и запустив ее получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети попросту невидима. Топология паутины - "галстук-бабочка"

В отличие от данных из обычного хранилища информации, документы из вэб- пространства характеризуется большим количеством неявно включенных в них экспертных оценок, реализованных в виде взаимных гипертекстовых ссылок. Именно гиперссылки оказались в свое время основой для построения модели вэб-пространства (или, попросту, вэба). И именно их остутствие порождает скрытые области в этом пространстве.

В ноябре 1999, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" реасурсов и гиперсвязей вэба. Исследования опровергли расхожее мнение, будто Интернет - это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн. вэб-страниц и несколько млрд. ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре вэб-пространства, котороая соответствует, по их мнению, ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра - соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между отдельными вэб-страницами было обнаружено наличие:

- центральное ядро (28% вэб-страниц) - компоненты сильной связности (SCC) или узел галстука, составляют вэб-страницы, взаимосвязанные так тесно, что,следуя гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

- 22% вэб-страниц - это "отправные вэб-страницы" (IN). Они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

- столько же - 22% - "оконечных вэб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад.

- 22% вэб-страниц - отростки - полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две вэб-страницы, не входящие в ядро.

Четыре основных множества - более 90% исследуемых вэб-страниц, топологически относящихся к одной компоненте связности - обусловили название модели - "галстук- бабочка" (Bow tie).

Существующие "острова" вообще не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы - знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Интернет. Это и объяснило недостаток модели Бр╦дера - он исследовал в основном страницы открытого (поверхностного) вэба, очевидно он отбирал их не совсем случайно. Поэтому, если процентное соотношение первых четырех составляющих "поверхностного" вэба можно признать верным, то "острова" в реальности оказались более объемными, чем в модели. Согласно исследованиям компании BrightPlanet, число "скрытых" (но не секретных) вэб-страниц во много раз превышает количество видимых. Доступные сегодня благодаря традиционным информационно-поисковым системам 10 млрд. вэб- страниц - это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это прежде всего динамически генерируемые страницы, файлы неопознаваемых поисковыми системами форматов, информация из многочисленных баз данных. В результате исследований также выявилось немало интересных особенностей "скрытого" вэба, так, например, известно, что средняя его страница на 27% компактней средней страницы из поверхностной части вэб-пространства.

Типы скрытых ресурсов

Для того, чтобы определить, какие из ресурсов невидимы для поисковых систем, следует рассмотреть принцип работы типового индексатора - робота таких систем. Эти программы, как правило, посещают вэб-страницы по известным заранее адресам, анализируют их содержание и выделяют гиперссылки, идущие от них. Обычно, обработав текущую страницу, выделив ключевые слова и некоторые поля, робот переходит по адресам, найденным на ней, сканирует последующие страницы, выделяет новые адреса и. т.д. Обычно, как только робот определяет, что он обращается к динамической странице, он останавливает свою работу, так как чаще всего для получения осмысленного ответа из баз данных требуется осмысленный запрос, а большинству из роботов чужды элементы интеллекта, даже искусственного. Т.е. "скрытый" вэб охватывает в первую очередь содержимое онлайновых баз данных. Динамической является и быстро обновляемая информация - новости, конференции, онлайновые журналы.

Конечно, есть и явные "острова" по Бр╦деру, на которые не ведут никакие гиперссылки, и от которого гиперссылки не исходят. Защищенные паролями коммерческие вэб-сайты также попадают в категорию "скрытого" вэба - о материалах этих сайтов большинство пользователей никогда не узнают с помощью поисковых систем. Однако относительное количество таких сайтов невелико. Например, среди крупнейших сайтов "скрытого" вэбв, платными являются только 10% ресурсов, хотя именно они включают важнейшие издательства и базы данных.

Основатель BrightPlanet Майкл Бергмана (Michael K. Bergman) выделил 12 разновидностей "скрытых" вэб-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу онлайновых баз данных. В списке оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы - объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб.

К "скрытому" вэб также относятся многочисленные системы интерактивного взаимодействия с пользователями - помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную, пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. К "скрытой" части Сети многие причисляют и вэб-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично - поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме.

Недавно появилась категория так называемых "серых" сайтов, функционирующих на основе динамических систем управления контентом (Dynamic Content Management Systems). В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц.

И конечно же, "скрытыми" оказываются вэб-сайты, создатели которых не оповещают кого-либо о создании этих ресурсов.

Безусловно, основной формат данных, с которым работают традиционные поисковые системы в Интернет - это HTML, причем статическая его часть. С другими форматами у многих поисковых систем имеются различные проблемы. К примеру, различные версии формата PDF (Adobe Portable Document Format), а также особенности хранения инкапсулированных графических изображений, заставляют считать сетевые ресурсы, представленные в этом формате, "скрытыми". Тем не менее, некоторые современные поисковые системы уже вполне сносно индексируют документы в этом формате. К "скрытым" форматам принято относить также и Flash, широко использующийся для обеспечения визуальных эффектов на вэб-сайтах.

Кроме того, например, для нашего пользователя, наверняка "скрытой" можно признать большую часть гигантского китайского сегмента Интернет. Например, малопопулярный в Европе и Америке китайский поисковый портал Baidu (www.baidu.com) в 2004 году опередил Google по объему трафика стал четвертым в мире вэб-ресурсом по этому показателю. Другая китайская поисковая система 3721.com заняла седьмое место. Эти данные по ранжированию привела исследовательская компания Alexa, речь о которой пойдет ниже. Портал Baidu.com стал крупнейшей в мире поисковой системой на китайском языке и охватывает более 95% китайских пользователей сети.

Базы данных "скрытой" Сети

Пожалуй, самыми большими из известных ресурсов "скрытого" вэба являются базы данных служб Dialog и LexisNexis.

Одной из крупнейших мировых служб информационного поиска является американская компания Dialog (http: //www.dialog.com), созданная при поддержке NASA и до 1988 года принадлежавшая аэрокосмической фирме Lockheed. Сегодня Dialog принадлежит корпорации Thomson (США) - одному из всемирных лидеров в области предоставления интегрированных информационных решений. Корпорация Thomson имеет свыше 20 миллионов пользователей в 130 странах мира. Сервисом компании Dialog также пользуются в более чем 100 странах мира. Образованная в 1965 г. как первая в мире онлайновая информационно-поисковая служба, Dialog фактически определила современные стандарты управления информацией.На сегодняшний день Dialog включает такие продукты и сервисы, как Dialog®, Dialog Profound®, Dialog DataStar≥, Dialog NewsEdge® and Dialog IntelliscopeSM, которые обеспечивают доступ к более 1,4 млрд. документов через Интернет или сети intranet. При этом в компании Dialog определяют свои ресурсы как часть "скрытого" вєба (Deep Web), заявляя, что содержат полезной, не дублирующейся информации в 500 (!) раз больше, чем доступно с помощью традиционных информационно-поисковых систем. Коллекция баз данных службы Dialog содержит 900 баз данных, доступных 700,000 пользователей, которые только за 1 час прочитывают свыше 17 миллионов документов из этих баз данных.

Основанная в 1973 году крупнейшая в мире онлайновая служба LexisNexis предоставляет своим пользователям юридическую, политическую, коммерческую, новостную, регистрационную и другую информацию. С 1979 года система баз данных LexisNexis - первая в мире служба полнотекстового поиска - в настоящее время охватывает свыше 35 000 источников информации, содержащих в совокупности более 4,6 миллиардов документов с глубиной ретроспективы до 200 лет. Каждый час в базы данных LexisNexis добавляется 57 500 документов. LexisNexis представлена сегодня в 20 странах, пользователи сервиса находятся в более чем 100 странах.

В "скрытом" вэбе существует множество альтернатив коммерческим базам данных типа Dialog или Lexis-Nexis. Среди них, например сайт www.10kwizard.com, предлагающий доступ к полным текстам корпоративных документов, хранящихся в Комиссии США по ценным бумагам и биржам.

Существуют тысячи баз данных "скрытого" вэба, свободно доступные для пользователей, но чаще всего, не охватываемые традиционными поисковыми системами. Приведем еще несколько примеров:

- Educator's Reference Desk (http://www.askeric.org/) - этот ресурс содержит свыше двух тысяч учебных планов, несколько тысяч ссылок на образовательные документы, а также ссылки, представляющие собой запросы к архиву. С этого сайта обеспечивается доступ к базе данных ERIC - крупнейшему источнику информации по проблемам образования, а также к полнотекстовым дайджестам, составляемым экспертами.

- Nuclear Explosions Database (http://www.ga.gov.au/oracle/nukexp_query.html) - австралийская база данных по географии. Для работы с системой достаточно перейти в режим "Online Tools", после чего будет представлен список баз данных и карт.

- PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi) - с ресурса обеспечивается доступ к свыше 14 млн. ссылок системы MEDLINE, включая ссылки на полные тексты статей и информационные ресурсы. Имеется возможность перехода к службе PubMed Central (PMC), к свободно доступному архиву статей (свыше 90 тысяч) из научных журналов. Обеспечивается также доступ к глобальной поисковой системе NCBI, охватывающей базы данных по естествознанию.

- LookSmart's FindArticles (http://www.findarticles.com/) - база данных FindArticles - доступный через вэб-интерфейс архив, содержащий 2.8 млн. статей из более 500 источников, накапливаемый с 1998 года.

Приведем еще один пример "скрытой" базы данных. Корпорация ChoicePoint недавно предоставила сервис Auto TrackXP, вошедший в список двадцати крупнейших "скрытых" сайтов мира (по рейтингу BrightPlanet). Auto TrackXP представляет собой базу данных объемом 30 TB, охватывающую практически все аспекты гражданской жизни США. База данных системы Auto TrackXP содержит информацию практически о каждом гражданине США. Например, чтобы определить, не завладел ли человек чужими документами, на основе системы организован платный сервис ProCheck, позволяющий сопоставить информацию из различных источников и государственных каталогов. Сегодня американцы испытывают шок, обнаруживая существование подобных баз данных, видя в этом нарушение своих гражданских прав.

Сталкеры в скрытом пространстве

"Скрытый" вэб представляет собой гигантский репозитарий документов, звуков, изображений, фильмов и т.п. Безусловно, если большая часть этой информации не доступна традиционным поисковым системам, то существует потребность в специальных инструментах поиска "скрытого" контента. Эти инструменты включают каталоги, метапоисковые сайты, доступные через вэб базы данных, а также большое количество глобальных, региональных и специальных поисковых систем.

Для поиска в "скрытой" Сети, а именно в том ее сегменте, который составляют базы данных, сегодня уже существуют некоторые специализированные ресурсы. Среди них, например, системы BigHub (www.bighub.com) и InvisibleWeb (www.invisible-web.net) компании IntelliSeek. Сайт Invisible Web включает в себя каталог баз данных, большинство из которых не заиндексированы известными поисковыми машинами. При введении запроса этот сайт выдает ссылки на ресурсы, с помощью которых поиск необходимой информации станет наиболее оптимальным. На этом сайте Криса Шермана (Chris Sherman) и Гари Прайса (Gary Price) собраны коллекции ссылок на различные базы данных, среди которых содержится немало уникальных ресурсов, например, сборник спичей политиков и бизнесменов. Программный пакет BullsEye компании IntelliSeek осуществляет поиск более чем в 800 сетевых ресурсах.

Лидером среди навигаторов в "скрытом" вэбе является сайт CompletePlanet (www.completeplanet.com) компании BrightPlanet. Этот сайт является крупнейшим каталогом, насчитывающим свыше 100 тысяч ссылок. Компания BrightPlanet также создала персональную утилиту для поиска в онлайновых базах данных - LexiBot, которая может обеспечивать поиск в нескольких тысячах поисковых систем "скрытого" вэба. Метопоисковый пакет DeepQueryManager (DQM) этой же компании обеспечивает поиск по 55 тысячам "скрытым" вэб-ресурсам.

Сайт Direct Search (http://www.freepint.com/gary/direct.htm), созданный Гари Прайсом, также обеспечивает поиск в базах данных "скрытого" вэба. На сайте содержится ссылка на лучшие ресурсы ценовой информации - MySimon.com, финансовой информации - FinancialFind.com, а также ссылки на информацию из научно- популярных журналов и научных баз данных по биотехнологиям - Biolinks.com.

В Интернет есть и другие сайты-навигаторы, а также специализированные программы поиска. Например, поисковая система по университетским архивам, библиотекам и книгам - Infomine Multiple Database Search (http://infomine.ucr.edu/ search.phtml); каталог информационных сайтов, которые уникальны в своих областях - BUBL LINK (bubl.ac.uk/link/); полнотекстовый поиск по содержанию всех книг - Amazon.com.

Особенность большинства "скрытых" ресурсов - в их узкой специализации. Для поиска в них используются те же механизмы, что и для "поверхностного" вэба, однако, чаще всего, роботы поисковых систем для "скрытого" вэба включают уникальные для каждого такого ресурса модули доступа к данным.

Ссылки на "скрытый" вэб в каталогах

Каталоги, как глобальные так и специальные, могут содержать ссылки на "скрытые" ресурсы, прежде всего, базы данных. Приведем несколько самых известных примеров:

- Портал WebData.com на первый взгляд ничем не отличается от других подобных ресурсов, однако содержит гиперсылку "Add Your Database" (добавить Вашу базу данных), говорящую о том, что на данном портале можно зарегистрировать базу данных - часть "скрытого" вэба.

- Librarians' Index to the Internet (http://lii.org/) - каталог, содержащий свыше 14000 Интернет-ресурсов. LII также включает ссылки на "скрытые" в вэб-пространстве базы данных. У владельцев таких баз данных есть возможность поместить соответствующую гиперссылку в этом каталоге на свой ресурс (в LII есть ссылка "and databases" (добавить базу данных).

- FindLaw (http://www.findlaw.com/) - один из наиболее популярных в мире юридических вэб-сайтов - огромный каталог правовых ресурсов, содержащий аннотированный список свободно доступных баз данных нормативно-правовых документов, для которых данный ресурс является "точкой входа".

- InfoMine (http://infomine.ucr.edu) - ресурс, содержащий ссылки на 120000 документов, представленных в 9 аннотированных баз данных. Этот каталог позиционирует себя как "виртуальную библиотеку Интернет-ресурсов", ориентированную на студентов и исследователей-профессионалов.

- About.com (http://www.about.com/) - портал, охватывающий тысячи, снабженных комментариями, ссылок на вэб-ресурсы, в том числе и на ресурсы "скрытого" вэба (имеется ссылка "Invisible Web"). На портале предоставляется возможность поиска в каталоге. Ресурс также включает несколько статей по проблематике "невидимого" вэба: "What is the Invisible Web?", "Finding the Invisible Web", "Top Places to Search the Invisible Web" и др.

К разряду каталогов можно также отнести такие коллекции ссылок и поисковые системы и "скрытые" базы данных:

- Direct Search (http://www.freepint.com/gary/direct.htm) - ресурс, содержащий ссылки на ресурсы "скрытого" вэба. Например, присутствует ссылка на сайт ResourceShelf (http://www.resourceshelf.com/), обеспечивающий поиск в блогах (сетевых журналах) и новостных сообщениях.

- The Invisible Web Directory (http://www.invisible-web.net/) - вэб-сайт Шермана и Прайса (Chris Sherman & Gary Price) - соавторов термина "Invisible Web".

- Profusion (http://www.profusion.com) - сайт компании Intelliseek, первой создавшей каталог "невидимого" вэба InvisibleWeb.com. ProFusion - это модифицированный метапоисковая поисковая система, позволяющая выбирать области поиска в "вертикальных" (тематических) разрезах.

- CompletePlanet (http://www.completeplanet.com/) - сайт корпорации BrightPlanet Corporation, который охватывает свыше 70 000 поисковых баз данных и специальных поисковых систем.

Системы поиска в "скрытом" вэбе

Традиционная поисковая система чаще всего может назвать адрес базы данных, но не скажет, какие документы конкретно содержаться в ней. Типичный пример - информационно-поисковые системы по украинскому (http://www.rada.gov.ua/) или российскому законодательству (http://www.kodeks.ru/). Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы как глобальные, так и локальные - описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com/) и Search Engine Showdown (http://www.searchengineshowdown.com/). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" вэба:

- Singingfish (http://www.singingfish.com) - поисковая система Singingfish обеспечивает поиск аудио- и видеофайлов, представленных на вэб-сайтах.

- Scirus (http://www.scirus.com/) - поисковая система по представленным в Интернете научным материалам, включая статьи из журналов и отчеты. Со страницы расширеного поиска (Advanced Search) доступны многочисленные тексты из баз данных EBSCO и ProQuest.

- UFOSeek (http://www.ufoseek.com/) - поисковая система по материалам о паронормальных явлениях и НЛО. Качественный и полноценный поиск информации в "скрытом" вэбе возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных ввиду своей платности сами являются объектами "скрытого" вэба.

Информация в различных форматах

Информация, представленная в форматах, отличных от HTML для многих поисковых систем оказывается недоступной, хотя сегодня ситуация меняется в корне. Например, популярная система Google (http://www.google.com/) уже обеспечивает поиск в документах, представленных в форматах MS PowerPoint, DOC, RTF, Postscript, PDF, а также обеспечивает преобразование этих файлов в текстовый формат. Поиск в документов в разнообазных форматах, доступен в этой системе как из режима расширенного поиска в Google (Advanced Search), так и из "простого" поиска - достаточно использовать в запросе команду "filetype:", уточнив поиск выражением "filetype:pdf". Знаменитая служба Yahoo! сегодня уже не только каталог, но и полнофункциональная поисковая система. Поисковая система "Yahoo! Search" (http://www.yahoo.com/) как и Google обеспечивает выдачу текстовых копий документов, размещенных в Интернет в форматах Word, Excel, PowerPoint и PDF, а также RSS/XML- фидов (новостных лент и блогов - "живых журналов").

Специализированная система Gigablast (http://www.gigablast.com/) предназначена исключительно для поиска по документам в форматах Word, Excel и PDF. Эта система выдает по запросу кэшированные (архивные) копии документов в исходных форматах, при этом обеспечивает булевый поиск и выдачу версионных копий документов, которые были в размещены в Сети, но возможно затем и удалены.

Скрытый новостной ресурс

Текст новостей тоже традиционно относился к "скрытой" Сети, однако в последние годы все крупнейшие поисковые сайты разработали эффективные инструменты поиска оперативно обновляемых новостных сообщений - это, например, "Яндекс.Новости" (http://news.yandex.ru/), Google News (http://news.google.com/) или Uaport (http://uaport.net/UAnews/). Служба Google News автоматически собирает новости из нескольких тысяч источников, обновляя свои базы данных каждые 15 минут. Существуют и другие зарубежные службы интеграции новостей, например, NewsIsFree, Topix.net, и Daypop (www.daypop.com). В России крупнейшими интеграторами новостей являются системы Integrum (http://www.integrum.ru) и Webscan (http://www.webscan.ru), в Украине - InfoStream (http://infostream.ua) и WebObserver (http://webobserver.info).

Многие сайты на своих страницах публикуют новости как собственные, корпоративные, так и общеотраслевые. Если на сайте не реализован статический механизм архивации старых сообщений, то даже будучи помещенными в архив, доступный из Интернет, эти сообщения рискуют оказаться в зоне "скрытого" вэба.

Материалы публикаций попадают в разряд "невидимого" вэба и в том случае, если они защищены паролями как средствами обеспечения оплаты или просто сбора статистики о читателях. Многие аналитики (в частности, аналитик IDC Джеймс Левин), признают, что для изданий значительно выгодней публиковать усеченную бесплатную версию своих материалов - это обеспечит их популярность в Интернет, попадание изданий в индексы популярных поисковых систем.

"Скрытый" архив "поверхностного" вэба

Парадоксально, но как один из ресурсов "скрытого" вэба можно рассматривать и архив ресурсов открытого вэб-пространства. Такой архив - "Internet Archive" с 1996 года создает компания Alexa (www.alexa.com). Сегодня объем базы данных Alexa превышает 500 TB. Новые страницы в настоящее время попадают в хранилище со скоростью 1 ТB в день. Технология хранилища Alexa включает ряд современных средств управления гигантским документальным хранилищем. Например, с помощью технологии Alexa выполняется кластеризация вэб-ресурсов, т.е. формирование коллекций документов, близких по тематикам. Особый интерес у пользователей сервиса Alexa вызывает "Машина времени" (Wayback Machine), открывающая доступ к временным срезам вэб- пространства. Одно из наиболее интересных практических применений этой технологии - восстановление документов, некогда опубликованных в вэб-пространстве, но впоследствии удаленных. При этом рост "скрытого" вэба грозит серьезными пробелами в хранилище системы, связанными с увеличивающимся количеством сайтов, эксплуатирующих различные технологии управления контентом, динамической публикацией документов из баз данных и т.п.

Аналогичный проект, но относящийся только к одному типу информации - аудиовизуальной, - Informedia (www.informedia.com/) разрабатывается в институте Карнеги Меллона. Informedia появилась в 1996 г. в рамках инициативы Digital Library Initiative. С тех пор к проекту в роли спонсоров присоединились многие компании, в том числе Microsoft, Intel, CNN, Boeing и даже Visa. В рамках проекта разрабатываются технологии распознавании образов и речи.

Параллельно с поверхностным вэбом

Чем быстрее растет вэб-пространство, тем хуже оно охватывается традиционными каталогами и поисковым машинам. Ввиду роста количества вэб-сайтов и порталов, использующих в своей работе хранящуюся в базах данных информацию, динамических систем управления контентом, появлением новых версий форматов представления информации, "скрытый" сегмент вэба растет очень интенсивно. С одной стороны, Интернет как огромное хранилище увеличивает объем информации, доступной "в принципе", но с другой стороны - растет информационный хаос, увеличивается энтропия сетевого информационного пространства. Все меньшая часть информационных ресурсов становится доступной пользователям реально. Объем "скрытого" вэба, содержащего полезную для пользователей, но слабодоступную информацию, в сотни раз превышает "поверхностную" часть. Т.е. традиционные средства охвата информационных ресурсов не справляются с задачей поиска большей части информации. Эффективными оказываются лишь тематические каталоги и поисковики - сталкеры в мире "скрытого" вэба.

Спасти ситуацию могут и новые возможности унификации обмена информацией в Интернет. Одним из первых проектов консорпциума W3C в этой области стал "Семантический Вэб". Основная идея проекта заключается в такой организации данных, чтобы вэб-серверы могли их использовать, а не только визуализировать, чтобы программы разных производителей могли эффективно работать с контентом. В рамках проекта "Семантического Вэб" были разработаны спецификации метаязыка XML, предусматривающие разделение средств визуализации и смыслового содержания. На основе XML создаются различные форматы, специально предназначенные для организации информационной коммуникации как между людьми, так и между серверами.

Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Сегодня экспорт данных в формате RSS осуществляют крупнейшие порталы, включая CNN, BBC News, Amazon, CNet News, MSNBC, The Register, Wired и т.д.

Аналитики отмечают, что только в начале 2004 года, пользователи Интернет по- настоящему открыли для себя технологию RSS. Сегодня для работы с данными в формате RSS разрабатываются все новые программы, сайты и поисковые системы, которые все более востребованы пользователями. Эти программы приоткрывают завесу над динамично обновляемой частью "скрытого" вэба.