Практическое применение семантических сетей

⇐ ПредыдущаяСтр 3 из 4Следующая ⇒

семантический сеть концептуальный граф

Существующая сеть WWW представляет собой гигантское количество информации в формате, приспособленном для человеческого восприятия. Пользователь может перескакивать с одной ссылки на другую, давать запросы различным поисковым системам или же находить сайты, просто вводя их адреса. И хотя веб-страницы весьма привлекательны для человека, для компьютерной программы же, обрабатывающей их содержимое, они не более чем строчки из случайных символов.

Компьютерная программа не способна, загрузив произвольный документ, будь то веб-страница или какой-то файл, понять его содержание. Она может сделать некие догадки, основываясь на HTML- или XML-тэгах, но всё равно требуется человек-программист, который должен разобраться в них и понять смысл, или семантику, каждого из тэгов. С точки зрения компьютера, существующая Сеть WWW — это полная неразбериха. К счастью, выход есть: это семантическая сеть.

Как представлял себе Тим Бернерс-Ли, семантическая сеть должна стать неким дополнением сети WWW, состоящим из понятной машинам информации. Реализация этой новой Сети станет возможна благодаря ряду новых стандартов, разрабатываемых WWW-Консорциумом (W3C). Когда семантическая сеть наберёт обороты, значительное число информационных ресурсов будут пригодными для использования как человеком, так и программными агентами. Другими словами, программные агенты наконец-то научаться читать Интернет.

Подобно тому, как семантическая сеть является расширением обычной сети WWW, семантические веб-сервисы (SW-сервисы или SWS) расширяют понятие обычных веб-сервисов.

В настоящее время создаются программы, способные искать нужные им порты и регистры, такие как UDDI-сервер, который является перечнем доступных веб-сервисов. И хотя программа может найти некий веб-сервис без помощи человека, она не в состоянии понять, как именно им пользоваться и даже просто для чего он предназначен. Язык описания веб-сервисов (WSDL) даёт нам инструмент для описания того, каким образом взаимодействовать с тем или иным веб-сервисом, тогда как семантическая разметка снабжает нас информацией о том, что и как делает данный сервис.

Чтобы SW-сервисы стали реальностью, язык разметки должен быть достаточно информативным с тем, чтобы компьютер был способен самостоятельно понимать смысл записанных на нём выражений. Ниже приводятся требования, которым должен отвечать такой язык:

– необходимость поиска сервисов (обнаружение — discovery);

– программы должны иметь возможность самостоятельно находить (или обнаруживать) требуемые им веб-сервисы. Ни WSDL, ни UDDI не позволяют программе понять, для чего именно с точки зрения клиента служит тот или иной веб-сервис. Семантический же веб-сервис сможет предъявить описание своих свойств и возможностей с тем, чтобы программы могли сами распознавать его предназначение;

– необходимость запускать сервисы (запуск — invocation);

– программы должны уметь самостоятельно узнавать, каким образом запускать и исполнять данный сервис. Например, если выполнение сервиса представляет собой многошаговую процедуру, то программе требуется знать, как ей следует взаимодействовать с сервисом, чтобы требуемая последовательность шагов осуществилась. SW-сервис предъявляет исчерпывающий перечень того, что должен уметь агент для запуска и выполнения данного сервиса. Сюда же следует отнести описание входных и выходных данных этого сервиса;

– необходимость использования вместе нескольких сервисов (композиция);

– программы должны уметь отбирать нужные им веб-сервисы и комбинировать их для достижения своих целей. Сервисам необходимо будет тесно взаимодействовать друг с другом, так чтобы получающийся в результате их комбинирования результат был приемлемым решением поставленной задачи. Таким образом, программные агенты смогут строить совершенно новые сервисы, комбинируя сервисы, уже имеющиеся в Сети.

– необходимость узнавать, что происходит после запуска сервиса (мониторинг);

– программный агент должен уметь определять свойства данного сервиса и следить за его выполнением. Некоторым сервисам может требоваться определённое время для исполнения работы, и агенты должны быть в состоянии следить за ходом выполнения сервиса.

Снабдив агентов возможностями самостоятельно обнаруживать, запускать, комбинировать и следить за исполнением сервисов без участия человека, можно будет создать новые достаточно функциональные приложения. Представим себе некую Интегрированную Среду Разработки (IDE — Integrated Developer Environment), которая не только содержит перечень доступных сервисов, но также предлагает подходящие их комбинации, удовлетворяющие требованиям, сформулированным нами на языке высокого уровня. Вместо того, чтобы пролистывать длинные списки сервисов в поисках того, входные параметры которого соответствуют нашему приложению, можно просто обращаеться к среде IDE, которая предложит сервисы, в точности, подходящие для наших целей.

Можно будет также создать неких персональных агентов, чтобы употребить всю мощь Сети на пользу конечному пользователю. Например, такой персональный агент вполне мог бы провести подготовку к празднованию дня рождения, получив лишь минимальные входные данные от пользователя. Подобный агент мог бы скомбинировать сервисы по заказу товаров, их покупке и доставке самостоятельно, преследуя поставленную перед ним пользователем на языке высокого уровня цель — подготовку праздника. Когда такие вещи будут делаться автоматически, пользователь сможет экономить как время, так и деньги [3].

Превращению Интернета в семантическую сеть способствует и Военное научное агентство DARPA. Оно разрабатывает новый язык программирования DAML (DARPA Agent Markup Language), основанный на XML. Он предназначен для детального описания смысла хранимой на Web-странице информации. Рабочая версия DAML появится летом, и DARPA надеется, что консорциум утвердит W3C в качестве стандарта. Предполагается, что DAML послужит существенным стимулом для превращения Интернета из "свалки" информации в семантическую Сеть.

DAML позволит Web-агентам и поисковым системам комбинировать смысловое содержание нескольких страниц (например, учитывать в рубрикаторе все иерархические разделы, относящиеся к конкретному сайту), что позволит выполнять поиск предельно точно.

Другое преимущество DAML – возможность унификации жаргонных выражений, применяемых в разных областях промышленности и относящихся к одному и тому же технологическому элементу.

Еще одним важным проектом в сфере семантического веба является DBpedia.org. Авторы этого проекта формализовали (привели к одной форме) данные Википедии, а доступ к базе данных открыли. Данные эти связаны, в результате можно делать запросы и получать очень интересные результаты. Так, в конце сентября был запущен фасетный поиск на данных, которые DBPedia извлекла из Википедии. Проект делался совместно с немецкой поисковой компанией Neofine и находится здесь: http://dbpedia.neofonie.de/browse/.

Таким образом, теперь для ответа на вопросы типа «Какие ученые родились в России в период с 1900 по 1910 год» достаточно использовать соответствующие фильтры в интерфейсе поисковика от DBPedia и Neofine: http://dbpedia.neofonie.de/browse/rdf-type:Scientist/personBirthDate-year~:1900~1910/personBirthPlace:Russian%20Empire/.

ReadWriteWeb опубликовал свою версию топ Semantic Web продуктов за 2008 год [4]:

1. Yahoo! SearchMonkey

Продукт от Яху позволяет получать структурированный контент прямо на SERP (Search Engine Result Page). Работает это следующим образом:

– Cоздатель сайта добавляет RDF разметку в XHTML или использует микроформаты, задавая таким образом семантику на странице. Также можно выгружать семантическую информацию роботу Яху в виде xml feed.

– Любой разработчик, в том числе и создатель сайта, может написать небольшое приложение на PHP с помощью SearchMonkey developer tool, которое имеет доступ ко всем полям из индекса Яху (можно добавлять свои провайдеры данных) и на выходе получить сниппет (аннотацию к поисковому результату) в нужном виде. После этого этот сниппет будет показываться на результатах поиска персонально для него

– Любое разработанное приложение можно расшарить другим пользователям, а также добавить в Yahoo! Search Gallery, после чего модераторы могут включить его по умолчанию для всех пользователей.

В общем, персонализация (которой, правда, мало кто будет пользоваться, наверное) и семантизация в одном продукте, причем от одного из гигантов интернет-поиска. Однозначно можно согласиться с ReadWriteWeb, поставившем его на первое место среди Semantic Web продуктов в этом году.

2. Powerset

Один из двух самых известных семантических поисковиков (2-й – Hakia – тоже попал в наш топ, речь о нем пойдет чуть ниже). В этом году в июле состоялась сделка, в результате которой Powerset был куплен Майкрософтом. Следов сильной интеграции поисковика и продуктов от Майкрософт пока не видно, разве что на странице результатов поиска появилась кнопка «Try this search on Live Search».

Powerset позиционирует себя как поисковую систему, умеющую извлекать факты. Существенным ограничением является то, что пока он умеет работать только с двумя источниками, причем очень качественными: википедией и социальной базой знаний freebase.

В результатах иногда случаются накладки, например, по запросу «Vladimir Putin» (http://www.powerset.com/explore/go/vladimir-putin) мы видим, что Людмилу Путину на freebase называют «Lyudmila Putin», хотя на wikipedia все корректно («Lyudmila Putinа»).

3. Open Calais

Reuters в конце 2007 года купила ClearForest, которая занималась разработкой Open Calais. В этом году они выпустили Open Calais API, позволяющее через web-сервис извлекать из переданного текста людей, компании, события и места. Поддерживается только английский язык:(Пример использования API есть в книге Practical Artificial Intelligence Programming With Java.

В настоящий момент на сервисе уже зарегистрировано более 6000 разработчиков и выполняется больше 1 миллиона транзакций в день.

4. Dapper MashupAds

Сервис для создания семантической рекламы от Dapper реализует подход сверху вниз, при котором сам пользователь указывает какие поля что означают на его сайте и создает рекламу, в отличие от традиционных алгоритмов контекстной рекламы, которые автоматически по содержимому страницу принимают решение о том, какие объявления размещать на этой ней.

Благодаря технологии можно создать такую рекламу, которая, например, по рецепту блюда предложит купить все его ингредиенты в одном месте.

Реализовано все на базе потрясающего воображение сервиса для создания mashup’ов dapper.net. Вы просто указываете шаблоны страниц с интересующим вас содержимым, отмечаете интересующие вас поля и создаете из этого компонент в одном из многочисленных поддерживаемых форматов (flash widget, rss, xml, html). За 5 минут можно создать сервис, который отдает текущее содержимое тизера на морде Яндекса: http://www.dapper.net/services/YandexTeaser.

⇐ Предыдущая 1 234 Следующая ⇒

Date: 2015-07-23; view: 1451; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (1.426 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию