Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Профессиональных базах. В соответствии с Законом «Об информации, информатизации и защите информации»№224-ФЗ от 20.02 1995 года под термином «информация» понимаются сведения о лицах





В соответствии с Законом «Об информации, информатизации и защите информации»№224-ФЗ от 20.02 1995 года под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления.

Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов. Предметная область это классы объектов, информация о которых необходима в данном виде деятельности человека. В каждой предметной области потребителей интересует определенный и чаще всего различный перечень свойств и глубина описания этих свойств. Очевидно, что перечни свойств о лице в экономике и в медицине, которые интересуют потребителя, будут различны.

Информация о предметной области, то есть об объектах и их связях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для этого объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Например, значение свойства «организационно-правовая форма фирмы, организации» должно выбираться из нормированного словаря, а значение свойства «название организации» является произвольным. Формализованное описание объекта во многом схоже с анкетной формой описания объекта. Некоторые авторы называют формализованное описание информации-числовым. Это не совсем точное определение, так как фамилия лица или название организации задается не числовым значением, но может быть представлено в формализованном виде.

Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), то есть язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами. Так например, если описаны два объекта: фирма и товар, то между ними устанавливается связь-отношение, указывающее, что эта фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа и на основе его создаются базы данных формализованной информации. Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:

•Позволяет источнику отбирать лишь ту информацию и описывать ее так, как это необходимо потребителю;

•Позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста данной предметной области;

•Позволяет в информационных системах по указанию потребителя производить автоматическую обработку формализованной информации.

•Существенно облегчает поиск необходимой информации в базах данных.

Другим видом информации о предметной области является информация, представленная в виде текста на естественном языке. Для того, чтобы понять, в какой степени информация на естественном языке, накапливаемая в информационных системах, подходит для удовлетворения информационных потребностей пользователя рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупности представлений и понятий. Представления- это чувственно наглядные образы объектов реального мира. Источником формирования представлений являются психологические процессы ощущения и восприятия а также информация, получаемая от других членов общества в процессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные представления о реальном мире, в них присутствует элемент общности, которой позволяет использовать представления в процессе общения.

Понятия образуются в результате логического осмысленияпредставлений об объектах реального мира и являются формойабстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов.Понятия более объективны и в большейстепени отражают коллективный опыт. Понятия и представления тесносвязаны друг с другом и являются формой отражения реальнойдействительности в мышлении.

Язык – это средство, с помощью которого люди передают друг другуинформацию о реальном мире. Словарные выражения являютсяматериальной формой понятий и представлений. Естественный языкявляется результатом длительного развития общества. Поскольку дляразличных слоев общества характерна разная степень общностипредставлений, возникла многозначность слов естественного языка: одно итоже слово приобретало множество различных значений и для одного итого же слова использовалось несколько словесных выражений. Такимобразом общим недостатком естественного языка с позиций оценкиэффективности поиска является избыточность и недостаточность.

Избыточность проявляется в следующем

1.Для передачи содержания текста активную роль играют тольконекоторые слова или словосочетания, так называемые ключевые слова.Другие можно отбросить практически без ущерба для понимания смысла.

2. В естественном языке используются синонимы, то есть словаразличающиеся по звучанию и написанию, но тождественные или близкиепо смыслу.

3. Неоднозначность выражения, то есть возможность выразить однуи туже мысль совами, не являющимися синонимами(уменьшениесопротивления –увеличение проводимости).

Недостаточность выражения на естественном языке проявляется вследующем.

1. Многозначность отдельных слов-омонемия, совпадение позвучанию и написанию разных по значению слов). Ключ (длядвери), ключ(источник).

2. Эллипсность естественного языка. Под эллипсностью понимаетсяпропуск в тексте подразумеваемых слов.

Если рассматривать процесс отражения объектов реального миратекстом на естественном языке, то можно выделить план содержания-смысл сообщения, то есть результат процесса мышления, и планвыражения- произвольный текст на естественном языке. Таким образомтексты на естественном языке, хранящиеся в информационных системах,находятся на уровне плана выражения и характеризуются всеминедостатками естественного языка, которые были отмечены выше. Следуетиметь ввиду, что выявленные недостатки следует рассматривать лишь спозиций эффективного поиска сообщений в информационных системах.

Причина неоднозначности выражений при рассмотрении под другим угломбудет отнесена к достоинствам естественного языка. Например,эллипсность.

Отметим, что потребитель информации, пользователь нуждается вполучении информации о предметной области в соответствии со своимипредставлениями об объектах, свойствах и отношениях в этой области.

Свой запрос он также формулирует на уровне плана выражения.Таким образом в самой информационной системе, содержащейтексты на естественном языке, мы имеем массив планов выраженияисточников на естественном языке, а на входе информационной системымы имеем множество запросов в виде планов выражения,сформулированных потребителями информации.

Для того, чтобы решить задачу поиска необходимой потребителюинформации необходимо смоделировать, представить - о каком фрагментепредметной области потребитель хочет получить информацию. Далеенеобходимо просмотреть хранящиеся документы – планы выражения,составленные источниками, и представить, смоделировать – что хотелсказать источник о предметной области и на основе научно обоснованнойметодики отобрать те из них, которые отвечают на поставленный вопросполностью или частично.

Многолетние работы в области теории построения документальныхинформационных систем, в области машинного перевода, проводимыепоследние пятьдесят лет в нашей стране и за рубежом показали, чтопроцесс выявления смысла из произвольного текста на естественном языкене подлежит автоматизации и может быть реализован лишь человеком,обладающим глубокими знаниями в данной предметной области.

Однако, общество нуждалось в построении документальныхинформационных систем в первую очередь в области научно-техническойинформации. Для того чтобы облегчить поиск в больших массивахтекстовой информации стали строить информационно-поисковые системы,в которых документы описывались с помощью специальных поисковыхязыков. С помощью элементов этого же языка описывались и запросы.

Для отбора документов в ответ на запрос осуществлялось сравнениепоисковых образов запросов и поисковых образов документов, котороепроводилось на одном и том же искусственном языке.

Такой подход является вынужденным. Из-за недостатковестественного языка, отмеченных выше, документальныеинформационные системы не дают ответа на вопрос потребителя, авыдают ему документы, в которых может содержаться ответ на его запрос,предоставляя потребителю самому выявить смысловое содержание этихдокументов. Вопросы оценки эффективности поиска информации вдокументальных информационных системах будут рассмотрены ниже.

Вопросы эффективности поиска информации вИнтернет и профессиональных базах

Одними из наиболее важных показателей эффективностиинформационных систем, содержащих текстовую информацию, являютсясемантические показатели. Семантические показатели основаны на оценкерелевантности между документами и запросами.

Релевантность – объективно существующее смысловое соответствиемежду содержанием документа и запроса. Объективность оценокрелевантности обеспечивается тем, что они устанавливаются экспертнымпутем, а не автором запроса.Семантическими показателями являются полнота выдачи (потериинформации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а – множество релевантных и выданных системой документов;

б - множество нерелевантных, но выданных системой документов;

в – множество релевантных, но не выданных системой документов;

Другой группой показателей оценки эффективности документальныхинформационных систем являются прагматические показатели. Этипоказатели можно определить только в процессе эксплуатацииинформационной системы.

Прагматические показатели определяют абоненты системы на базеоценок пертинентности выданных документов.

Пертинентность это субъективно оцениваемое соответствиесодержания документов или текстов информационным интересампотребителя. Пертинентность может оценить только автор запроса,работающий с информационной системой. Оценки пертинентности, какправило, отличаются от результатов, полученных на основе оценокрелевантности.

Рассмотрим вопросы оценки эффективности поиска впрофессиональных базах и информационных ресурсах Интернет.Анализ содержимого профессиональных баз за последние 15 летпоказывает неуклонный рост доли текстовой информации в общем объемеинформации в профессиональных базах. Если в 1985 году доля текстовойинформации составляла 47%, то в 2000 году эта доля составляла уже 84%.

Представляется, что основная информация в Интернет также являетсятекстовой. Эти обстоятельства позволяют сделать вывод о том, чтоподходы к оценке эффективности поиска в документальных системах вполной мере распространяются и на профессиональные базы и наинформационные ресурсы Интернет.

Рассмотрим специфику информационных ресурсов Интернет иимеющихся в среде Интернет поисковых средств, которые оказываютсущественное влияние на эффективность поиска в этой среде.

1. Основными поисковыми средствами в Интернет являются поисковыесистемы и каталоги.

Поисковые системы состоят из трех частей:

•Робот – программа, которая посещает Web –серверы, считывает ииндексирует полностью или частично их содержимое и далее следует поссылкам, найденным на сервере. Просмотры серверов осуществляютсяпериодически, например раз в месяц, раз в две недели.

•В поисковой системе хранятся индексные массивы и копии текстовпросмотренных страниц.

•Программа, которая в соответствии с запросом пользователяпросматривая индексные массивы отбирает и выдает потребителюнайденные документы.

В каталогах имеются иерархические тематические рубрики.Отнесение серверов к тем или иным рубрикам каталога осуществляетсячеловеком. Поиск информации в каталоге осуществляет пользовательвручную используя рубрики.

В связи с тем, что в средствах поиска в Интернет не используютсяинформационно-поисковые языки, на которых должны были бы описаныисходные документы и запросы, полнота поиска в Интернет с учетомописанных выше поисковых средств будет значительно ниже, чем вдокументальных системах, построенных на базе информационно-поисковых языков.

2. В 2000 году специалисты компаний AltaVista,IBM и Compagисследовали ресурсы и гиперсвязи существующего информационногопространства WWW. Просмотрев с помощью поисковых средствAltaVista свыше 600 млн. Web-страниц и 1,5 млрд. ссылок,размещенных на этих страницах, они пришли к выводу чтоисследуемое пространство состоит из следующих компонент:

•Центральное ядро это тесно связанные между собой Web-страницы, с каждой из которых можно попасть на любуюдругую (27%);

•Отправные страницы. В них могут быть ссылки, ведущие кядру, но из ядра к отправным страницам попасть нельзя (22%);

•Оконечные Web-страницы, к которым можно прийти поссылкам из ядра, но к ядру от них попасть нельзя (22%);

•Полностью изолированные от центрального ядра страницы(22%);

•Web-страницы, не пересекающиеся с остальными ресурсамиИнтернет (7%).

Исследования показали, что при увеличении общего объемаинформационных ресурсов Интернет, установленные отношениякомпонент остаются прежними. Проведенный анализ позволяет сделатьвывод о том, что информационное пространство Интернет являетсядостаточно сложным и неоднородным. К отдельным ресурсам Интернетпоисковые машины не имеют доступа.

3. У каждой поисковой машины свой процент индексированиядокументов и своя стратегия выбора-какие из ресурсов индексировать.

Анализ числа заиндексированных документов крупнейшимизарубежными поисковыми системами от общего числа документов вИнтернет, проведенный в 1999 году, показал, что долязаиндексированных документов у лидеров в этой области непревышает 30%. Следует отметить, что ежегодно значительноувеличивается число документов в Интернет, при этом доляпросмотренных и заиндексированных документов уменьшается..

4. Информационные ресурсы Интернет делятся на «видимую» и«невидимую» часть сайтов.

«Видимая» часть сайтов-это та часть, которая обрабатываетсяпоисковыми системами и индексируется. «Невидимая» часть – это та частьсайта, которая не предназначена для обработки поисковыми системами.

Американская фирма BrightPlanet разработала программное обеспечениепо исследованию «невидимой» части сайтов. Полученные результатыпоказывают, что число документов «невидимой» части более чем в 500 разпревышает число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Интернет ипоисковых средств позволяют сделать вывод о том, что эффективностьпоиска информации в Интернет существенно уступает эффективностипоиска информации в документальных информационно-поисковыхсистемах, использующих специальные информационно – поисковыеязыки, и эффективности поиска в профессиональных базах. Этиобстоятельства определяют те высокие требования к профессиональнойподготовке пользователя, которые необходимы для получения нужнойинформации из информационных ресурсов Интернет.Организация информации в профессиональных базах отличается оторганизации информации в Интернет в первую очередь тем, чтоинформация накапливается и постоянно обновляется в базах данных,которых в настоящее время свыше 13 тысяч. В каждой базе накапливаетсяспецифичная информация. Отбор достоверных источников и накоплениеинформации ведут информационные Агентства – генераторы. Они жеподдерживаю эти базы в актуальном состоянии, то есть обновляют.

Предоставление информации из баз потребителям осуществляютАгентства – поставщики. Потребителю предоставляется язык запроса идокументация, характеризующая базы данных. По каждой базе имеетсяназвание, отражающее вид информации, хранимой в базе, с какоговремени ведется база, объем накопленной информации, периодобновления, источники предоставления информации.

Указанные особенности обеспечивают высокие показатели подостоверности, полноте и точности предоставляемой информации.

Date: 2015-07-27; view: 311; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.006 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию