Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Общий статистический анализ текста
Любой частотный анализ начинается с общих количественных характеристик. Поэтому и мы сначала проведем и представим общие количественные распределения слов в тексте. Количество слов, которое содержит анализируемый нами текст, равно примерно 40 000. Но каждое слово может употребляться в тексте от 1 раза и больше.
Здесь можно выделить две группы слов: одинаковые слова по смыслу и по написанию и слова одинаковые по содержанию, но имеющие свои словоформы и производные. И тех и других из 40 000 набирается 9500 слов. После того, как словоформы были сгруппированы по общему для них признаку получилось 2600 слов.
Поскольку основания для группировок всегда в кокой-то степени субъективны, (так же как в какой-то степени и объективны), количество оригинальных слов не может быть абсолютно точным. Но колебания в 5-10% в принципе не меняет общей картины и может быть приемлемо для статистического анализа.
Таким образом мы с полным основанием можем оперировать в дальнейшем анализе цифрой в 2600 слов. Это то общее количество оригинальных слов, включая словоформы, которые использовали авторы посланий. Мы сейчас не имеем возможности говорить много это или мало, поскольку в данном случае, для этого нет никаких сравнительных материалов.
Но в научной литературе отмечают, что среднее количество слов современного образованного человека составляет примерно 3000 слов. Может быть и так, но в любом случае это число всех слов: от обыденного повседневного языка до профессионального словаря. По всей видимости данного количества слов в принципе достаточно для решения не только повседневных, но и разнообразных профессиональных задач. Тем более, что узкопрофессиональный словарь, как правило, бывает не большим по количеству слов. Авторы посланий пользовались в основном профессиональным словарем.
Но для нас больший интерес представляет структура текста, которая определяется составом оригинальных слов, т.е. примерно 2600 слов для нашего текста. Структура текста, в свою очередь, содержит разные блоки слов, и соответственно, выполняющих разнообразные функции. Можно выделить в самом общем виде четыре блока: слова-доминанты, ключевые слова, обслуживающие слова и слова, выполняющие роль связки слов.
Мы начнем анализ с последнего блока – со слов-связок. В разных текстах их может быть больше или меньше, но всегда ограниченное количество. Это происходит в силу того и только того, что функции их весьма ограниченные - осуществление смысловой связи отдельных слов и предложений или частей предложений в тексте.
В данном тексте слов-связок немного, всего 51, но вот их общее количество употреблений довольно большое, примерно – 3500 раз. Другими словами, 51 слово было использовано в тексте три с половиной тысячи раз, что составляет около 30% от общего количества оригинальных слов со словоформами, (9500), или 8,9% от общего числа слов, (40 000). Ниже приводится таблица общей численности слов-связок и частоты их употребления в тексте.[119]
Как видно из таблицы, чаще всего употребляется частицы: «эта», «это» – 600; отрицание «не», «нет», «ни» - 498; «для» - 229; «за» - 146 и др. Всего восемь слов, (частота употреблений до ста), использовались - 1961 раз или 56%. Можно предположить, что и в других текстах, (скорее всего во всех текстах), они употребляются так же часто, поскольку являются, в силу разных причин, самыми расхожими словами-связками.[120]
Каждое из этих (и других) слов-связок и их производных выполняет, как правило, одну устойчивую функцию: «это» – указание на что-то, («это было не эффективно»); «не», «ни», «нет» - отрицание чего-либо, («у нас нет другого выхода»); «для» - принадлежность чему-либо, («для принятия решения»); «по» - по направлению, («по порядку»); «за» - за чем-то, («за неимением иного»); «только» - ограничение, («и только от нас зависит»), «из» - извлечение, («некоторые из приоритетов»); «от» - отказ, отделение, точка отсчета и пр. («это от нас не уйдет»).
Имеет смысл выделить в отдельный блок обслуживающие слова из группы местоимений. Это особые слова, и выполнять они могут разные функции, чаще всего роль слов-связок. Нередко местоимения, например, «я», «мы», «они» и пр. становятся доминантами или ключевыми словами. Но чаще всего они выполняют функцию связки слов в блоке вспомогательных или основных слов-признаков. Более четкое их разделение или точнее определение содержание по функциям зависит уже от поставленной задачи.
Как видно из приведенной выше таблице всего таких слов набирается 31 с общим количеством использований – 1259 слов. Это составляет от общего количества слов – 14,8%. Чаще всего употребляется слово «мы» - 218 раз, и слово «их» - 105 раз. Множественное число употребляется намного чаще - 899 раз и 360 раз единственное число. Слово «я» употребляется 76 раз. Мы сейчас не даем никакой содержательной оценки, а только определяем группы слов, как оригинальные структурные элементы текста.
Следующий блок – это слова, которые в тексте употребляются чаще всего, минимум 10 раз. Всего их набирается 233 слов. Фактически это те слова, которые составляют основной словарный состав данного текста. Они и содержат наибольшее количество употреблений – 6455, (включая и некоторые важные словоформы). Среди них много обслуживающих и ключевых слов, но об этом мы поговорим ниже.
В повседневной жизни и профессиональной занятости, при решении частных задач, каждый из нас пользуется не всем запасом слов, а их ограниченном количеством. В литературе пишут 300-500 слов, при решении простых задачи и больше, если задачи сложные. Словарь индивидуального пользования вполне укладывается в некую усредненную норму.
Но вот только 14 слов используются от 100 и выше раз, и в общей численности они набирают 2103 применения. Чаще всего использовались такие слова как: Россия – 296; государство – 252; экономика – 222; должны – 218; год – 149; нужно -140; власть – 135; граждан - 121; страна – 120; политика – 120; работа – 120; фактически – 107; сегодня - 103; будем -101. То, что эти слова набрали самое большое число употреблений может свидетельствовать, но только свидетельствовать, о том, что они выступают основными, ключевыми и может быть даже смысловыми словами. Но это можно однозначно определить только в контексте.
То, что слово Россия используется чаще всего – 296 раз, еще не говорит о том, что оно является ключевым, так же как, например, и слово государство, которое так же использовалось довольно много - 252 раза. В равной степени это относится и к другим словам, набравших большое число использований. Но то, что эти и другие слова применяются часто, уже говорит о том, что они могут быть значимыми.
И еще один блок, слова которого используются так же часто - от 99 до 50 раз. Таких слов набирается – 20, и использовали их 1430 раз. Вот эти слова: решать – 93; система – 91; задача – 88; люди - 81; развитие – 81; правительство – 73; более – 70; жизнь - 70; мир – 70; социальное – 68; проблемы – 67; рынок – 66; рост – 63; хотел – 62; органами – 60; является – 57; всего – 56; надо – 56; права – 55; обеспечение – 52; условия – 51.
Данный ряд слов так же без сомнения можно отнести к разряду ключевых, основных и возможно смысловых. Все-таки частота использования определяется и таким важным фактором как его важность, значимость в тексте. Правда, еще раз отметим, их значение и роль в тексте можно определить только исходя из контекста употребления.
Визуально видно, что эти два ряда частотного распределения слов отличаются друг от друга. Если в первом частотном блоке используются, так скажем, глобальные слова, или, точнее, наиболее общие понятия, применительно к задачам данного текста, то во втором частотном ряду, используются понятия уже ниже рангом, меньшей общности, во всяком случае, так нам представляется.
В первом ряду используются такие общие понятия как: Россия, государство, власть, экономика, политика, граждане, страна, работа. Во втором частотном ряду: система, задачи, люди, развитие, правительство, жизнь, рынок, социальное, органы, права. Можно не соглашаться с предложенным разделением этих групп слов по уровню понятийной общности, но что таковое понятийное разделение всегда присутствует в текстах, вряд ли требует доказательства.
Разница или общность данных частотных блоков можно продемонстрировать более точно, если вычислить средневзвешенный коэффициент.[121] Как и ожидалось первый блок, получил больший коэффициент - 5,29; второй – 4,80. Это означает, что первый блок по значимости оказывается выше второго блока. Но в данном случае значимость показателя определялась, как мы уже говорили, только частотой их использования в тексте. Но можно предположить: как выстраивали авторы данного текста значимость этих блоков, так оно и получилось.
Но если мы придадим весовое значение показателя не по количеству употребления, а по весовому значению самого показателя, (предложенный исследователем), то разница может быть несколько иной. У нас получилось 4,78 и 4,46. В первом случае по критерию частоты использования слов первая группа оказалась более весомее чем вторая, (разница 0,49 балла). По второму критерию,(весовой коэффициент показателя), первая группа, хотя и сохранила свое весовое преимущество, но уже не намного, по сравнению со второй группой (разница - 0,30).
Понятно, что субъективный показатель весового значения, приписываемый исследователем, весьма уязвим для критики, но при определенных ситуациях его вполне успешно можно использовать. Другими словами, его можно использовать с большой уверенностью тогда, когда показатели и их весовые значения получили одобрение в некой конвенциальной группе, например, со стороны участников данного исследования или какой-либо экспертной группы.
При строгом научном подходе обычно так и делается, который безусловно обеспечивает с большой долей вероятности, что полученные данные имеют объективное звучание, в обязательном порядке для решения поставленной задачи. Но только для данной задачи, вне которой любые результаты исследования теряют всякий смысл. Потому он и называется «смысл», что имеет всегда конкретное выражение.
Можно провести анализ слов, которые употребляются от 49 до 25 раз. Таких слов уже набирается 40 и используются они 1453 раза. В среднем каждое слово использовалось 36 раз. Но и по важности, с нашей точки зрения, их можно отнести к третьему ряду, но не все. Из общего числа (40), 32 слова можно отнести к обслуживающим, например, уважаемые, здесь, часто, необходимо и пр. Но 9 слов можно отнести к весьма важным, с нашей точки зрения, словам: закон - 48; региональный - 47; качество - 41; общество - 40; образование - 38; население – 32; организации - 26; человек - 26; доход - 25. Так же как и в списке 20-ти последних слов, которые использовались в тексте по 10 раз, имеются слова, которые, с нашей точки зрения, являются весьма важными, например: финансовые – 10, президент – 10, конституция – 10, партии – 10, институты – 10.
В целом среди 233-х наиболее употребительных слов, только 67 являются, с нашей торчки зрения, значимыми, исходя из некоторого наиболее общего контекста. Эти слова и в самом деле использовались больше всего - 3258 раз, что составило ровно половину 50,4% от числа всех слов, набравших более десяти использования. В среднем каждое слово использовалось 49 раз.
По всей видимости и в самом деле частота использования того или иного слова имеет хорошую связь со его текстовой значимостью. Если не мудрствовать лукаво над текстом и не прятать какие-либо тайные мысли, то частотное распределения слов-понятий может отражать смысл текста, или хотя бы его границы. Но, в зависимости от поставленных задач, частотное наполнение даже значимых слов может и не отражать, во всяком случае в полном объеме, смысл текста. И это всегда надо иметь ввиду.
Date: 2015-12-12; view: 582; Нарушение авторских прав |