Номер 5(52) май 2014 | |
На пути к социологии Осипа Мандельштама: интегрум-анализ его упоминаемости и цитатности в российских СМИ[1]
Александру Смолянскому Новый виток в
гонке вооружений гуманитария Информационная система Integrum – это служба баз данных, состоящая из крупнейшей электронной коллекции русскоязычных документов и информационно-поисковой системы для их обработки. Это как бы гигантская библиотека, в которой все под рукой и всплывает как бы по первому требованию. Библиотека небесплатная. Получив или приобретя то или иное информационное пополнение, «Интегрум» обходится с ним далее как с товаром и ведет себя как комиссионный или букинистический он-лайн магазин, работающий от процентов. Поставщик информации получает свою долю только в том случае, если его информация была разыскана и приобретена пользователем. Вместе с тем сравнение немного хромает, если учесть, что приобретенный у «Интегрума» товар уже оцифрован, проиндексирован и встроен в определенный корпус отобранных текстов, то есть приведен «Интегрумом», так сказать, в товарный вид. На конец 2013 года в «Интегруме» имелось почти 8000 баз данных, сведенных в 37 тематических групп и состоящих из примерно 500 миллионов документов. Среди них – полные архивы тысяч СМИ, большинство из которых начинается в первой половине 1990-х гг. Базы «Интегрума» обновляются ежедневно, увеличиваюсь в среднем на два источника и на 40 тысяч документов в день. Общий объем документов уже превысил один терабайт (или 240 байт!). «Интегрум» располагает своего рода «дышащим» конкордансом, или словарём из 10 000 наиболее частотных слов русского языка со специальными обучающими функциями[2]. «Интегрум» имеет весьма совершенную многофункциональную информационно-поисковую систему «Артефакт», обеспечивающую эффективную навигацию в подопечном себе информационном пространстве. Это несравнимо более продвинутый инструментарий, чем, скажем, информационно-поисковые машины Интернета, вслепую шурующие в мировом океане информационного мусора. И, хотя поиск в Интернете – процедура трудоёмкая и испытание для терпения, итог поиска нередко неутешителен: гора ненужного – и кучка искомого, при этом без гарантии качества или хотя бы полноты добытой информации. Не дает Интернет и доступа в полнотекстовые архивы СМИ. «Интегрум» же, в отличие от Интернета, умеет прицеливаться, то есть ограничивать область изначального поиска, он работает не в безбрежном хаосе, а в хорошо структурированном и разгороженном пространстве сообщающихся друг с другом массивов и систем данных. Система «Артефакт» многофункциональна и располагает разветвлённым языком запросов со сложным синтаксисом, осуществляет поиск слов с запутанной морфологией и даже с опечатками, поиск дат и людей, сортировку результатов по разным критериям и т.п. Отсюда, кстати, ясно, что половина успеха при пользовании «Интегрумом» – это грамотно поставленный запрос. «Интегрум» позволяет строить гипотезы не на субъективной оценке нескольких случайно обнаруженных фактов, а на основе анализа колоссального русскоязычного материла. Так что применение «Интегрума» — это новый виток в «гонке вооружений» в сфере научной гуманитарной мысли. В считанные секунды на монитор выводится любой документ, отражающий всю палитру российских СМИ, в том числе материалы множества провинциальных изданий, знакомство с которыми без «Интегрума» было бы просто весьма затруднено, чтобы не сказать невозможно. При этом гарантируется «качество» каждого выхваченного по запросу документа – его аутентичность и репрезентативность, что не может не сказываться и на обоснованности выводов и качестве конечного научного результата. Осями, вокруг которых крутится «Интегрум», являются Россия и русский язык. Все его базы данных так или иначе связаны с ними, что делает его самой крупной на сегодня электронной коллекцией информации о России вообще. В целом Интегрум-анализ – инструмент широкого профиля. Он вполне мог бы явиться инструментом консенсусного закрепления неологизмов в живом словаре. Есть и обратная задача – проверка на вшивость существующего словаря, определение бездействующих слов, даже таких красивых, как слово «шерешь», которым гордился Николай Асеев и даже хвастался им. Изначально «Интегрум» не предназначался для академической науки, тем более для гуманитариев. Его адресатом были совсем другие пользователи – отчасти, компьютерно более продвинутые, но главное – более состоятельные, так как годовая лицензия на «Интегрум» удовольствие дорогое![3] В основном, из числа крупных компаний, банков и информационных агентств. Первопроходцами из гуманитариев стали филологи. Стремление «Интегрума» сохранять любой русскоязычный документ (и в этом «Интегрум» на «комиссионку» уже не похож) сулит им новые и дополнительные перспективы. Первые попытки применения «Интегрума» в филологии и в других гуманитарных областях все же напоминали стрельбу из пушки по воробьям: они были достаточно примитивны и сводились к поиску и анализу отдельных примеров, благо их нахождение с помощью «Интегрума» и даже подбор определенной совокупности с самого начала были не слишком трудным делом. Со временем «Интегрум» стал создавать все новые и новые инструменты для автоматической обработки полученных данных, в частности, специальные сервисы «Сравнительной и относительной упоминаемости (статистики)» и «Частотный словарь языка СМИ». С их помощью доступными стали фиксации первого упоминания исследуемого объекта в базах «Интегрума» или построения различных нормированных рядов опирающиеся на довольно сложные запросы и сделанные по ним расчеты. Рассчитываться могут, например, а) абсолютное количество документов, в которых объект встречается в каждой заданной временной точке, б) процентное отношение документов, в которых объект встречается, к общему количеству документов, которые содержатся в «Интегруме» в каждой заданной временной точке, в) процентное отношение документов, в которых объект встречается в одном контексте, к количеству документов, в которых он встречается в другом контексте, г) процентное отношение количества документов, в которых объект встречается в одном контексте, к количеству документов, в которых он встречается в любом контексте, д) процентное отношение количества документов, в которых упоминается один объект, к количеству документов, в которых упоминается другой объект и т.п. Появление этих и других сервисов, как бы специально «заточенных» под нужды аналитики (в том числе и социального или гуманитарного профиля) окончательно убедило учёных в целесообразности освоения и полезности практического применения Интегрум-анализа. Серьезным ограничителем, конечно же, является платность «Интегрума» как ресурса. Поэтому необходимость или предпочтительность использования «Интегрума» надо всякий раз серьезно и конкретно обосновывать. Тем не менее в настоящее время все большее количество университетов (иногда вскладчину) приобретает кампусные лицензии, в результате чего количество пользователей и ценителей «Интегрума» среди ученых-гуманитариев неизменно растет. Вместе с тем освоение «Интегрума» все еще затруднено тем, что способы применения его баз данных и инструментов систематически еще нигде не были описаны. Назрела необходимость не только в консолидации опыта ученых, активно пользующихся «Интегрумом», но и в создании своего рода «методички» по его применению, а главное – в определении границ его возможностей и места в ряду инструментов точного гуманитарного анализа. Иными словами - в выявлении и демонстрации тех типов научных задач, чьи решения стали возможными благодаря использованию «Интегрума». Мандельштам и интегрум-анализ:
социология Осипа Эмильевича Осип Мандельштам проложил одну из магистральных линий русской поэзии XX века и оказал колоссальное влияние на всю русскую литературу 2-й половины XX века. На интуитивном уровне поэзия Мандельштама обладает, - как бы в качестве побочного эффекта, - явно повышенной афористичностью и, как следствие, высокой цитируемостью (как явной, так и скрытой). Разумеется, это влияние отчетливо прослеживается в литературной сфере – прежде всего в творчестве многих десятков поэтов, среди которых как малоизвестные авторы, так и Нобелевские лауреаты. Но влияние Мандельштама на потомков к этому не сводится и этим не ограничивается. Многие строчки поэта, такие, например, как «Я вернулся в мой город, знакомый до слез…», «Мы живем, под собою не чуя страны...», «Сохрани мою речь навсегда…», «Пространством и временем полный…», подобно грибоедовскому «Горю от ума», уже давно уже «разошлись на цитаты» и вошли в широкий словарно-языковый обиход. Нас будут интересовать преимущественно случаи внелитературного употребления мандельштамовских текстов, особенности их усвоения в медиасфере, то есть в актуальной текущей журналистике, естественно-научной периодике и, возможно, в других словесных пластах. По возможности, будут учитываться как явные, так и скрытые цитаты, парафразы и коннотации, особенности их употребления внутри статей и статейных заголовках. Эмпирическим полигоном и одновременно идеальным инструментом, с помощью которого производился собственно анализ, был Integrum – система, которую без преувеличения можно уподобить расширяющейся информационной галактике. В биографии самой этой системы есть пересечения и с
событиями посмертной мандельштамианы. А именно: начало полноформатной
деятельности «Интегрума» пришлось на Собственно говоря, Мандельштам для «Интегрума» – нетрудный орешек, но авторитетного корпуса текстов Мандельштама до недавнего времени в него так и не было заведено. Уже говорилось, что интегрум-анализ особенно хорошо чувствует себя в социологии и политологии. Что ж, поговорим тогда о социологии Мандельштама. Упоминаемость Обратимся к его совокупной упоминаемости в постсоветской медиасфере[5]. А чтобы Мандельштаму не было скучно, подберем ему кампанию и, по возможности, неплохую: Ахматова, Бродский, Есенин, Маяковский, Пастернак, Цветаева и Ходасевич. Конечно, тут нет Блока, нет Белого – поэтов того же ряда, что и названные, но уж не взыщите слишком строго. Маленький методический нюанс. Практически у каждого поэта есть омонимическая нагрузка – однофамильцы, родственники, пароходы, кинофильмы и другие «источники информационных шумов», общее влияние которых на уровень частотности может быть весьма и весьма значительным. Интегрум позволяет выявлять и анализировать эту омонимическую компоненту с любой степенью дробности, но в этот нюанс мы не станем здесь углубляться. Важно подчеркнуть, что всякий раз мы оперируем множествами, о происхождении и структуре которых имеем ясное представление. Итак, ранговая последовательность тут такова: Таблица 1 Упоминаемость восьми русских поэтов в системообразующих
СМИ (1991-2012 гг.)*
* Учитывались: центральная и региональная пресса, ИТАР-ТАСС и РИА-Новости, интернет-издания, теле- и радиовещание. Условные обозначения: А.А. – А. Ахматова; И.Б. – И. Бродский; С.Е. – С. Есенин; О.М. – О. Мандельштам; В.М. – В. Маяковский; Б.П. – Б. Пастернак; В.Х. – В. Ходасевич; М.Ц. – М. Цветаева. Как видно из таблицы 1, популярность поэтов в системообразующих СМИ – вещь не слишком стабильная. Тем не менее просматривается следующее деление внутри этой восьмерки: выделяются явный «лидер» (Маяковский, оторвавшийся от остальных чуть ли не вдвое), шестерка «середняков» (Есенин, Бродский, Пастернак, Ахматова, Цветаева и Мандельштам) и явный «аутсайдер» – Ходасевич. Мандельштам, хотя и «закрепился» на предпоследнем месте, но по уровню показателей, совсем ненамного отстоит от остальных троих. Интересно, что в «середняках» оказались все четверо представителей той самой «квадриги» поэтов, что определяла читательские вкусы шестидесятников, – Пастернак, Ахматова, Цветаева и Мандельштам. Как интересно и то, что лишь одному из них – Пастернаку и только в первой половине 1990-х гг. – доводилось быть вторым по популярности в этом ряду, после него «вторым» некоторое время был Бродский, а в последнее время – Есенин. Интересно, что в 1992-1993 гг. семеро из восьми (исключением был, разумеется, Маяковский) были примерно равнопопулярны, но на довольно низком уровне. Затем все, кроме Ходасевича, несколько поднялись и внутри шестерки стали происходили упомянутые выше перестановки. Примечательно, что та же макроструктурность наблюдается и в тех случаях, когда мы расщепляем тестируемую медиасреду на составные части. Рис 1. Число публикаций по запросу относительно общего числа публикаций (%)*. 1А. 1991 – 2002 (по состоянию на 31 декабря) 1Б. 2003 – 2012 (по состоянию на 31 декабря) * Учитывались: центральная и региональная пресса, ИТАР-ТАСС и РИА-Новости, интернет-издания, теле- и радиовещание. Влияние юбилеев не слишком заметно – ни в 1991, ни в 1996,
ни в 2001 гг. Да и про A propos Ходасевич. Его стабильное последнее место в этом и только этом ряду – отнюдь не последнее в русской поэзии! Единственный поэт, все-таки совершивший очевидное восхождение,
- это Есенин: с 0, В целом траектории поэтов «коренной квадриги» Серебряного
века – Мандельштама, Пастернака, Ахматовой и Цветаевой – довольно близки друг к
другу: крутое падение в Разительнее всего сама крутизна падения цитируемости
Мандельштама - с 0, Как к этому относиться: как к «слава богу» или как «к сожалению»? На этот вопрос, слава богу, можно и не отвечать. Упоминаемость в
разных сегментах медиасферы Интересно сопоставить «вес» и его динамику для каждого из восьмерки поэтов в разных информационных пространствах[7]. При сравнении видно, что «траектории» для разных пространств отличаются очень сильно. Рис 2. Число публикаций по запросу относительно общего числа публикаций (%): Центральная пресса: 2004 – 2012 гг. (по состоянию на 31 декабря) Так, в сегменте центральной прессы (рис. 2) преимущество Маяковского еще безоговорочней, зато Есенин съезжает со 2-го на 4-е место, пропуская вперед Бродского и Пастернака. Мандельштам – все на том же стабильном 7-м месте, но его отставание здесь минимально. А вот в сегменте региональной прессы (рис. 3) Есенин дает бой Маяковскому и один раз даже настигает его. Третьей идет Ахматова, которую в 2012 году неожиданно догнала Цветаева. Мандельштам – все на том же стабильном 7-м месте. Рис 3. Число публикаций по запросу относительно общего числа публикаций (%): Региональная пресса: 2004 – 2012 гг. (по состоянию на 31 декабря) В сегменте радиоэфира (рис. 4) преимущество Маяковского не столь велико. Но при этом Есенин скатывается до 6-7-го мест, пропуская вперед не только Бродского и Пастернака, но и Ахматову (спорящую с Пастернаком за 3-е место) и Цветаеву. Мандельштам лишь в половине случаев – на 7-м месте, в остальных – на 6-м и даже на 5-м местах. Рис 4. Число публикаций по запросу относительно общего числа публикаций (%)*, Радиоэфир: 2004 – 2012 гг. (по состоянию на 31 декабря) В интернет-изданиях (рис. 5) Бродский и Есенин попеременно отнимают друг у друга 2-е место, а Мандельштам, начиная с 2005 года, – все на том же стабильном 7-м месте. Рис 5. Число публикаций по запросу относительно общего числа публикаций (%), Интернет-издания: 2004 – 2012 (по состоянию на 31 декабря) Любопытные результаты можно получить, если сегментировать еще мельче, например, по отдельным органам СМИ, в частности, газетам. Так, в «Коммерсанте-Daily» Маяковский доминирует, вторым, во главе плотной группы, идет Бродский, а с Мандельштамом за 7-е место иногда конкурирует даже Ходасевич. А в «Красной звезде» в трети дат идущий 2-м Есенин догоняет даже Маяковского. В «Литературной газете» Маяковский впереди, но никакого его доминирования нет; в отдельные годы в лидеры выбивались то Есенин, то Пастернак, то даже Ахматова! Мандельштам борется за 6-е место, но с непривычным соперником – с Бродским. Цитатность Цитатность – это встречаемость (частотность) отдельных цитат из того или иного автора. Анализ таблицы 2 говорит о сравнительно цитатности мандельштамовских стихов в медиасфере. Лишь немногие фразы или отдельные выражения выказывают относительную «конкурентоспособность» на этом интеллектуальном «рынке». Например: «Под собою не чуя страны…» или «кремлевский горец» из того же стихотворения, но при этом политическая лирика явно доминирует в этом внутримандельштамовском ряду (далее следуют «век-волкодав» и «руки брадобрея»). Иные, чисто художественные, цитаты, запомнившиеся современникам поэта, так и не вошли в медийное сознание (от силы 2-4 упоминания в год). Интересно, что этот вывод не распространим на других поэтов: лирические цитаты из Маяковского, Ахматовой и Пастернака оказались весьма и весьма популярными, то же наверняка можно сказать и о тютчевском «уме и аршине». Таблица 2 Встречаемость отдельных цитат из О.Мандельштама и др.
поэтов, раз (
*
Всего учитывалось ** Без имени Мандельштам в двух смежных предложениях. Один интересный методический момент. Большинство цитат неотрывны от своего автора и от его имени, но в некоторых случаях они существуют как бы и в отрыве от него. Так, около 1/3 упоминаний «под собою не чуя страны» и 1/4 «веков-волкодавов» встретились без того, чтобы имя Мандельштама всплыло в пространстве хотя бы двух фраз от места своего упоминания. За это время «кремлевский горец» был зафиксирован 533 раз в 231 публикациях. Больше всего таких публикаций – в «Московском комсомольце» (10), «Новом мире (9), «Новой газете» и «Октябре» (по 8), «Новом времени» и «Континенте» (по 6). А вот в «Красной звезде» ни одной броской цитаты из Мандельштама вообще не было. Максимальная цитируемость ахматовской строки – «Когда бы вы знали, из какого сора…» - примерно такая же: 13 («Российская газета»). А вот цитатный рейтинг тютчевского «Умом Россию не понять…» вчетверо выше (в том же «Московском комсомольце» - 40 раз)! Интересно, что такая, например, цитата, как «Мастерица виноватых взоров», пошла по рукам не только в отрыве от автора, не только в отрыве от правил цитатности (то есть без кавычек), но и в отрыве от адресата – Марии Петровых. Таких цитат несколько, и я приведу только одну: «Мастерица виноватых взоров и маленьких бытовых трагедий, Улицкая протащила контрабандой в свою классическую прозу совершенно психоделический кусок»[8] Но ведь кроме цитат есть еще и парафразы! Примечательна инструментализация и трансформируемость образа «Я вернулся в мой город, знакомый до слез…». Образ как таковой – довольно популярен, особенно в силу своей, как выясняется, универсальности и применимости к чему угодно, а не только к городу на Неве. Первой этим воспользовалась Алла Пугачева, однако не географически, а гендерно: первую строчку она переделала на свой, на девичий лад: «Я вернулась в мой город...» А так – к чему эти «знакомые слезы», кроме Ленинграда и Питера, только ни прилагались: и к Красногвардейску в Крыму, и к Красноярску, и даже к Парижу (причем в случае Собчака!). Забавная аберрация про Путина: именно этой строчкой называлась одна из заметок о его посещении одного города. И какого бы Вы подумали? – А вот и не угадали: Лейпцига!.. Цитатность в социальных
медиа (блогосфере)
Сравнительно
недавно «Интегрум» разработал инструментарий и для аналогичного сканирования и анализа
блогов, то есть социальных медиа. В настоящее время в социальных сетях ( «LiveJournal», «ВКонтакте», «Твиттер», «Facebook», «Google+», «Mail.ru» и других зарегистрировано около 29 миллионов блогов, многие
миллиарды записей!
Для
экспериментального зондажа блогосферы на предмет присутствия в ней цитат из Мандельштама, Пастернака,
Тютчева и Бродского[9] была
выбрана «гомеопатическая» недельная доза. Навскидку была взята неделя с 20 по
27 октября 2013 года, число экспертно предложенных цитат из каждого поэта было равно
5 (из Мандельштама – 6, но 2 из одного и того же стихотворения).
Неожиданно
в лидерах оказался Мандельштам. Встречаемость цитат из нега составила 3888, из
них 95,2 % пришлось на словосочетание «Век-волкодав», а еще 3,4 % – на «Под
собою не чуя страны». Третьим идет «Я вернулся в мой город…» (0,7 %). Из
социальных сетей доминирует «В контакте» - 99,3 %, у идущего вторым «Твиттера»
– всего 0,5 %. Среди отдельных блоггеров по частоте цитирования Мандельштама на
указанной неделе лидировали Александр Алехин и Юлия Земляникина –
соответственно, 20 и 10 раз.
Цитаты
из Тютчева встречались на неделе 1396 раз, чаще всего – «Умом Россию не
понять…» (64, 6 %) и «Мысль изреченная есть ложь…» (19,2 %). А цитаты из
Пастернака и Бродского – на порядок реже: соответственно, 402 и 212 раз. У
Пастернака в лидерах «Свеча горела на столе…», у Бродского - «Ниоткуда с
любовью…». У всех лидируют «В контакте» и «Твиттер», но в случае Пастернака
доля «Твиттера» достигала 26,8 %.
Возможность
пролистать навскидку конкретные случаи убеждают в том, что довольно часты
цитаты-пересмешники, иногда очень смешные. Например, «Умом Россию не понять, а
другими местами очень больно». Или: «Лежало сало, на столе, лежало сало…» Полученные для блогосферы результаты интегрум-анализа представляются тем более интересными, что и сама виртуальность становится в целом все более и более привычной «средой обитания» для Мандельштама.
Примечания
[1] Эта статья написана на основе расчетов, выполненных А. Смолянским. [2] См.: Integrum: точные методы и гуманитарные науки / Ред.-сост. Г. Никипорец-Такигава. Вступ. сл.: В. В. Иванов. Предисл. А.Я. Шайкевич. М.: Летний сад, 2006. 430 с. [3] Впрочем, любой может при необходимости приобрести кусочек «Интегрума» on line на ограниченную сумму. [4] Интегрум стал реально работать на рынке с 1995 г. Архивов по периоду до 1993 г. очень мало, а архивы за 1990 и 1991 гг. есть лишь по единичным изданиям. Поэтому качество данных за этот период уступает более поздним датам. [5] В данном случае учитывались только центральная и региональная периодика, а также теле- и радиопередачи.
[6]
Хорошие показатели
Есенина в 2005 г., вероятно, связаны с выходом сериала «Есенин».
[7] Здесь мы ограничились лишь последними
девятью годами (2004-2012 гг.). [8] «Казус», который снял Юрий Грымов // Тихоокеанская звезда. Хабаровск. 2005. 2 декабря). [9] Наше исследование, по свидетельству А. Смолянского, является вообще первым зондажом такого рода. |
|
|||
|