Любовь к словам, или Что такое Национальный корпус

Национальный корпус русского языка: 2003 - 2005. Результаты и перспективы. М.: Индрик, 2005.

Только несколько лет назад, очередной раз переезжая с квартиры на квартиру, я наконец решилась снести на помойку то, над чем трудилась примерно восемь лет, - картотеку. Со второго курса МГУ и до самой защиты кандидатской диссертации из всех попадавших мне в руки текстов я выписывала примеры на те слова, о которых писала сначала курсовые, потом диплом, потом диссертацию. За карточками примерно раз в год ездила в так называемый коллектор технических библиотек, на проспекте Вернадского. В третьей главе диссертации (открылась в "Ворде", как ни странно, - не зря, значит, я в начале 90-х мучительно осваивала текстовый редактор "Лексикон") сказано, что в работе проанализировано 1267 примеров. Из них триста приходится на слово ах и один - на слово ау.

Вообще-то мне нравилось это занятие. Поиск слов сродни охоте, поймал - записал на карточку. Количество картотечных ящиков радует глаз, перебирать примеры приятно, каждый родной. Кто любит словари, это чувство поймет. Ты в хорошей компании, наконец. Даль, как известно, - в телеге по бескрайним снежным равнинам. Пнин в библиотеке, уносящий картотечный ящик, точно огромный орех. Зализняк - ему мама помогала (мне так родители рассказывали в детстве, а вообще-то это прямо сказано в предисловии к Грамматическому словарю).

Значит, вот так, дорогие дети, каторжный труд. Карточки. Печатная машинка, копирка. Примеры из других языков вписываются от руки. А что теперь? А теперь мы открываем сайт Национального корпуса русского языка - ruscorpora.ru. Вводим в строке поиска слово ау, получаем 296 контекстов. Вот третий, между прочим: В итоге простое " ау!" оказывается действеннее мобильного чуда техники (Евгения Дылева. "Ау!" помогает быстрей, чем мобильник // "Петербургский Час пик", 2003.09.17). Ну, не знаю, для кого как. Мы не жалуемся на чудеса техники. Мы их любим. Из 296, однако, похоже, около половины "шума" - ау, да не те. Например: Как и любая аэродинамическая труба, АУ включает в себя источник потока... И так далее. Извините, это оставьте себе. Возвращаемся обратно, на страницу поиска, и задаем подкорпус: "Только тексты со снятой грамматической омонимией". Это значит, что мы будем искать не во всем Национальном корпусе русского языка, а только в той его части (1625 документов), где вручную различены омонимы, то есть слова и формы, которые совпадают по внешнему виду: сел о , допустим, которое деревня, и с ело - то есть чудовище от изумленья село. Теперь придется объяснить, какое ау нам нужно. Открываем окно "грамматические признаки" и ставим галочку около междометий. Искать. Три примера! Что-то маловато. Потому что корпус со снятой омонимией пока невелик. Его нужно обрабатывать вручную, помечать каждое слово, а на это нужны люди (люди есть) и, соответственно, деньги (тоже иногда есть, но немного). Придется, значит, самой отбирать ау от АУ и прочих неприятностей; просмотр 296 контекстов займет, по опыту, минут тридцать. Чтобы поставить точку на своей юности, надо все-таки проверить и ах. Корпус со снятой омонимией уже задан, так что начнем с него. 522 примера. На диссертацию хватит. Убираю галочку напротив снятой омонимии, ищем по всему корпусу. 10 000 примеров. Посматриваю наугад несколько страниц - между прочим, шума никакого нет вообще. То есть все 10 000, похоже, наши. Не совпадает, значит, ни с чем слово ах в русском языке, одно такое. Будущему диссертанту можно только посочувствовать.

Не все, вероятно, такие любители междометий, да и я, увы, уже охладела. На что еще может пригодиться наша игрушка?

Допустим, нас заинтересовала история употребления слова круто. "Но крутой, крутой продюсер, / На тебя видать запал. / И жюри сказало "КРУТО, / Круто ты попал". Давно оно такое? И как дошло до такой жизни? Поиск по всему корпусу даст вперемешку контексты 19-го и 20-го века, отрывки из "ЖЖ" и рассказ о восхождении на Эверест. Значит, надо опять задавать подкорпус. Сортировать тексты мы можем как угодно: выбрать нужные года, нужных авторов, типы текстов (публицистика, скажем, или деловая речь), жанры художественной литературы и даже пол автора (мужской или женский в смысле). Мы ограничимся просмотром по периодам времени. Задаем период 1800-1900 годы (18-го века в Корпусе пока нет). Употребляется так. Во-первых, Круто поднималась в гору прямо к господскому дому и круто повернул лошадей у самого крыльца. Так мы тоже умеем. Он почувствовал необходимость круто поворотить свою жизнь ("Путешествие в Арзрум"). Тоже можно - если заменить поворотить на повернуть. Так я бы не сказала, но в принципе не исключено: Петр, шагнувший было вслед за матерью, круто остановился (Короленко). А вот так, пожалуй, уже не скажешь: "Врешь, врешь", - круто перебила жена (Григорович). Значит, в прямом смысле - под острым углом (причем в горизонтальном измерении даже чаще, чем в вертикальном), а в переносном - резко, энергично. Задаем новый подкорпус: 1900-1950. У дачных ворот круто остановился изящный автомобиль - это "Гранатовый браслет". Круто изменился за четыре недели болезни Лев Николаевич (К.В. "Л.Н. Толстой и дети", 1908) - изменился то есть резко, сильно. Пока никакой положительной оценки ( мерседес - это круто) у слова нет. Посмотрим вторую половину 20-го века - возьмем так: с 1950-го по 1990-й. Как только доярки стали скармливать кукурузный силос, надои круто пошли в гору (Л. Егоров. "Обязательство коллектива совхоза "Большевик" // "Северный колхозник", 1958.12.18). Это радует сердце, но ничего нового. А вот пример конца 80-х: В ответ на ее деловое предложение он легко и просто выдвинул предложение встречное: - Сто - круто. Пятьдесят. Катя отошла с видом оскорбленного девичьего достоинства. - Пятьдесят пять! - крикнул он ей вдогонку (Аркадий Инин. "Жрица любви", 1987). Это уже близко к тому, что мы ищем: первый попавшийся нам пример, где круто является сказуемым, а не обстоятельством. Похоже, наше "Круто!" возникает в восьмидесятых; чего в нем еще нет - это положительной оценки. Можно попробовать отследить точнее. Задаем пять лет: 1980-1985. Здесь всего 53 примера, ничего похожего не находим. Итак, все-таки конец восьмидесятых - время, когда слово круто начинает приобретать популярное сейчас употребление. Примерно до 1997-го года интересующих нас контекстов еще совсем немного; а вот с 1997-го происходит взрыв. Например: А в "Британском доме" теперь продают "ароматы для постельного и нательного белья". Наш корреспондент заверил, что это круто и что из ароматов особенно хороша "Дикая орхидея" (Екатерина Бабенко. Дорогая моя столица // "Столица", 1997.03.04). Итак, нашему современному круто! приблизительно двадцать лет от роду (год рождения - примерно 1987-й), и десять лет (с 1997-го) оно открывает все замки, используясь как одна из самых частотных оценочных фраз. Во всяком случае, так обстоит дело в письменной речи. Стоило бы, конечно, посмотреть еще, как изменялось прилагательное крутой, но оставим это на будущее.

Итак, Национальный корпус русского языка - это очень большое количество русских текстов (сейчас он содержит более 120 млн. словоупотреблений), обработанных так, чтобы можно было осуществлять по этим текстам весьма изощренный поиск.

Например, вы можете попросить выдать вам все примеры употребления творительного падежа единственного числа, какие только есть в этих текстах, или получить все примеры страдательных причастий прошедшего времени в полной форме. Можно задать форму какого-то конкретного слова (скажем, все примеры прошедшего времени от глагола найти). Можно получить конструкцию. На днях мне пришлось доказывать, что умереть от смеха ничуть не менее законное выражение, чем умереть со смеху (методисты предлагали считать первое стилистической ошибкой). Так вот, в корпусе есть возможность задавать конструкцию из нескольких слов: умереть (причем вы получите это слово во всех формах) + со + смех или умереть + от + смех. Количество полученных контекстов оказалось примерно одинаковым, и авторы равно уважаемые. Что и требовалось доказать.

Очень важно, что тексты, имеющиеся в корпусе, можно сортировать: то есть вы имеете возможность получить примеры не из всех текстов, а только из тех, которые вас интересуют. Например, ограничить корпус тем или иным периодом времени (вплоть до конкретного года), определенным типом текстов - скажем, только нехудожественными текстами на тему спорта; ограничиться автобиографиями, проповедями или рекламными текстами или просто выбрать одного или нескольких авторов. Конечно, не все из этих разновидностей текстов представлены в Корпусе в действительно большом количестве; однако наличие всех возможных жанров, стилей и тем - это принципиальная установка составителей Корпуса, поэтому он постоянно пополняется и, можно надеяться, сумеет когда-нибудь удовлетворить даже самые изысканные нужды.

Это бесплатный, открытый для всех сайт, который начал действовать три года назад, благодаря деятельности группы лингвистов из Института русского языка РАН, поддержанной компанией "Яндекс". Национальные корпуса уже существуют для большинства крупных языков мира; образцом считается Британский. Наш молодой, но развивается очень активно. В нем регулярно появляются новые тексты, новые опции и новые типы языковых материалов. Недавно в корпусе появились устные тексты - записи бытовых разговоров и радио- и телепередач.

Для лингвистов этот ресурс неоценим. Прежде всего, потому, что он ускоряет процесс сбора материала в десятки раз. И благодаря этому открываются совершенно новые возможности. Например, можно за очень короткое время проделать небольшое исследование того, как изменилось употребление того или иного слова или когда оно возникло. Скажем, с 1800 до 1950 года нет ни одного употребления слова элита. Оно появляется в конце 1960-х - в начале 1970-х годов; в письмах из заключения Юлия Даниэля это слово уже присутствует. Конечно, однозначно установить, в каком тексте впервые появилось то или иное слово или выражение, вам не удастся, ведь Корпус - это не все русские тексты, а все-таки только часть, хотя и очень представительная.

Корпус очень полезен для преподавания русского языка. По нему удобно составлять разного рода упражнения и задания. Работая с ним, легко увидеть, что происходит с языком сейчас. Словари, например, расставляют около слов и форм разного рода стилистические пометы - разговорное, устаревшее, просторечное. Расставляются они в основном исходя из интуиции исследователя, а Корпус позволяет проверить и статистически установить, для текстов какого типа характерно это слово или конструкция.

Корпус сразу, как только открылся, стал любим иностранцами; они оценили появление русского Корпуса быстрее, чем мы, потому что приучены работать с корпусами. На семинаре, посвященном Национальному корпусу русского языка и гуманитарному образованию, который прошел в начале апреля в Высшей школе экономики, присутствовала аспирантка из Италии. Она объясняла, что у них в университете был специальный курс, посвященный тому, как работать с языковыми корпусами.

А вот знакомый немец, приехавший осенью учить русский язык, как раз пытался купить карточки - незнакомые слова хотел учить. Нету в Москве больше карточек, не продаются.

       
Print version Распечатать