Национальный корпус русского языка

Информационная поддержка и развитие Национального корпуса русского языка как инструмента лингвистических исследований это прежде всего работы по развитию самого информационного продукта Национальный корпус русского языка НКРЯ. словоупотреблений; акцентологический корпус разметка которого отражает реализацию сложной системы русского ударения в реальных звучащих текстах увеличен до 12 млн. Совокупный объем доступных для поиска параллельных корпусов англорусского немецкорусского украинскорусского и польскорусского превысил 33 млн.

2015-07-14

18.4 KB

15 чел.


Поделитесь работой в социальных сетях

Если эта работа Вам не подошла внизу страницы есть список похожих работ. Так же Вы можете воспользоваться кнопкой поиск


Национальный корпус русского языка.

1. Краткое описание разработки.

Информационная поддержка и развитие Национального корпуса русского языка как инструмента лингвистических исследований — это, прежде всего работы по развитию самого информационного продукта «Национальный корпус русского языка» (НКРЯ). Осуществлено системное пополнение всех корпусов (современных и исторических) в составе НКРЯ, совершенствование аннотации и системы выдачи данных. Значительно увеличен объем основного корпуса письменных текстов (на 20 млн. словоупотреблений). Объем устного корпуса в настоящее время превысил 10 млн. словоупотреблений; акцентологический корпус, разметка которого отражает реализацию сложной системы русского ударения в реальных звучащих текстах, увеличен до 12 млн. Активно развиваются новые модули в составе НКРЯ. Объем Мультимедийного корпуса достиг 3,5 млн. слов, по величине, разнообразию материала и богатству разметки он не имеет аналогов среди открытых мультимедийных корпусов. Совокупный объем доступных для поиска параллельных корпусов (англо-русского, немецко-русского, украинско-русского и польско-русского) превысил 33 млн. словоупотреблений.

Параллельные корпуса с участием белорусского и украинского языков стали фактически крупнейшими публично доступными корпусными ресурсами для этих языков, содержащими многие культурно значимые тексты. Составлены и подготовлены к размещению в Интернете новые параллельные корпуса — итальянский, испанский, армянский и латышский.

Впервые для русского языка создан и открыт для доступа модуль исторических корпусов, в состав которого вошли корпус древнерусских текстов (около 500 тыс. словоупотреблений), корпус русских текстов XIV-XVII веков (около 1,5 млн. словоупотреблений), а также корпус церковнославянских текстов (4,7 млн. словоупотреблений). Таким образом, НКРЯ представляет русский язык на протяжении его тысячелетней истории — с XI по XXI в. На основе развивающихся корпусов продолжена разработка электронных грамматических словарей и пополнение справочной системы по русской грамматике. В настоящее время объем корпусов, доступных на сайте ruscorpora.ru, составляет около 470 млн. словоупотреблений.

2. Преимущества разработки и сравнение с аналогами.

Объем Мультимедийного подкорпуса (3,5 млн. слов), Акцентологический подкорпус русского языка, поэтический подкорпус русского языка, объем параллельных подкорпусов (англо-русского, немецко-русского, украинско-русского и польско-русского) более 33 млн. словоупотреблений.

3. Области коммерческого использования разработки.

Разработку можно использовать при обучении российских и иностранных учащихся русскому языку

4. Форма внедрения разработки.

Создание образовательных программ по русскому языку для граждан России, СНГ и иностранцев.

5. Форма защиты интеллектуальной собственности.

Свидетельства о государственной регистрации базы данных:

  •  База данных метрической разметки поэтического корпуса НКРЯ (свидетельство № 2009620187);
  •  База данных параллельных корпусов НКРЯ (свидетельство № 2009620186);
  •  Лексико-морфологическая база данных НКРЯ (свидетельство № 2009620184);
  •  База данных метатекстовой разметки НКРЯ (свидетельство № 2009620185);
  •  База данных семантической разметки КРЯЛ (свидетельство № 2009620188).

Разработчик – ФГБУН ИРЯ РАН.



 

Другие похожие работы, которые могут вас заинтересовать.
12168. Осетинский национальный корпус 18.22 KB
  Осетинский национальный корпус представляет собой специальным образом обработанный массив текстов на осетинском литературном языке объем 7 млн. В корпус вошли произведения современной осетинской художественной литературы: литературный журнал Мах дуг за 2001–-2008 гг. Все тексты вошедшие в корпус имеют автоматическую разметку грамматические категории и полексемный перевод на русском и английском языках.
113. Фразеология русского языка 7.62 KB
  Фразеологизмы – это устойчивые словосочетания используемые для построения речевых высказываний воспроизводимые в готовом виде единицы языка обладающие постоянным и независимым от контекста значением. В отличие от свободных словосочетаний элементы которых поразному комбинируются в их составе читать книгу журнал газету фразеологизмы обладают неизменяемым набором компонентов и устойчивым значением всего выражения. Лексическим значением фразеологический оборот обладает в целом. 7 Наличие компонента с устаревшим индивидуальным значением...
108. Диалектная лексика русского языка 7.01 KB
  Диалектная лексика русского языка. Диалект (греч. dialektos – говор) – территориальная разновидность языка, свойственная жителям той или иной местности. Диалекты являются первичной, древнейшей и основной формой существования любого языка.
109. Специальная лексика русского языка 7.03 KB
  Профессионализмы – слова и обороты свойственные людям как правило одной профессии и являющиеся в отличие от терминов полуофициальными названиями понятий данной профессии взлет лежка для охотников. Профессиональные жаргонизмы – неофициальные обозначения понятий специального и неспециального характера бытующие в разговорной речи представителей той или иной профессии у химиков – солянка у журналистов – шапка чердак подвал гвоздь у летчиков – брюхо божья коровка у спортсменов – горчичник блин гасить бревнистка.
7875. Фонетическая система русского языка 101.66 KB
  При образовании мягких согласных к основному звукообразующему движению прибавляется сопутствующее ему дополнительное движение органов речи: средняя часть спинки языка поднимается вверх к твердому нёбу, как при звуке
3189. Морфологические нормы русского языка 14.64 KB
  Морфологические нормы русского языка Понятие о морфологических нормах. Морфологические нормы имен существительных. Морфологические нормы имен прилагательных. Морфологические нормы имен числительных.
13402. Структурные компоненты уроков русского языка 8.99 KB
  Задача: подготовка учащихся к работе. Содержание: приветствие проверка готовности учащихся к уроку организация внимания учащихся постановка общей цели урока что нового узнают на уроке чему научиться и т. Выявление типичных недостатков в знаниях учащихся и причин их появления определение способов их устранения. Устный опрос учащихся.
111. Активная и пассивная лексика русского языка 8.47 KB
  Словарный состав языка конкретной эпохи – неподвижное постоянство остающееся от прежнего времени с некоторыми обновлениями. Активная лексика языка – центральная часть лексики актуальная для современных носителей языкового слова. В состав пассивной лексики входят слова редко употребляемые в повседневном общении и не всегда понятные носителям языка. В ее состав входят устаревшие и новые слова.
11650. ИСПОЛЬЗОВАНИЕ ИГРОВЫХ ТЕХНОЛОГИЙ НА УРОКАХ РУССКОГО ЯЗЫКА 43.95 KB
  Новизна исследования: несмотря на то что историю игровых технологий рассматривали не одно тысячелетие все же эта проблема остается актуальна так как в начальных классах использование игры является основным условием проведения уроков. В ситуации игры воображение школьника получает широкий простор и проявляется в наиболее ярких красочных формах в связи с чем создается впечатление что маленький ребенок живет наполовину в мире своих фантазий и что его воображение сильнее богаче оригинальнее воображения взрослого. Занимательность условного...
12445. Лексик-грамматические параллели пословицы русского и украинского языка 41.65 KB
  Кроме того относительная количественная простота малое число элементов предельно коротких текстов которыми есть паремии делает возможным почти исчерпывающее описание текста что является основным предметом современных лингвистических исследований. Актуальность заключается в том что анализ паремийных единиц в лингвистических работах английского немецкого украинского народов разрешает проявить общечеловеческие особенности выделить общие и отличительные особенности присущие им. Проклятия своеобразные формы выражения чувства...
© "REFLEADER" http://refleader.ru/
Все права на сайт и размещенные работы
защищены законом об авторском праве.