Лингвистический корпус английского языка

Цели и задачи

Целью данной работы является анализ лингвистических корпусов и их практического применения.

Введение и актуальность


Для начала приведем определение национального корпуса языка. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами специалистами по корпусной лингвистике для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса.
Создателем британского национального корпуса является Сидни Гринбаум. Он всегда интересовался английским языком, его строем и историей. После получения своей магистерской степени он выпустил множество монографий об английском языке, которые были ориентированы в большей степени на грамматику, что положило начало его научной деятельности в этой сфере. В дальнейшем он стал профессором английского языка и литературы, и начал более тщательные разработки системы, которая в 1988 году взяла название «Британский национальный корпус» [http://www.ucl.ac.uk/english-usage/about/greenbaum.htm]. Британский национальный корпус - это всемирная база из 100 миллионов примеров устного и письменного языка, собранных из различных источников, и включает в себя примеры из британского английского начиная с конца двадцатого века. Последняя версия базы была выпущена в 2007 году. База письменного языка составляет 90%, база устного - всего 10%. Письменная часть составлена из различных периодических изданий, академической и популярной литературы, различных писем, эссе и специализированных текстов. Устная часть состоит из транскрипций неформальных монологов и диалогов, записей официальных встреч и деловых звонков [http://www.natcorp.ox.ac.uk/corpus/index.xml].
Решение лингвистических задач на материале Британского Национального Корпуса (англ: the BNC) с использованием сетевого программного обеспечения BNCweb – пример использования и анализа данных репрезентативного корпуса. Британский Национальный Корпус (БНК) является образцовым лингвистическим корпусом из множества существующих к настоящему моменту [Рыков, 2008; Захаров, 2011]. Отобранный в корпусе материал сопровождается детальным описанием с указанием критериев, по которым создавался корпус. БНК состоит из более 4.000 текстов (файлов), каждый из которых имеет идентификатор - имя файла. Как уже было сказано ранее - каждый файл — пример устной или письменной речи современного английского языка. Размер примеров варьируется от нескольких десятков до нескольких сотен слов. Письменный компонент корпуса охватывает около 90 млн. слов, письменные тексты, включенные в корпус, отбирались на основе трех независимых критериев – домен (область использования), время публикации и место публикации. Наиболее подробное описание особенностей Британского Национального Корпуса представлено в работе Corpus Linguistics with BNCweb – a Practical Guide. Важно отметить, что любые электронные варианты корпусов нуждаются в надлежащем интерфейсе пользователя. Официальный дистрибутив BNC распространяется с программой Xaira, свободнораспространяемой, альтернативой которой служит BNCweb. Последняя версия – CQP редакция – формулирует задачи системы BNCweb как «дружественный к пользователю, технически богатый инструмент анализа корпуса» [Corpus Linguistics with BNCweb – a Practical Guide, 2008, p. 13]. Алгоритм решения лингвистических задач через интерфейс BNCweb строится следующим образом. На первом шаге выполняется запрос по одному слову, с возможным уточнением его частеречной принадлежности, отнесенности к письменному или устному английскому языку, с возможностью селекции любых комбинаций критериев, предлагаемых системой BNCweb (гендерный признак, возрастная когорта, образовательная страта и т.д.). Результаты запроса сохраняются для дальнейшего анализа. На втором шаге с помощью web-интерфейса исследователь получает возможность рассчитать статистическую достоверность полученных результатов, и, тем самым, проверить выдвинутые гипотезы о вариациях словоупотреблений (коллокаций). На третьем шаге возможно усложнить запрос, формулируя его не по отдельным словам, а с учетом типа грамматической конструкции, в которой используются изучаемые слова, включая в анализ переход через границы предложений. BNCweb позволяет выполнять автоматизированную обработку коллокаций, представляя результаты в виде пригодном как для классического лингвистического анализа, так и для формализованного, независящего от исследователя и полностью воспроизводимого статистического анализа.
Решение лингвистических задач с помощью методов корпусной лингвистики становится все более распространенным во всем мире, эффективно дополняя традиционные методы анализа. Число публикаций по данной тематике растет, что позволяет говорить о том, что в лингвистике произошла корпусная революция.
Это доказывают и мнения многих современных ученых. Например, Захаров отмечает, что «стремительно развивающаяся область, методология которой напрямую связана с прогрессом в сфере компьютерных технологий, что в свою очередь влечет за собой прогресс в создании и совершенствовании программ автоматической обработки текста» [Захаров, 2011, с.146].
Британский национальный корпус имеет большую практическую значимость. Данная база может быть использована в различных курсах по изучению английского языка, для составления учебных и методических материалов. BNC содержит в себе материалы разной направленности - от самых базовых тем до энциклопедических статей, что также объясняет универсальность использования данной базы в изучении языка. BNC также стал основой для создания некоторых билингвистических словарей. Несомненно, данный корпус является универсальной базой как для изучения языка, так и для тех, кто так или иначе работает с языком.

Заключение и вывод

Данная работа была посвящена исследованию лингвистических корпусов, а также анализу научных работ с целью определения значимости корпусов в области лингвистики. В процессе исследования нами были решены следующие задачи:
1. Было дано определение корпусной лингвистики и корпусного менеджера;
2. Нами был изучен Британский Национальный Корпус;
3. Мы проанализировали степень изученности лингвистических корпусов в настоящее время;
4. Проанализировали научные работы, посвященные лингвистическим корпусам и оценить их применение на практике.
В первой главе данной курсовой работы в первую очередь мы рассмотрели понятия лингвистического корпуса языка. По Захарову и Богдановой - это раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с применением компьютерных технологий. Нами также было определено, что такое лингвистический менеджер – это база данных языковых текстов. Среди всех существующих корпусов мы обратились конкретно к британскому лингвистическому корпусу, т.к. данный корпус является одним из первых корпусов, и на него опираются многие современные создатели корпусов других языков.
Во второй главе, в качестве практического исследования, нами были отобраны некоторые диссертации, посвященные исследованиям в области корпусной лингвистики.
Для начала мы обратились к диссертациям, посвященным использованию лингвистических корпусов в лексикологии. Для примера нами были взяты следующие диссертационные работы: «Принципы и методы гармонизации терминологии на основе корпуса специальных параллельных текстов: На материале документов ООН» Виландеберг А.А.; «Вторичные значения зоонимов русского и английского языков (на материале национальных корпусов)» Семиной О.Ю.; «Корпусная лингвистика и контекстное разрешение лексической многозначности слов» Магомедовой А.Н. Нами было отмечено, что лингвистический корпус представляет собой уникальный инструмент, в том числе и для исследования лексики.
Далее мы взяли диссертации Гориной О.Г. «Использование технологий корпусной лингвистики для развития лексических навыков студентов-регионоведов в профессионально-ориентированном общении на английском языке»; Дерябиной И.В. «Методика обучения учащихся управлению английских глаголов на основе британского национального корпуса» и Рязановой Е.В. «Методика формирования грамматических навыков речи студентов на основе лингвистического корпуса».
Лингвистические корпусы – это большая база различных текстов по различным тематикам, которые наглядно представляют язык, его грамматическую структуру и лексическое многообразие. Тем самым, данные материалы могут быть использованы при изучении языка как вспомогательный, но достаточно полный материал.
Далее нами были отобраны следующие диссертации: «Корпусный подход к решению переводческих проблем: На материале письменных переводов с русского языка на английский» Владимова Н.В.; «Электронный корпус текстов как эффективный инструмент переводчика» Груздева Д.Ю. и «Особенности перевода сложносоставных слов с английского языка на русский (на материале корпуса публицистических текстов)» Мамонтовой В.В. Так, мы отметили, что лингвистический корпус – хороший инструмент в руках переводчика. С помощью корпуса текстов можно добиться адекватности перевода, оценить особенности тех или иных текстов, а также избежать многих ошибок при переводе.
В заключение можно сделать вывод, что лингвистические корпуса – уникальны, и могут использоваться каждым, кто так или иначе заинтересован в иностранном языке.

Нужна похожая работа?

Оставь заявку на бесплатный расчёт

Смотреть все Еще 421 дипломных работ