Корпус
Корпус становить значний за обсягом, електронний, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, створених для вирішення відповідних лінгвістичних завдань [Захаров, 2005: 3]. Корпус сприяє оптимізації і об’єктивізації лінгвістичних досліджень, дозволяє якісно по-новому окреслити традиційні лінгвістичні поняття [Ричкова, 2003: 185]. Це організована словесна єдність, елементами якої є цілі тексти чи спеціальним чином відібрані уривки з текстів, доступні для лінгвістичного аналізу [Meyer 2004: xi]. Сучасний корпус вирізняється низкою дистинктивних ознак, а саме:
репрезентативністю, що полягає у здатності корпусу відображати предметну галузь та досягається відповідними жанрами, включеними до корпусу (збалансованість), та критеріями відбору текстів кожного жанру (відібраність) [McEnery, Xiao, Tono 2006: 11];
автентичністю відбору реально створеного носієм(ями) мови писемного або усного тексту(ів), уривка(ів) тексту(ів) у процесі реальної комунікаці;
відібраність фактичного матеріалу з усього мовного континууму;
збалансованістю, що полягає у введенні до корпусу пропорційної кількості текстових ресурсів;
машиночитаність.
Корпус формується з уривків писемного та/або усного мовлення, не передбачаючи модифікації мовленнєвої дійсності, що перетворює його на категорію емпіричну і дозволяє розглядати фактичний корпусний матеріал як емпіричну базу лінгвістичного дослідження [Демська-Кульчицька 2003: 41].
Наразі існує значна кількість корпусів [Ричкова, 2003]. За ступенем організації й структурованості розрізняють електронний архів, електронна бібліотека, корпус текстів і субкорпус (відповідна автономна частина корпуса). За хронологічною ознакою корпуси бувають синхронічні, моніторингові (відслідковує поточний стан мови) та діахронічні (орієнтовані на вивчення та аналіз еволюційних процесів в конкретній мові). За індексацією - прості та анотовані. Залежно від кількості мов, представлених у корпусі, розрізняють одномовні та багатомовні корпуси. Одномовний корпус репрезентує лінгвістичну варіативність однієї мови (the International Corpus of English). Багатомовні корпуси окреслюють особливості двох або більше мов та поділяються на порівняльні корпуси та паралельні корпуси. Порівняльний корпус містить однакові вибірки текстів з однакових жанрів з однакових комунікативних сфер з досліджуваних мов за однаковий період часу. Паралельний корпус визначається як корпус, що містить тексти з мови-джерела (L1) та їх переклади (L2) (the CRATER, EMILLE, MULTEXT, P-ACTRES). За способом застосування й використання корпусу вирізняють дослідницький, ілюстративний та паралельний корпуси. За способом існування корпусу - динамічний (передбачає систематичне збалансоване поповнення новими даними) та статичний (не передбачає поповнення новими матеріалами).
Існують також: - корпус писемного мовлення, що містить лише текти писемного варіанту мови; - корпус усного мовлення, що становить спеціальну колекцію ретельно відібраних текстових уривків (слів, фраз, речень), вимовлених численними мовцями за різних акустичних умов; - спеціалізований корпус, який є жанрово чи галузево специфічним корпусом та має на меті відобразити певну підмову; - педагогічний корпус, який використовується для навчання мові та містить навчальні тексти; - учнівський корпус, що укладається з усних і/або писемних текстів, створених особами, що вивчають мову як іноземну; - паралельний корпус, який складається як мінімум з двох підкорпусів, один з яких є вихідним, а інший містить тексти-переклади вихідного корпусу; - національний корпус, великий за обсягом корпус, що прагне до об’єднання у своїй структурі текстів найрізноманітніших жанрів і типів; - корпус діалектного мовлення, який містить тексти, що репрезентують зразки діалектного мовлення; - збалансований корпус, що містить тексти різних стилів і жанрів, що представлені у репрезентативному співвідношенні та інші.
⠀ Демська-Кульчицька, О.М. (2003). Базові поняття корпусної лінгвістики. Українська мова. №1. С. 42-47.
⠀ Захаров, В.П. (2005). Корпусная лингвистика: Учебно–метод. пособие. СПб.. 48 с.
⠀ Meyer, Ch. P. (2004). English Corpus Linguistics. An introduction. Cambridge University Press. 168 p.