
Jolanta Kovalevskaitė
Agnė Bielinskienė
Erika Rimkutė
Jolanta Kovalevskaitė
Agnė Bielinskienė
Erika Rimkutė
„MOKOMOJO
VARTOSENOS LEKSIKONO“ ATVEJIS
Recenzentės:
Dr. Daiva Murmulaitytė (Lietuvių kalbos institutas)
Doc. dr. Vilma Zubaitienė (Vilniaus universitetas)
Monografija apsvarstyta ir rekomenduota leidybai Vytauto Didžiojo universiteto Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto 2024 m. balandžio 8 d. (protokolo Nr. 2-1) ir Vytauto Didžiojo universiteto Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto Tarybos posėdyje 2024 m. balandžio 23 d. (protokolo Nr. 2-1).
Bibliografinė informacija pateikiama Lietuvos integralios bibliotekų informacinės sistemos (LIBIS) portale ibiblioteka.lt.
ISBN 978-609-467-615-4 (internetinis) https://doi.org/10.7220/9786094676154
© Jolanta Kovalevskaitė, 2024
© Agnė Bielinskienė, 2024
© Erika Rimkutė, 2024
© Vytauto Didžiojo universitetas, 2024
VYTAUTO
Jolanta Kovalevskaitė, Agnė Bielinskienė, Erika Rimkutė
„MOKOMOJO LIETUVIŲ KALBOS
VARTOSENOS LEKSIKONO“ ATVEJIS
MONOGRAFIJA
Kaunas, 2024
2.3.3.
Vardažodžių gramatiniai modeliai ......................................
Veiksmažodžių gramatiniai modeliai
2.6. Antrojo skyriaus apibendrinimas ...........................................
2 priedas. „Mokomojo lietuvių kalbos tekstyno“
3 priedas. Kalbos dalių, gramatinių kategorijų sutrumpinimai (Leipcigo pažymų standartas)
4 priedas. Sintaksinių funkcijų pažymos .........................................
5 priedas. Leksikono antraštyno sandara ........................................
5.1 priedas. Vienažodžiai leksikono antraštiniai vienetai ........................
5.2 priedas. Keliažodžiai leksikono antraštiniai vienetai – pastovieji žodžių junginiai ................................................................. 444
5.3 priedas. Leksikono ir MOKATE tekstyno lemų palyginimas .................. 452
6 priedas. Antraštinių žodžių, jų pamatinių žodžių ir darinių sąrašas ................ 556
7 priedas. Vartosenos modelių semantiniame lygmenyje panaudotos leksinės semantinės grupės ........................................................... 642
7.1 priedas. Būdvardiškųjų žodžių leksinės semantinės grupės ................... 643
7.2 priedas. Veiksmažodžių leksinės semantinės grupės 645
7.3 priedas. Daiktavardžių ir daiktavardiškai vartojamų žodžių leksinės semantinės grupės ......................................................... 647
7.4 priedas. Aplinkybių reikšmės ............................................ 653
7.5 priedas. Į kelias leksines semantines grupes įeinantys kolokatai 656 8 priedas. Leksikografiniai aprašai MONGO duomenų bazėje ...................... 667
BLKŽ – „Bendrinės lietuvių kalbos žodynas“.
BNC – „British National Corpus“.
DLKG – „Dabartinės lietuvių kalbos gramatika“.
DLKT – „Dabartinės lietuvių kalbos tekstynas“.
DLKŽ – „Dabartinės lietuvių kalbos žodynas“.
Leksikonas – „Mokomasis lietuvių kalbos vartosenos leksikonas“.
LKŽ – „Lietuvių kalbos žodynas“.
Metmenys – „Bendrieji Europos kalbų mokymosi, mokymo ir vertinimo metmenys“ (2008).
MLKŽ – „Mokomasis lietuvių kalbos žodynas“.
MOKATE tekstynas – „Lietuvių kalbos mokinių tekstynas“.
Mokomasis tekstynas – „Mokomasis lietuvių kalbos tekstynas“.
PŽJ – pastovieji žodžių junginiai.
TNT – tipiškos ir netipiškos vartosenos teorija (angl. Theory of Norms and Exploitations).
VMA – vartosenos modelių analizė (angl. Corpus Pattern Analysis).
0.1. Problema lietuvių leksikografijoje – kalbos vartosenos atspindėjimas žodynuose
Lietuvių kalbos leksikografijai skirtų teorinių darbų nėra daug, o esamuose (Jakaitienė 2005; Zubaitienė 2014) aprašyti tradiciniai leksikografijos darbo principai ir metodai, pamatinės teorinės leksikografijos problemos (pvz., aptariami žodynų tipai ir žodynų tipologijos sunkumai). Baigiamajame skyriuje E. Jakaitienė (2005: 304) teigia, kad „naujas leksikografijos etapas susijęs su informacinių technologijų plėtra“. Šią mintį plėtojant toliau, reikėtų pridurti, kad leksikografijos naujovės susijusios tiek su nauja – elektroninės leksikografijos – kryptimi, tiek su elektroninėje leksikografijoje taikomais naujais metodais, kurių pagrindas yra tekstynai – tam tikrą kalbos atmainą reprezentuojantys elektroninių tekstų rinkiniai, kuriuose leksikografams prieinama daug autentiškos vartosenos duomenų (apie tekstynus ir tekstynų lingvistiką apžvalgą lietuvių kalba žr. Marcinkevičienė 2000a). Pasak R. Petrauskaitės (Marcinkevičienė 2000a: 48), informacinių technologijų pagimdytos mokslo šakos – tekstynų lingvistikos – pritaikymo galimybės itin plačios, bet geriausia tekstynų panaudojimo galimybe nuo pat pradžių buvo ir liko leksikografija. Viena vertus, lietuvių leksikografijoje jau pereita prie žodynų rengimo procesų kompiuterizavimo (apie „Bendrinės kalbos leksikos duomenų bazę“ žr. Murmulaitytė 2002), nemažai lietuvių kalbos žodynų kompiuterizuoti (žr. portalą https://ekalba.lt/), o toliau juos tobulinant, daugėja elektroniniams žodynams būdingų požymių – hipertekstas, lanksti paieška su įvairiais filtrais ir pan. (plačiau apie elektroninius žodynus žr., pvz., Granger et al. 2012; Tarp 2012; Gouws 2014; Heuberger 2020). Kita vertus, lietuvių kalbos elektroninio pavidalo žodynuose dalis problemų (sietų su popieriniais žodynais, žr. Kunze et al. 2007: 234–235) vis dar lieka neišspręstos.
Viena svarbiausių problemų – tai dabartinės kalbos vartosenos atspindėjimas žodyno makrostruktūroje (antraštyne) ir mikrostruktūroje (pateikiant reikšmes, vartojimo pavyzdžius, susijusius žodžius). Kompiuterizuotuose lietuvių kalbos žodynuose nepadaugėjo vartosenos duomenų: trūksta žodžių ar junginių, reikšmių, su kuriais susiduriama realioje dabartinėje kalboje, prie reikšmių pateikti pavyzdžiai ne visada reprezentuoja dabartinę vartoseną. Tačiau tai suprantama: dažnas kompiuterizuotu žodynu vadinamas lietuvių kalbos žodynas nėra parengtas kaip elektroninis (angl. born digital ), paprastai tai yra kompiuterizuota popierinio žodyno versija. Būtent toks
lietuvių kalbos žodynų kompiuterizavimo modelis, tikėtina, gali būti nulemtas ir ilgą laiką lietuvių leksikografijoje vyravusių krypčių – diachroninio požiūrio (plg. „Lietuvių kalbos žodyno“ (toliau – LKŽ) misija – atspindėti visą vartotą lietuvių kalbos leksiką nuo XVI iki XX a. pabaigos1) ir bendrinės kalbos standarto įtvirtinimo (plg. ilgą laiką informacijos šaltiniu apie bendrinę lietuvių kalbą turėjęs būti „Dabartinės lietuvių kalbos žodynas“ (toliau – DLKŽ) ir dabar rengiamas „Bendrinės lietuvių kalbos žodynas“ (toliau – BLKŽ) laikomi norminamaisiais leidiniais) (apžvalgą apie aiškinamųjų lietuvių kalbos žodynų raidą nuo XIX a. žr. Sakalauskienė 2023).
Pavyzdžiui, pirmasis DLKŽ leidimas išėjo 1954 m., 2003 m. pasirodė pirmasis el. variantas, o naujausias (8-as pataisytas ir papildytas) el. leidimas – 2021 m., jis papildytas 200 naujų žodžių iš rengiamo BLKŽ, įtrauktos bendrinės kalbos kodifikacijai svarbios (kirčiavimo) pataisos. Matyti, kad per DLKŽ pildymus daugiausia buvo atnaujinama su bendrinės kalbos norminimu susijusi informacija, tačiau nepridėta daugiau duomenų apie aprašytų leksinių vienetų vartoseną, kurios tyrimams jau nuo 2001 m. internete buvo prieinamas „Dabartinės lietuvių kalbos tekstynas“2 . Šis tekstynas (taip pat ir „Mokslo kalbos tekstynas“3), tiesa, yra minimas tarp naujojo BLKŽ šaltinių, o aiškinant, kaip atrenkami vartosenos pavyzdžiai (iliustracijos), minima, kad BLKŽ siekiama pavyzdžiais iliustruoti visus leksinius vienetus, t. y. kiekvieną žodžio, žodžių junginio ar frazeologizmo reikšmę arba jos atspalvį. BLKŽ šiuo požiūriu novatoriškesnis, nes vienas iš rimtų DLKŽ trūkumų tas, kad prie aprašomo leksinio vieneto ar kurios nors jo reikšmės vartotojas kartais neranda jokio pavyzdžio.
Kitos DLKŽ vartotojui kylančios problemos – daug šiame žodyne randamų žodžių dabartinėje kalboje nebevartojami (plg. dabnus „puošnus“) arba vartojami tarmėse (plg. dangovė „drabužiai“), nemažai aprašytų reikšmių – pasenusios, plg. saikas (prie 3 reikšmės nurodyta, kad tai istorizmas, bet prie 2 reikšmės, kuri irgi pasenusi ir nevartojama, nėra jokios pažymos, kaip ir prie daugumos kitų senžodžių, žr. toliau pateiktą ištrauką iš DLKŽ):
sa k|as (4)
1. matas, norma: Valgyk su ~ù. Neturi ~o. Be ~o (per daug, pervirš) nori. Žinoti ~ą (kiek ko galima, kiek tinka). Viršyti ~ą 2. indas, kuriuo kas seikėjama, matuojama. 3. istor. biralų vienetas (šeši gorčiai); tokios talpos indas: Iš šiaudų ir vytelių pintas s. S. rugių
Leksikos atranka yra vienas iš didžiausių leksikografo iššūkių, ir tekstynai čia galėtų būti naudingi: pavyzdžiui, Petrauskaitės et al. (2021) tyrime, palyginus 6-ajame DLKŽ leidime pateiktas lemas antraštyne su dideliuose tekstynuose vartojama leksika,
1 „Lietuvių kalbos žodyno“ (t. I–XX, 1941–2002) pirmas elektroninis leidimas internete paskelbtas 2005 m., atnaujintas 2008 ir 2018 m. sukuriant vis daugiau paieškos galimybių. Dabar jau nebepildomas ir nebeatnaujinamas.
2 Prieinamas http://tekstynas.vdu.lt/tekstynas/ arba http://corpus.vdu.lt/lt/
3 http://coralit.lt/
buvo nustatyti du leksikos sluoksniai: a) žodyne pristatyta, bet tekstyne neaptikta leksika ir b) žodyne nepateikta, bet tekstyne dažnai vartojama leksika (apie tų pačių uždavinių sprendimą atnaujinant vokiečių kalbos žodynus rašyta daug anksčiau, žr. Heid et al. 2004).
Siekis atspindėti dabartinės kalbos vartoseną yra didelis iššūkis. Nors sąvoka dabartinė kalba yra DLKŽ pavadinime, tačiau visada kyla daug keblumų, norint šį žodyną naudoti kaip dabartinę lietuvių kalbą ir jos vartoseną atspindintį žodyną. BLKŽ struktūros atžvilgiu jau kitoks nei DLKŽ (plačiau apie BLKŽ sudarymo principus ir tikslus žr. Liutkevičienė et al. (2015)), jame teikiama dabar funkcionuojanti taisyklinga bendrinės kalbos leksika, todėl antraštyne jau galima rasti ir pačios naujausios leksikos (vartojamos po 2000-ųjų iki šių dienų), pvz., gūglas, skaipas, instagramas (Sakalauskienė 2023: 275). Tarp svarbiausių BLKŽ ir DLKŽ skirtumų – beveik visi BLKŽ antraštiniai žodžiai ar jų reikšmės iliustruojami vartosenos pavyzdžiais (Liutkevičienė et al. 2015), taigi vartoseną geriau atspindi ne tik antraštynas, bet ir žodžių aprašai.
Vis dėlto sąvoką vartosena mūsų leksikografijoje reikėtų vertinti kaip gana probleminę, nors apskritai šio reiškinio tyrimams skirtų studijų daugėja (Miliūnaitė 2009, 2022). Kol nebuvo galimybės naudotis tekstynais, tol duomenys apie vartoseną leksikografams buvo sunkiai pasiekiami ir jie, kaip ir kitų kalbų leksikografai, dirbo remdamiesi ankstesniu įdirbiu (anksčiau parengtais žodynais, to paties žodyno ankstesniais leidimais) ir taikydami introspekciją, iš kurios ir gimdavo dauguma aprašomiems žodžiams ar žodžių junginiams reikalingų, bet neretai dirbtinai skambančių pavyzdžių. Vis dėlto, net ir atsiradus lietuvių kalbos tekstynams, kompiuterizuotose popierinių žodynų versijose nepadaugėjo duomenų, kaip aprašoma leksika vartojama realiai funkcionuojančioje lietuvių kalboje. Žinoma, yra specialiųjų žodynų tipas (žodžių junglumo (valentingumo) ir vartosenos žodynai, žr. Jakaitienė 2005), ir dalis vartosenos informacijos, tikėtina, gali būti pateikiama būtent tokiuose žodynuose, tačiau anksčiau parengtuose junglumo žodynuose (plg. Sližienė 1994–2004) dabartinė vartosena taip pat atspindėta ne itin išsamiai. Antra vertus, nors svarbiausia aiškinamojo žodyno dalis yra žodžių reikšmių apibrėžtys, vis dėlto ir toks žodynas taip pat turi parodyti, kaip „kiekvienas žodis prisitaiko prie kalbos sintaksinės ir funkcinės sistemos, kaip vartojamas junginiuose ir sakiniuose“ (Jakaitienė 2005: 303).
Aiškinamajame žodyne apie vartojimą žodžių junginiuose ir sakiniuose dažnai rašoma aptariant sintaksinių duomenų lauko problemas (Jakaitienė 2006: 92), kita vertus, atsiranda diskusijų apie gerų pavyzdžių atrankos principus, taikomus leksikografiniuose projektuose (Murmulaitytė 2011), kolokacijų svarbą atrenkant gerus pavyzdžius (Melnikienė 2007). DLKŽ pavyzdžių yra, bet jie dažnu atveju nebūtinai rodo, kas būdinga (tipiška) tam tikro žodžio ar reikšmės vartosenai. Tai suprantama, nes, atrenkant DLKŽ pavyzdžius, buvo ribotos galimybės nustatyti vartosenos tendencijas.
Dabar galimybės išsiplėtė4, todėl BLKŽ jau galima matyti daugiau realią vartoseną atspindinčių pavyzdžių, kuriuose atsiskleidžia vartosenos dėsningumai: pradedant nuo to, kokiomis formomis aprašomasis žodis yra vartojamas, kokias kolokacijas sudaro, ir baigiant tuo, kokia kalbos atmaina yra tipiška šio žodžio teritorija.
Ilgą laiką rengiant bendruosius aiškinamuosius žodynus pastangos dėtos tam, kad vartotojams būtų pateikta informacija apie vieną lietuvių kalbos variantą – bendrinę kalbą, todėl mažai atspindėta ta lietuvių kalbos leksikos dalis, kuri susijusi su tam tikro leksinio vieneto paplitimu ne bendrinės kalbos vartosenoje, o kitose kalbos atmainose5. Kadangi jau yra ne tik rašytinės kalbos tekstynų, bet ir „Sakytinės lietuvių kalbos tekstynas“6, ši lietuvių kalbos leksikografijos spraga taip pat gali būti užpildoma duomenimis iš vartosenos. Sakytinės ir rašytinės kalbos skirtumai jau aprašyti moksliniuose darbuose (plg. Kamandulytė-Merfeldienė 2018), tačiau ši informacija kol kas neatsispindi leksikografiniuose darbuose. Pastaruoju metu kitų kalbų leksikografijoje skiriamas didelis dėmesys kalbos vartosenos įvairovei žymėti (plg. tobulinamą kalbos vartojimo sferų pažymų sistemą slovėnų bendrinės kalbos žodyne žr. Šipka et al. 2021), perimama geroji leksikografijos praktika, aprašyta tekstynais paremtos elektroninės leksikografijos darbuose (Atkins et al. 2008). Lietuvių kalbos žodynuose akivaizdus poreikis peržiūrėti ir patikslinti vartojimo sferų pažymų klasifikaciją. Kai kur mūsų žodynuose dar tebeteikiama informacija, kurios nauda abejotina: pvz., DLKŽ dar yra likusi pažyma knyg. – knyginis žodis, o ji ne tik kad neaiški vartotojui, bet ir negali būti susieta su jokia kalbos atmainų, stilių ar žanrų klasifikacija.
leksikografijoje – tekstynai
Šiuolaikinėje leksikografijoje tekstynai naudojami visuose žodyno rengimo etapuose – nuo leksinių vienetų atrankos antraštynui iki leksinių vienetų aprašymo.
4 Čia paminėtinas ir internetas, kuris dažnai naudojamas kaip vienas iš vartosenos duomenis teikiančių šaltinių, ypač jis parankus naujausiai leksikai tirti, jeigu prieinami tekstynai nėra tęstiniai. Vis dėlto internetas nelygintinas su tekstynu, nes tekstynas turi aprašytą sandarą su nurodytais tekstų atrankos kriterijais.
5 Vartotoją gali sugluminti DLKŽ vartojama žyma šnek., pvz., apskáld‖yti, ~o, ~ė šnek. apmušti, apdaužyti. Sutrumpinimų sąraše ši pažyma aiškinama taip: šnekamosios kalbos žodis ar reikšmė. Ne visai aišku, kaip reikėtų suprasti, ar tai bendrinės šnekamosios kalbos žodis? Kai kurie žodžiai tikrai gali būti tokiems priskirti (angliarūgštė), bet dalį tokią pažymą turinčių žodžių galbūt jau labiau tiktų slengui – plg. atsikabinti, bizalas, biznis: 1) atsikabi̇̀ n‖ti, ~a, ~o šnek. atsitraukti: ~k nuo manęs, ko prikibai! 2) bi̇̀ zalas šnek. prastas gėralas (alus ir kt.); 3) bi̇̀ zn‖is šnek. duodanti pelno veikla, verslas: Padarė ~į (pasipelnė). Dėl pažymos šnek. kyla klausimų, kaip atskirti bendrinę šnekamąją kalbą ir nebendrinę šnekamąją kalbą. BLKŽ ši pažyma perimta, bet patikslinta: taip žymimas šnekamosios (neoficialiosios) kalbos žodis ar reikšmė. Tiek DLKŽ, tiek BLKŽ yra ir tarmybių (prie jų pateikiamos atitinkamos pažymos), tačiau norminamajame žodyne tarmybių neturėtų būti.
6 http://sakytinistekstynas.vdu.lt/
Lietuvių leksikografijoje tekstynų siūlomos galimybės kol kas nebuvo plačiai išnaudojamos, – apie tai jau anksčiau rašė R. Petrauskaitė (Marcinkevičienė 2000a: 48), apibendrindama priežastis, kodėl, net ir patobulėjus techninėms galimybėms, lietuvių kalbos aiškinamųjų žodynų turinys nepagerėjo – pasak jos, taip atsitiko dėl to, kad iš esmės nepakito kalbos faktų rinkimo metodai: ir toliau remiamasi ganėtinai atsitiktine atranka ir subjektyviu leksikografo kalbos jausmu7.
P. Hankso (2012a) teigimu, elektroninės leksikografijos metodai ir įrankiai atveria daug galimybių, kurių nebuvo tradicinėje leksikografijoje: galimybė tekstynuose nustatyti daugiau ir (ar) kitokių faktų (duomenų) apie kalbą, nauji būdai tiems duomenims aprašyti ir pateikti, naujos galimybės panaudojant leksines bazes ir žodynų rengimo įrangą duomenims kaupti.
Naujos galimybės, kurias suteikė tekstynų panaudojimas leksikografijoje, pirmiausia susijusios su dideliais kalbinių duomenų kiekiais ir įrankiais, kurie padeda spręsti apie kalbinių reiškinių (reikšmių, kategorijų ir pan. kalbos faktų) paplitimo dažnumą. Tekstynai leidžia leksikografams pateikti atsakymus į klausimus, į kuriuos anksčiau buvo sunku atsakyti, pvz., kokie yra dažniausi žodžiai, kokiu dažnumu jie vartojami; kaip žodžių (reikšmių) vartosena susijusi su tam tikromis atmainomis, stiliais, registrais; kaip skiriasi to paties žodžio reikšmių vartojimo dažnumas ir t. t.
„Bet didžiausia tekstynų <...> svarba leksikografijai yra kompiuterio garantuojama objektyvi duomenų atranka“ (Marcinkevičienė 2000a: 48): dėl žmogiškojo faktoriaus dažnai į žodynus būdavo atrenkami ne tiek įprasti dėsningumai, kiek pastebėti neįprasti, reti vartosenos atvejai. Naudodami tekstynus, leksikografai pagaliau turi pakankamai duomenų, kad galėtų daryti patikimus, empirija pagrįstus apibendrinimus. Tekstynų analizė leksikografui suteikia empirinių duomenų apie tam tikro leksinio vieneto semantinius ypatumus ir vartosenos dėsningumus, tik, žinoma, kai praktiniame leksikografo darbe tokius tyrimus reikia atlikti su dideliu žodžių kiekiu, būtina tam tinkama kalbinė įranga, kitaip sakant, – žodžių vartosenos analizės automatizavimas. Tekstynų analizės kalbinė įranga ne tik padeda taupyti leksikografų laiką, bet ir sudaro prielaidas objektyvesniam ir sistemingesniam kalbos aprašui, kuris geriau atspindi kalbos vartoseną. Pasak Atkins et al. (2008: 96), šiuolaikinėje elektroninėje leksikografijoje tekstynai yra jau savaime suprantamas dalykas, todėl kitas rūpimas klausimas – optimizuoti tekstyno analizės įrangą, kad reikalingi vartosenos duomenys būtų surinkti greičiau ir kokybiškiau; kad ta įranga dar labiau tiktų nustatant naujus ir nenumatytus kalbos vartosenos duomenis. Kaip autentiškų duomenų šaltinis tekstynai suteikia kalbos duomenų, apie kuriuos leksikografai anksčiau dažnai spręsdavo remdamiesi savo kalbos jausmu. Žodžio reikšmių aprašymai seniau parengtuose žodynuose dažnai pasižymi netikslumais: reikšmės
7 Žinoma, priežasčių, tikėtina, yra ir daugiau – pavyzdžiui, pasirengusių dirbti tekstynų lingvistikos metodu leksikografų skaičius, žodynams rengti skiriamas finansavimas ir kt.
persidengia, trūksta informacijos, kokiomis vartosenos ypatybėmis viena reikšmė skiriasi nuo kitos ir t. t. (Hanks 2012a: 16). Analizuodami tekstynus, leksikografai įgijo galimybių aprašyti realios vartosenos ypatybes: ne tik gramatinį, bet – kas buvo tikrai nauja ir ko labai trūko daugumos kalbų žodynuose – leksinį junglumą (kolokacijas).
Turint daugiau duomenų apie žodžio junglumą, galima tiksliau atskirti leksinio vieneto reikšmes, tiksliau jas aprašyti, atrinkti geresnių pavyzdžių kiekvienai reikšmei. Pasak R. Petrauskaitės (Marcinkevičienė 2000a: 50), „<...> kad ir kokie būtų rengiami žodynai, besiremiantys tekstynais, darbo esmė ir principai lieka tie patys – žodynai turi būti pradedami rengti nuo tekstyno (pasirenkant egzistuojantį ar sukuriant naują), tekstynu reikia remtis ir atrenkant reikiamų žodžių sąrašus, ir po to analizuojant tų žodžių vartoseną“. Bet šiame prieš porą dešimtmečių publikuotame straipsnyje autorė taip pat paminėjo, kad „būtų idealu, jeigu leksikografai <...> galėtų pasitelkti automatines arba pusiau automatines darbo priemones visam darbo ciklui nuo tekstyno sudarymo <...>, konkordansų analizės, atrinktų duomenų sintezės iki žodyninio straipsnio elektroninės versijos ar kokio kito galutinio produkto“.
Iš tikrųjų, daug leksikografo darbo uždavinių greičiau ir objektyviau sprendžiami automatizuojant procesus (Atkins et al. 2008; platesnę istorinę apžvalgą apie žodynų rengimo automatizavimą žr. Rundell et al. 2011) ir naudojant konkrečią tekstynų analizės įrangą (pvz., Kilgarriff et al. 2012): sudaromi dažniniai sąrašai leksikos atrankai, automatizuojama leksinio vieneto konteksto analizė, paradigminių ir sintagminių ryšių nustatymas, naujų žodžio reikšmių atpažinimas. Iš dalies automatizuoti procesai surenka leksikografams duomenis, su kuriais jie vėliau turi daugiau laiko dirbti. Yra įrangos, kurią naudojant automatizuotai parengiami ištisi žodynai, ypač leksinio junglumo žodynai, pvz., pusiau automatiškai sugeneruoti kolokacijų žodynai (Kallas et al. 2015; Garcia et al. 2019 ir kt.).
Rundell et al. (2011: 261), aprašydami tekstynais paremto žodyno rengimo etapus, kuriuose jau taikomi automatizavimo sprendimai, mini:
– tekstyno sudarymą;
– antraštyno parengimą;
– tekstyno analizę:
1. Kai analizuojamos leksinių vienetų (ir pastoviųjų žodžių junginių) reikšmės;
2. Kai nustatomos leksinių vienetų vartosenos ypatybės:
a. gramatinis junglumas;
b. būdingos kolokacijos;
c. vartojimas tam tikro žanro tekstuose, registruose ar atmainose;
– reikšmių apibrėžimą ir atitikmenų pateikimą;
– pavyzdžių atranką;
– žodyno medžiagos tvarkymą, redagavimą; tikrinimą, ar informacija pateikiama nuosekliai, ar aprašas atitinka žodyno rengimo gaires.
Tačiau dalį leksikografo darbo automatizuoti vis dėlto gana sudėtinga (plačiau apie tai rašoma Frankenberg-Garcia et al. 2021). Tarkim, tik dalinis automatizavimas galimas atliekant reikšmių skyrimą ar tam tikros reikšmės pavyzdžių atranką, nors naujõs reikšmės atpažinimo būdų jau yra pasiūlyta (pvz., kai lyginami dviejų skirtingų laikotarpių tekstynai (Cook et al. 2013)), o tekstynų analizės įranga turi įrankius galimiems geriems pavyzdžiams iš tekstyno surinkti (pvz., GDEX taikymas slovėnų kalbos žodynuose, žr. Kosem et al. 2011).
Tekstynais paremti žodynai yra norma leksikografijoje (van Sterkenburg 2003; Durkin 2016). Aprašant leksikografinio darbo etapus (Atkins et al. 2008; Klosa 2013; Mann et al. 2014), kurie gali būti pagrįsti ir tam tikra konkrečia teorija (pvz., funkcine teorija, žr. Tarp 2014), tekstynai minimi kaip pirminis kalbinių duomenų šaltinis šalia kitų tradicinių antrinių šaltinių (pvz., kitų žodynų). Tačiau šiuolaikinėje leksikografijoje kyla ir tokių klausimų, kurie, atrodytų, išeina už leksikografijos teorijos ribų: diskutuojama ne tik apie tekstynų privalumus, bet ir apie naujų teorinių principų būtinybę, net apie naują kalbos teoriją (plg. Hanks 2012a). Galima prisiminti istoriją, kai lingvistikos mokslo atstovai ir leksikografai ilgą laiką nerado dialogo (Béjoint 2000), ir tik vėliau suvokė bendradarbiavimo naudą: pradėjo daryti vieni kitiems didelę įtaką ir taip skatino naujų lingvistinių teorijų formavimąsi.
Dabar naujų teorijų poreikis susiformavo ir dėl tekstynų įtakos. P. Hanksas (2013: 5) teigia: „nors autentiški empiriniai faktai yra būtina prielaida lingvistinei analizei, tačiau vien tik to nepakanka. Kitais žodžiais tariant, vien autentiškumo nepakanka. Reikia žinių apie tai, kas kalboje yra dėsninga, kas yra kalbos konvencija“8. Kalbos dėsningumams tirti svarbu ne tik tekstynai ir tekstynų analizės įranga, bet ir reikšmės konstravimo samprata ir pasirinkimas teorinės krypties, kuria remiamasi tiriant žodžio vartosenos dėsningumus. Tokių teorinių krypčių yra ne viena (jos apžvelgiamos 2-ajame monografijos skyriuje). Elektroninėje (tekstynų) leksikografijoje jau įsigalėjusi nuostata, grindžiama britų kontekstualizmo tradicija, kad leksikografijos uždavinys turėtų aprėpti kalbos fraziškumo formas ir normas, taikyti automatizuotus metodus žodžio vartosenai tirti. Vienas iš kelių ta kryptimi – tai pastangos spręsti apie žodžio reikšmes imant žodį ne kaip izoliuotą vienetą, o tiriant žodžiui būdingą kontekstą (platesnei šios krypties analizei skirtas 2.1 poskyris).
Tekstynais paremti tyrimai (angl. corpus-based research) ir tekstynais paremta leksikografija (angl. corpus-based lexicography) lingvistams ir leksikografams suteikia autentiškų empirinių faktų apie kalbą: tarkim, kai surenkame pavyzdžių jau nustatytoms reikšmėms, tai tekstynais tik remiamės. Tačiau tekstynų inspiruoti (angl.
8 „Although authentic empirical evidence is a necessary basis for linguistic analysis, it is not in itself sufficient. In other words, authenticity alone is not enough. Evidence of conventionality is also needed“ (Hanks 2013: 5).
corpus-driven) tyrimai skatina diskutuoti apie tai, kas kalboje dėsninga ir kaip tuos dėsningumus aprašyti žodynuose. Aprašydamas tekstynų inspiruotos leksikografijos metodą, R. Krishnamurthy (2008) apibendrina, kad dirbti inspiruojamiems tekstynų –tai eiti nuo kalbos duomenų ir, permąstant, iš naujo patikrinant, nustatyti santykį tarp formos ir ja reiškiamo turinio. Permąstant atsiranda naujų klausimų ir siūlymų, ką laikyti reikšmės vienetu; iškyla poreikis atsisakyti ilgą laiką įteisintos takoskyros tarp leksikos ir gramatikos, ieškoti modelių, kaip atspindėti, kad reikšmė yra kuriama sąveikaujant leksikai ir gramatikai (plačiau žr. 2 skyrių).
Nors tokių kalbų kaip lietuvių leksikografijoje tekstynų lingvistikos galimybės dar neišnaudotos, tačiau manoma, kad apskritai tekstynų revoliucija leksikografijoje jau įvyko XX a. II pusėje, o dabar leksikografija suvokiama kaip disciplina, išgyvenanti skaitmeninę revoliuciją ir esanti tarp lingvistikos ir informacinių technologijų (plačiau žr. Trap-Jensen 2018). Tekstynai labiau pakeitė ir paveikė būtent leksikografų darbą, o dabar vykstantys pokyčiai veikia ne tik žodynų sudarymo procesus, bet ir naudojimąsi šio proceso rezultatais. Dažnai žodynai dabar yra kitų technologijų dalis, nes įrankių susietumo ir prieinamumo tikisi vartotojai; naudojimasis žodynais sumenko, tačiau tai nereiškia, kad vartotojams nereikia patikimos informacijos apie kalbą (Trap-Jensen 2018: 32). Sutariama, kad dabartinei leksikografijai svarbu orientuotis ir į žmonių vartotojų, ir į natūraliosios kalbos analizės poreikius (Leroyer et al. 2021), pavyzdžiui, Trap-Jensen (2018: 35) pateikia konkrečių rekomendacijų dėl standartų, duomenų struktūros ir kt. leksinėms duomenų bazėms, kurios būtų geriau pritaikomos natūraliosios kalbos analizės uždaviniams.
2023 m. leksikografų bendruomenėje jau pradėta aktyviai diskutuoti apie dirbtinio intelekto taikymo galimybes leksikografijoje ir dirbtinio intelekto poveikį leksikografo profesijai. Kol kas nuomonės svyruoja nuo labai entuziastingų, kai įžvelgiama daug galimybių taikyti dirbtinį intelektą leksikografijoje ir pranašaujama leksikografų veiklos pabaiga, iki atsargių, kai bent kol kas linkstama stebėti situaciją ir analizuoti dirbtinio intelekto pateikiamus rezultatus (nustatant reikšmes, rašant apibrėžtis, atrenkant pavyzdžius, pateikiant žodžių reikšmių sąsajas ir pan.) – kiek tie rezultatai tikslūs, patikimi, kokių yra dirbtinio intelekto įrankių ribotumų dėl pačios technologijos, naudojamų šaltinių, autorių teisių ir kt. (apžvalgą žr. de Schryver 2023). Lietuvių kalba priskiriama prie mažesnių ir retai vartojamų kalbų, jos duomenų kiekis (taigi ir dirbtiniam intelektui potencialiai prieinami duomenys) internete yra nepalyginamai mažesnis nei didžiųjų kalbų (plg. Dadurkevičius et al. 2022), o tai yra ir bus svarbu vertinant dirbtinio intelekto galimą naudą lietuvių leksikografijai, siekiant pasinaudoti šiomis naujomis technologinėmis galimybėmis.
Tekstynais paremtų vartosenos tyrimų lietuvių leksikografijoje nėra gausu: kaip minėta, per pastaruosius du dešimtmečius tekstynais naudojamasi daugiausia atrenkant pavyzdžius aiškinamiesiems žodynams, kita vertus, jau yra parengtos bent kelios leksinės duomenų bazės tekstynų pagrindu (pvz., „Lietuvių kalbos daiktavardinių frazių žodyno“ bazė9, PASTOVU duomenų bazė10, „Akademinių frazių sąvadas“11, Morfemikos duomenų bazė12). „Mokomasis lietuvių kalbos vartosenos leksikonas“ (toliau – leksikonas)13 – leksinė bazė, laikoma vienu iš naujausių tekstynais paremtų leksikografijos projektų.
Leksikonas buvo rengiamas 2018–2020 m. vykdant projektą „Užsienio baltistikos centrų ir Lietuvos mokslo ir studijų institucijų bendradarbiavimo skatinimas“ (Nr. 09.3.1-ESFA-V-709-01-0002). Šio projekto veiklų sumanytoja ir iniciatorė buvo prof. dr. Ineta Dabašinskienė, o portalui https://kalbu.vdu.lt/, kuriame yra prieinamas leksikonas ir kiti šiam tyrimui panaudoti tekstynai, vadovavo prof. dr. Asta Kazlauskienė. Leksikoną sudarė dr. Jolanta Kovalevskaitė (darbo grupės vadovė), dr. Agnė Bielinskienė, dr. Loicas Boizou, Laima Jancaitė, doc. dr. Erika Rimkutė. Duomenis apie kirčiavimą ir tarimą, garso įrašus leksikonui parengė prof. dr. Asta Kazlauskienė ir dr. Sigita Dereškevičiūtė. Be leksikono, minėtame projekte dar parengti tokie mokomieji ištekliai: su leksikonu labai glaudžiai susijęs „Mokomasis lietuvių kalbos tekstynas“14 (toliau – mokomasis tekstynas, išsamiai šis tekstynas pristatytas 1.1 poskyryje). Šio tekstyno rengėjų grupei vadovavo doc. dr. E. Rimkutė, o sakytinės kalbos patekstynio rengimo koordinatorė buvo doc. dr. Laura Kamandulytė-Merfeldienė. Šioje monografijoje aprašomam tyrimui panaudoti ir „Lietuvių kalbos mokinių tekstyno“15 (toliau – MOKATE tekstynas) duomenys (žr. 1.2.2 poskyrį). MOKATE tekstyno iniciatorė ir rengimo darbų koordinatorė – prof. dr. Jūratė Ruzaitė.
Leksikonas – pirma tokio pobūdžio lietuvių kalbos leksinė duomenų bazė, kurios antraštynas ir žodžių vartosenos aprašas pagrįstas konkrečiu tekstynu – mokomojo tekstyno rašytine dalimi (ją sudaro apie 620 tūkst. žodžių). Todėl šioje monografijoje siekiama išsamiai aptarti leksikono rengimą kaip konkretų atvejį ir aprašyti, kaip tekstynai gali būti panaudojami rengiant (mokomosios) leksikografijos produktą.
Leksikonas – leksinė duomenų bazė, kuriai yra sukurta vartotojo sąsaja, todėl leksikoną galima laikyti aktyviojo tipo mokomojo žodyno prototipu (leksikono
9 https://sitti.vdu.lt/fraziu-zodynas/
10 https://resursai.pastovu.vdu.lt/paieska/paprastoji
11 http://www.frazynas.flf.vu.lt/
12 https://sitti.vdu.lt/morfema/
13 https://kalbu.vdu.lt/mokymosi-priemones/leksikonas/
14 https://kalbu.vdu.lt/mokymosi-priemones/mokomasis-tekstynas/
15 https://kalbu.vdu.lt/mokymosi-priemones/mokiniu-tekstynas/
vartotojo sąsajos aprašas pateiktas 1 priede). Kituose lietuvių kalbos žodynuose, kaip jau rašyta anksčiau, dažnai trūksta vartosenos duomenų, o jie yra reikalingi geram aktyviojo tipo mokomajam žodynui, taip pat mokomosioms priemonėms parengti, kurios tiktų lavinant produkcinius gebėjimus ir kolokacinę kompetenciją. Leksikone sukaupta daug aprašomos leksikos vartosenos duomenų: kókios formos ir kokia leksinė bei gramatinė aplinka būdinga žodžiui. Pagal žodžio vartosenos dėsningumus sudaryti vartosenos modeliai, susieti su reikšmėmis, ir atrinkti pavyzdžiai. Leksikone pateikta 3700 vienažodžių ir keliažodžių leksinių vienetų (sudėtinių pavadinimų, frazeologizmų, posakių). Antraštyno formavimo principai išsamiai aptariami 1-ajame monografijos skyriuje.
Rengiant leksikoną, laikytasi tekstynų lingvistikos požiūrio į reikšmę – kur žodžio reikšmė yra suvokiama kaip žodis su artimiausiu kontekstu. Leksikonas iš kitų lietuvių kalbos žodynų išsiskiria taikyta tekstynų inspiruotos ir tekstynais paremtos leksikografijos metodika: 1) leksikono antraštynas yra suformuotas iš tekstyno, o ne perimtas iš ankstesnių žodynų; 2) žodžių ir žodžių junginių reikšmės leksikone atskleistos ne pateikiant reikšmių apibrėžtis, o nustatant tam tikram žodžiui, žodžių junginiui ar žodžio reikšmei būdingus vartosenos modelius, kuriuose fiksuojami leksiniai, gramatiniai ir semantiniai dėsningumai, nustatyti tiriant žodžio vartoseną tekstyne. Būtent dėsningumais remtasi ir atskiriant žodžių bei žodžių junginių reikšmes. Kalbos vartosenos dėsningumų tyrimams tekstynuose aptarti skirtas 2-asis monografijos skyrius, jame išsamiai aprašomas ir leksikone adaptuotas vienas iš leksinių vienetų vartosenos dėsningumų nustatymo būdų – vartosenos modelių analizė (angl. corpus pattern analysis, žr. Hanks 2004, 2013). Vartosenos modelių analizė rengiant leksikoną atlikta 207 veiksmažodžiams, 386 daiktavardžiams, 87 būdvardžiams, 41 prieveiksmiui.
Monografijos tikslas – remiantis leksikono pavyzdžiu, aprašyti tekstynų lingvistikos metodo taikymo galimybes lietuvių leksikografijoje siekiant atspindėti leksinių vienetų vartoseną.
Tikslui pasiekti buvo suformuluoti tokie uždaviniai:
1. Aprašyti leksikono antraštyno sudarymą remiantis mokomuoju tekstynu:
1) pristatyti leksikono šaltinį – mokomąjį tekstyną, aptarti šio tekstyno sudarymo principus, sandarą ir lingvistines ypatybes;
2) paaiškinti, kokiu principu atrinkta antraštyne atspindėta leksika, aprašyti leksikalizuotų kaitybinių formų, pastoviųjų žodžių junginių, darinių, homonimų pateikimą;
3) atlikti pirminį leksikono antraštyno tinkamumo vertinimą tikslinei grupei –lietuvių kalbos mokiniams16.
16 Remiantis Ramonienė et al. 2012, negimtosios kalbos mokymo praktikoje tam tikros kalbos besimokantys asmenys vadinami mokiniais, o juos mokantys asmenys – mokytojais. Tokie terminai vartojami ir šiame darbe.
2. Aptarti leksinių vienetų vartosenos dėsningumų tyrimo būdus remiantis teoriniais darbais ir kitų kalbų tyrimais.
3. Aprašyti leksikone atliktą leksinių vienetų vartosenos tyrimą: 1) pristatyti teorinius vartosenos modelių analizės principus;
2) aprašyti du vartosenos modelių analizės etapus: automatizuotą junglumo tyrimą ir lingvistų atliktą vartosenos modelių nustatymą bei aprašymą;
3) pateikti susistemintus duomenis apie leksikone aprašytų kalbos dalių vartosenos modelius.
4. Pagal leksikono atvejo analizės išvadas pateikti rekomendacijų kitiems lietuvių leksikografijos tyrimams, paremtiems tekstynais. Monografijos sandara. Monografiją sudaro įvadas, du skyriai, rekomendacijos, išvados, literatūros sąrašas ir priedai. Įvade aptariama problema, kad lietuvių kalbos žodynuose iki šiol nepakanka duomenų apie dabartinės kalbos vartoseną ir kalbos vartosenos dėsningumus, nors tekstynais paremtoje elektroninėje leksikografijoje yra metodų ir įrankių, kuriais remiamasi siekiant pateikti empiriškai pagrįstą kalbos vartosenos aprašą.
1-ajame monografijos skyriuje atsispindi paviršinis analizės lygmuo, čia diskutuojami su leksikono makrostruktūra susiję praktiniai ir teoriniai klausimai: pirmasis poskyris (1.1) skirtas aptarti, kaip buvo sudarytas mokomasis tekstynas, kurio pagrindu yra parengtas leksikonas, smulkesniuose poskyriuose aprašoma tekstyno sandara ir lingvistinės ypatybės. Antrajame poskyryje (1.2) siekiama paaiškinti antraštyno formavimo principą, kaip iš mokomojo tekstyno buvo atrinkta leksika į leksikono antraštyną. Atskirai aptarta, kaip, remiantis tekstyno duomenimis, nustatytos leksikalizuotos kaitybinės formos, pastovieji žodžių junginiai. Kadangi leksikonas rengtas kaip lietuvių kalbos kaip svetimosios mokymo reikmėms skirtas išteklius, yra pateikiamas pirminis antraštyno pritaikomumo vertinimas – leksikono antraštynas palygintas su MOKATE tekstyno dažniniu sąrašu. Pirmasis skyrius baigiamas poskyriu, kuriame aptariamos kelios svarbios antraštyno leksinių vienetų grupės: pastovieji žodžių junginiai, homonimai ir dariniai, šių grupių pateikimas leksikone. 2-ajame monografijos skyriuje, apimančiame leksikono mikrostruktūros aspektus, atsispindi gilusis analizės lygmuo: čia pirmiausia siekiama aprašyti tekstynų lingvistikos teorija paremtą požiūrį į reikšmės kūrimo būdus kalboje ir aptarti pokytį lingvistikoje – vartosenos duomenimis grįstą suvokimą, kad reikšmė kalboje kuriama keliuose lygmenyse. 2.2 poskyryje aprašyti tiek teoriniai, tiek praktikoje išbandyti būdai, kaip tirti ir aprašyti vartoseną tekstynuose; visus juos sieja supratimas, kad leksika ir gramatika yra susijusios. 2.1 ir 2.2 poskyriuose pateikta trumpa teorinė apžvalga parodo kontekstą, kuris svarbus ir šiame tyrime taikytai metodologijai – vartosenos modelių analizei.
Vartosenos modelių analizė išsamiai aprašoma 2.3 poskyryje: aptariami jos principai, terminija, praktinis taikymas. Tai vienas iš metodų, kuris prieš keletą metų pradėtas praktiškai naudoti ir kitų kalbų leksikografijoje (plg. DiMuccio Failla et al. 2017, Colman et al. 2018). 2.4 poskyris skirtas praktinei analizei: remiantis vartosenos modelių analizės metodu, mokomajame tekstyne buvo automatizuotai tiriami leksinių vienetų vartosenos dėsningumai. Čia išsamiai aprašomas modelių nustatymo automatizavimas panaudojant tekstyno analizės įrangą SketchEngine17; paaiškinama, kaip metodas buvo pritaikytas lietuvių kalbai, ir aptariami tiek praktiniai šio taikymo aspektai, tiek probleminiai klausimai, su kuriais atlikdami analizę susidūrė lingvistai. 2.5 poskyris skirtas leksikono vardažodžių ir veiksmažodžių gramatinių vartosenos modelių inventoriui aprašyti. Čia analizuojama vardažodžių ir veiksmažodžių modelių įvairovė, dažnumas; kiek įmanoma, parodytos gramatinių ir leksinių (semantinių) ypatybių sąsajos.
Kadangi 2-ojo skyriaus poskyriai didelės apimties, galvojant apie skaitytoją, apibendrinimai pateikiami ir po kiekvieno poskyrio, ir viso 2 skyriaus pabaigoje. 1-ajame skyriuje apibendrinimai pateikiami tik viso skyriaus pabaigoje.
Tekstynų taikymo galimybėms leksikografijoje pademonstruoti šioje monografijoje kaip atvejo analizę panaudojome vieną naujausių išteklių – leksikoną. Tai leido atskleisti tekstynų naudojimo galimybes rengiant leksikografinius išteklius, tačiau taip pat padėjo suprasti, kaip šios galimybės priklauso nuo šaltinio (tekstyno), kokių gali kilti praktinių problemų norint rengti leksikografinius išteklius iš tekstyno. Šioms problemoms pristatyti ir galimiems sprendimo būdams aptarti skirta rekomendacijų dalis monografijos pabaigoje.
Dirbdamos su palyginti nedideliu kalbinių duomenų kiekiu, leksikono sudarytojos ir šios monografijos autorės susidūrė su daug įvairių leksikografinio darbo aspektų. Visiems šiems aspektams aprėpti parengtas šis darbas. Jame konkretaus leksikografinio ištekliaus analizė padeda aiškiau pristatyti ir aptarti tekstyno panaudojimo galimybes leksikografijoje remiantis būtent lietuvių kalbos duomenimis. Tikimasi, kad sukaupti duomenys ir patirtis bus naudingi ir kitų (ne tik mokomųjų) lietuvių kalbos žodynų rengėjams.
Monografijos iniciatorė ir svarbiausia autorė yra J. Kovalevskaitė. Pirmajame monografijos skyriuje didžiausias indėlis yra J. Kovalevskaitės ir E. Rimkutės: E. Rimkutė rašė 1.1, J. Kovalevskaitė – 1.2 poskyrį, o 1.3 poskyrį parengtas abiejų autorių: 1.3.1, 1.3.2. – J. Kovalevskaitės, 1.3.3 – E. Rimkutės. Antrajame skyriuje pirmuosius tris teorinės apžvalgos poskyrius (2.1, 2.2., 2.3) parengė J. Kovalevskaitė. Rengiant 2.4 poskyrį, didžiausias indėlis yra J. Kovalevskaitės, prisidedant ir kitoms autorėms, o rengiant
17 Leksikono rengimo metu įranga SketchEngine buvo nemokamai prieinama leksikono sudarytojams, nes tuometis VDU Kompiuterinės lingvistikos centras dalyvavo ELEXIS (Europos leksikografijos infrastruktūrų) projekte (žr. https://elex.is/).
2.4.1.1 poskyrį daug prisidėjo ir vienas leksikono sudarytojų L. Boizou. 2.5 poskyrį parašė A. Bielinskienė, prisidėjo J. Kovalevskaitė ir E. Rimkutė. Monografijos tekstą redagavo E. Rimkutė ir A. Bielinskienė. Svarbi monografijos dalis yra ir aštuoni priedai. 1-ajame priede rasite aprašą, kokios informacijos galima ieškoti leksikone, kaip atlikti paiešką. 2-ajame priede surašyti mokomojo tekstyno rašytinio patekstynio šaltiniai, suklasifikuoti pagal tekstų tipus, žanrus. Kaip minėta, mokomasis tekstynas buvo automatiškai morfologiškai anotuotas, jame naudotas Leipcigo morfologinių pažymų standartas. Jis pateiktas 3-iajame priede. Šiame standarte vartojamus kalbos dalių, gramatinių kategorijų sutrumpinimus rasite leksikone. Vartosenos modelių analizei labai svarbios sintaksinės funkcijos. Jos su paaiškinimais pristatytos 4-ajame priede. 5-ojoje priedų grupėje pateiktas leksikono antraštynas (vienažodžiai ir keliažodžiai vienetai), taip pat palyginimo su MOKATE tekstyno dažniniu sąrašu duomenys. 6-ajame priede matyti, kurie leksikono antraštiniai žodžiai turi pamatinių žodžių ir (ar) darinių. 7-ojoje priedų grupėje rasite išsamią informaciją apie vartosenos modeliams naudotas leksines semantines grupes. Paskutiniame – 8-ajame priede skaitytojams parodome, kokioje leksikografinėje aplinkoje (MONGO duomenų bazėje) dirbo leksikono sudarytojai, kaip atrodo leksikografinio įrašo struktūra, priede yra paaiškintos atskiros leksikografinio įrašo dalys.
Monografijos autorės nuoširdžiai dėkoja kolegoms Loicui Boizou ir Mindaugui Petkevičiui už pagalbą apdorojant leksikono duomenis ir rengiant kai kuriuos monografijos priedus. M. Petkevičius padėjo išanalizuoti, suklasifikuoti MOKATE tekstyno duomenis, kurie naudoti vertinant leksikono antraštyną, taip pat lingvistinei analizei parengė minėto tekstyno ir leksikono antraštyno duomenis (žr. 5 priedą). Svarbus M. Petkevičiaus indėlis rengiant 7 priedą: jame pateikti duomenys, kurie gauti susiejus vartosenos modelių semantinio ir leksinio lygmens informaciją. L. Boizou išrinko informaciją apie leksikono darinius, įvairiais pjūviais padėjo suklasifikuoti leksikono antraštyną, pateikė kiekybinius duomenis apie mokomąjį tekstyną, parengė vartosenos modelių sąrašus, kurie išsamiai aprašyti 2.5 poskyryje. Taip pat dėkojame ir kitiems
VDU Skaitmeninių išteklių ir tarpdisciplininių tyrimų instituto darbuotojams, kurių komentarai padėjo patobulinti šią knygą. Nuoširdžias padėkas skiriame recenzentėms dr. Daivai Murmulaitytei ir doc. dr. Vilmai Zubaitienei už atidų perskaitymą, iškeltus svarbius ir aktualius diskusinius klausimus.
Tikimasi, kad šioje monografijoje diskutuojami teoriniai ir praktiniai klausimai paskatins plačiau naudoti tekstynus rengiant tiksliau lietuvių kalbos vartoseną atspindinčius leksikografinius išteklius – žodynus, duomenynus, leksines duomenų bazes. Daugeliui užsienio kalbų leksikografijos darbų tekstynų lingvistikos metodas jau įprastas, o lietuvių leksikografijoje, nors tekstynų lingvistika kaip metodas lingvistų akiratyje yra jau seniai, tekstynais remiamasi gana nedaug. Tekstynai gali būti naudingi visuose leksikografinio darbo etapuose, o leksikografų darbas gali būti efektyvesnis jį daugiau automatizuojant, todėl verta plačiau taikyti tekstynų lingvistikos metodą ir lietuvių leksikografijoje.
Leksikonas yra leksinė duomenų bazė, kurioje pateiktas konkrečiu tekstynu pagrįstas kalbos vartosenos aprašas, skirtas praktinėms kalbos mokymo(si) reikmėms. Nors leksikonas laikytinas tik mokomojo žodyno prototipu, tačiau pagal sukauptus duomenis atitinka aktyviojo tipo žodynams būdingą turinį, nes buvo sumanytas kaip duomenų šaltinis užpildyti dažną (mokomosios) lietuvių leksikografijos išteklių spragą – pateikti įvairialypius duomenis apie leksinių vienetų vartoseną. Kiti aiškinamieji lietuvių kalbos žodynai ne visada atspindi dabartinę tipišką vartoseną, juose daug sudėtingos ir (ar) jau senstelėjusios leksikos, trūksta dažnumo duomenų, gerų pavyzdžių. Rengiant leksikoną, buvo siekiama sukurti duomenų bazę, kurioje būtų galima rasti kuo daugiau informacijos apie žodžio vartoseną – autentišką, būdingą dabartinei lietuvių kalbai ir aktualią kalbos mokymui(si). Todėl leksikonas ir rengtas tekstyno pagrindu – tekstynas yra šaltinis, kuriame buvo galima ištirti aprašomų žodžių dažnumą, gramatinę bei leksinę aplinką, dažnas kaitybines formas. Tyrimuose apie negimtakalbių leksinę kompetenciją ir leksikos mokymąsi minima, kad mokėti vartoti tam tikrą žodį reiškia žinoti jo formą, reikšmę ir suprasti vartoseną, pvz., kaip rašomas ir tariamas, kokios jo kaitybinės formos, su kokiais žodžiais ir kokiuose junginiuose šis žodis įprastai vartojamas ir pan. (plačiau Nation 2013, cituojama iš Barclay et al. 2019: 803–804). Taigi leksikone pateikiami vartosenos duomenys apima duomenis apie (žr. 1 priedą apie paiešką leksikone):
• žodžio formą (kaip rašomas, kaip tariamas, kaip kirčiuojamas ir transkribuojamas);
• žodžio kaitybą (morfologinės formos, kuriomis tekstyne vartojamas aprašomas žodis) ir darybą (prie konkrečios reikšmės nurodyti dariniai, kurie yra tekstyne);
• žodžio reikšmę: reikšmė matyti iš vartosenos modelio (-ių), kuriame (-iuose) fiksuojama reikšm s gramatinė (gramatinis junglumas) ir leksinė aplinka (dažnai su aprašomuoju žodžiu tekstyne pavartoti žodžiai – kolokatai);
• konkrečiõs žodžio reikšm s vartosenos pavyzdžius, kuriuose atsispindi vartosenos modeliuose užfiksuota informacija. Kadangi leksikono medžiaga skirta kalbos produkavimo (rašymo, kalbėjimo) gebėjimams lavinti, recepcijos (skaitymo, klausymo) poreikiams patenkinti galima naudoti ne tik „Mokomąjį lietuvių kalbos žodyną“ (toliau – MLKŽ), bet ir atitinkamus
„Mokomasis
dvikalbius žodynus: atitikmenys savoje kalboje padėtų suvokti reikšmę, o leksikone aprašyti žodžių vartosenos modeliai ir pavyzdžiai atskleistų, kaip ta reikšmė realizuojama lietuvių kalboje (Kovalevskaitė et al. 2022a).
Leksikono projekte naudotasi nedideliu specialiuoju tekstynu (apie jo sandarą ir sudarymą žr. 1.1 poskyrį); jis, galima sakyti, buvo sudarytas specialiai leksikonui rengti, tačiau prieinamas ir kaip atskiras išteklius (portale https://kalbu.vdu.lt/). Mokomajam tekstynui analizuoti naudota tekstyno analizės įranga, ji padėjo sukaupti vartosenos duomenis rengiant ir leksikono makrostruktūrą, ir mikrostruktūrą:
1) sudaryti antraštyną tekstyno pagrindu aprėpiant ne tik vienažodžius, bet ir keliažodžius leksinius vienetus (žr. 1.2 poskyrį);
2) surinkti informaciją apie tiriamųjų leksinių vienetų kaitybines formas, kuriomis jie buvo pavartoti tekstyne, kartais – nustatyti kaitybines formas, kurios yra leksikalizuotos (žr. 1.2.1.1 poskyrį);
3) automatizuotai ištirti leksinių vienetų gramatines ir leksines vartosenos ypatybes, jų pagrindu nustatyti reikšmes, o gramatines ir leksines vartosenos ypatybes pateikti vartosenos modelių forma (žr. 2.4 poskyrį). Leksikone nebuvo siekta pateikti leksinių vienetų reikšmių aiškinimų, nes laikyta, kad žodžio reikšmę padeda suprasti ir atskirti jo vartosenos ypatybės. Toks požiūris į reikšmę perimtas iš tekstynų lingvistikos tyrimų (plačiau žr. 2.1 poskyrį).
Tolesniuose poskyriuose diskutuojami su leksikono makrostruktūra susiję praktiniai ir teoriniai klausimai: pristatomas leksikonui rengti naudotas tekstynas, aptariami leksikono antraštyno sudarymo principai ir antraštyno sandara.
Kaip jau minėta, leksikonas sudarytas iš mokomojo tekstyno. Šiame poskyryje aprašyta, kokio tipo šis tekstynas, kaip jis buvo sudarytas (žr. 1.1.1 ir 1.1.2 poskyrius); daug dėmesio skirta lingvistinėms ypatybėms (morfologinėms, sintaksinėms ir kt., žr. 1.1.3 poskyrį) aptarti, taip pat aprašyti programinės įrangos SketchEngine įrankiai ir funkcijos, ši įranga naudota mokomajam tekstynui analizuoti (žr. 1.1.4 poskyrį).
Leksikonui sudaryti naudotas mokomasis tekstynas – tai nedidelis vienakalbis specialusis tekstynas, skirtas lietuvių kalbos besimokantiems kitakalbiams, parengtas 2017–2019 m., kaip atskiras išteklius prieinamas portale https://kalbu.vdu.lt/18. Mokomajame tekstyne yra sukaupti gimtakalbių produkuoti tekstai ir tekstai iš vadovėlių,
18 Žr. https://kalbu.vdu.lt/mokymosi-priemones/mokomasis-tekstynas/.
Jolanta Kovalevskaitė, Agnė Bielinskienė, Erika Rimkutė
TEKSTYNAIS PAREMTI KALBOS VARTOSENOS TYRIMAI
LEKSIKOGRAFIJOJE
(„Mokomojo lietuvių kalbos vartosenos leksikono“ atvejis)
Monografija
Redaktorės Erika Rimkutė, Agnė Bielinskienė
Maketuotoja Skaidra Vaicekauskienė
2024 09 05. Užsakymo Nr. K24-032.
Išleido
Vytauto Didžiojo universitetas
K. Donelaičio g. 58, LT-44248, Kaunas www.vdu.lt | leidyba@vdu.lt