Kodowanie czasowników w Toposławie

Page 1

Monika Czerepowicka, Uniwersytet Warmińsko-Mazurski w Olsztynie Agata Savary, Université François Rabelais de Tour

Kodowanie czasowników w Toposławie Raport techniczny, instrukcja leksykografa

1

2 3

4 5 6 1

Spis treści Opis paradygmatyczny czasowników ..........................................................................................1 1.1 Zestaw kategorii i klas morfosyntaktycznych ....................................................................1 1.2 Koncepty i relacje ..................................................................................................................3 1.3 Kompletność paradygmatu ..................................................................................................4 Definiowanie grafów ......................................................................................................................6 Nieciągłości .....................................................................................................................................7 3.1 Argumenty jednostek ............................................................................................................8 3.1.1 Zestaw fraz i sposób notacji .......................................................................................8 3.2 Podmiot mianownikowy.....................................................................................................10 3.3 Szyk........................................................................................................................................10 Operacje składniowe a opis morfosyntaktyczny w Toposławie............................................11 Podsumowanie ..............................................................................................................................12 Bibliografia.....................................................................................................................................12

Opis paradygmatyczny czasowników

1.1

Zestaw kategorii i klas morfosyntaktycznych

Forma nieprzeszła (fin) Forma przyszła BYĆ (bedzie) Aglutynant BYĆ (aglt)

+1

+

x2

+

+

x

+

+

x

1Znak 2

„+” oznacza przyjmowanie różnych wartości danej kategorii. Znak „x” oznacza ustaloną wartość danej kategorii. 1

+

Kropka

Wokaliczność

aglutynacyjność

Akomodacyjność

Poprzyimkowość

Akcentowość

Aspekt

Stopień

Osoba

Rodzaj

Zanegowanie

Fleksem

Przypadek

Liczba

Toposław w obecnej postaci umożliwia kodowanie czasowników na poziomie fleksemów. Przypomnijmy, że zestaw znaczników morfosyntaktycznych, którymi posługuje się Toposław, to tagset NKJP. Przewiduje on 12 klas dla leksemów czasownikowych oraz osobne dwa fleksemy dla quasi-czasownika i czasowników typu WINIEN:


Pseudoimiesłów (praet) Rozkaźnik (impt) Bezosobnik (imps) Bezokolicznik (inf) Imies. przys. współczesny (pcon) Imies. przys. uprzedni (pant) Odsłownik (ger) Imies. przym. czynny (pact) Imies. przym. bierny (ppas) Winien (winien) Predykatyw (pred)

+

+

+

x +

Kropka

Wokaliczność

aglutynacyjność

Akomodacyjność

Poprzyimkowość

Akcentowość

Zanegowanie

Aspekt

Stopień

Osoba

Rodzaj

Przypadek

Liczba Fleksem

+

x x x x x

+

+

x

x

+

+

+

+

x

+

+

+

+

x

+

+

x

+

Tabela 1. Zestaw znaczników morfosyntaktycznych NKJP.

Jednak już kodowanie eksperymentalne uzmysławia, że stosowany w anotacji NKJP zestaw znaczników morfosyntaktycznych jest niewystarczający. Powstają pytania: Jakiemu fleksemowi należy przyporządkować formę analityczną trybu rozkazującego (niech czytają), formę czasu przyszłego złożonego (będę zbijał/będę zbijać, będziemy zbijać), formę trybu przypuszczającego, składającego się również z kilku fleksemów (zbijał-by-m)? Między innymi wspomniane wątpliwości skłaniają nas do rozszerzenia tagsetu NKJP o trzy superklasy (nadklasy) morfologiczne trybu: s_ind (tryb oznajmujący), s_cond (tryb przypuszczający), s_impt (tryb rozkazujący). Dodanie ich pozwala na grupowanie fleksemów w jednorodne grupy. Dzięki nim możemy również uniknąć niejednoznaczności wynikających z budowy odpowiednich form fleksyjnych (niech robi i róbmy to realizacje tego samego fleksemu?) lub braku odpowiedniości terminologicznej w samym tagsecie. Wyodrębnienie superklas trybu powoduje wprowadzenie również superkategorii morfologicznej czasu, którą można zaobserwować w formach trybu oznajmującego. Towarzyszą jej następujące wartości – S_Tense: s_past, s_pres, s_fut.

2


Czas

+ + +

Aspekt

+ +

Stopień

Osoba

+3 + +

Rodzaj

S_Cond S_Ind S_Impt

Przypadek

Superklasa

Liczba

Każdą z superklas cechuje indywidualny zestaw kategorii morfologicznych, por.:

x4 x x

+

Tabela 2. Zestaw kategorii morfologicznych superklas Toposława.

Do poszczególnych superklas należą odpowiednie fleksemy lub ich połączenia, np.: superklasa

superkategoria Tense

fleksemy

przykład

S_Ind

s_pres s_past

fin, praet, preat + aglt bedzie + praet bedzie + inf preat + qub + aglt imps + qub impt, qub + fin

zbija bąki zbijał, zbijała bąki zbijałem bąki będzie zbijał, będzie zbijała bąki będzie zbijać bąki zbijałbym bąki, zbijałabyś bąki zbijano by bąki zbijaj bąki niech zbija bąki

s_fut S_Cond S_Impt

Tabela 3. Relacje między superklasami i fleksemami w Toposławie.

Proponowany przez nas rozszerzony zestaw jednostek, jak i sposób ich opisu pozostaje w zgodzie z ideą anotacji składniowej NKJP (słowa i grupy składniowe, por. Głowińska 2012:108). Okazuje się bowiem, że opisując cechy morfologiczne czasowników frazeologicznych, kompletność ich paradygmatów, nie sposób pominąć zjawisk natury składniowej. 1.2

Koncepty i relacje

Rozszerzony zestaw etykiet morfosyntaktycznych umożliwia podanie pełnego paradygmatu czasownikowego. Potrzeba jednak jeszcze narzędzia, by odpowiednie fleksemy i ich formy przyporządkowywać określonej jednostce z wyższego poziomu opisu. Toposław dysponuje funkcją relacji. Pierwotnie została ona zaprojektowana do wyrażania relacji między obiektami topograficznymi. W szczególności chodzi o sytuacje, gdy na określenie jednego obiektu miejskiego (placu, ulicy) używa się kilku nazw. Wszystkie nazwy (hasła słownika) są związane relacją podstawową, potoczną lub nacechowaną, która informuje, do jakiego rejestru polszczyzny należy dana nazwa. Kodowanie czasowników frazeologicznych skłania natomiast do wykorzystania wspomnianej funkcji do wskazywania jednostek wyższego rzędu – leksemów, oraz do rejestrowania informacji o odpowiedniku aspektowym i, fakultatywnie, znaczenia jednostki.

3 4

Znak „+” oznacza przyjmowanie różnych wartości danej kategorii. Znak „x” oznacza ustaloną wartość danej kategorii. 3


Wiązanie fleksemów w leksemy odbywa się obecnie za pomocą relacji ‘podstawowa’, która ma postać zwrotu w bezokoliczniku: zbijał bąki ZBIJAĆ BĄKI zbijając bąki ZBIJAĆ BĄKI Relację ‘nacechowana’ wykorzystujemy do notowania czasownika przeciwnego aspektu, przy czym relacja taka pojawiałaby się wyłącznie przy fleksemach bezokolicznikowych, tak by nie wprowadzać niepotrzebnie wrażenia, że wszystkim fleksemom danego aspektu odpowiadają fleksemy przeciwnego aspektu, np. OBRZUCAĆ OBRZUCIĆ

[kogoś] BŁOTEM (imperf) OBRZUCIĆ [kogoś] BŁOTEM (perf)

[kogoś] BŁOTEM (perf) OBRZUCAĆ [kogoś] BŁOTEM (imperf)

ale: ROBIĆ BOKAMI

(imperf) *ZROBIĆ BOKAMI (perf)

WYCIĄGNĄĆ KOPYTA

(perf) *WYCIĄGAĆ KOPYTA (imperf)

Wydaje się, że funkcję relacji można wykorzystać również do notacji znaczenia zwrotu. Postulujemy utworzyć w tym celu ‘superkoncept’ (jednostkę z pozamorfoskładniowego poziomu opisu językowego – semantycznego). W obecnej wersji Toposława miałaby ona postać relacji ‘potoczna’. Znaczenie należałoby rozumieć nie jako podanie, objaśnienie znaczeń leksykalnych, pragmatycznych zwrotu, lecz przypisanie etykiety, pozwalającej skojarzyć ciągi bliskoznaczne. Wydaje się, że to stanowi dobry wstęp do umieszczania w słowniku, choćby uproszczonej, informacji semantycznej, a dokładniej takiej informacji semantycznej, która na obecnym etapie rozwoju narzędzi NLP byłaby operacyjna. Oczywiście, definicje równościowe, rozbudowane są z punktu widzenia semantyki są o wiele lepsze, lecz nie poddają się maszynowym operacjom. Natomiast etykiety, o których mowa, mogą stanowić pomoc w kojarzeniu ciągów niekojarzących się na poziomie kształtów leksykalnych Stosowane aktualnie nazwy poszczególnych relacji trzeba uznać za tymczasowe. W przyszłej wersji Toposława należałoby je zmienić na odpowiednio: podstawowa leksem potoczna odpowiednik aspektowy nacechowana znaczenie Ponieważ znacznie rozbudowuje się zakres informacji kodowanych w Toposławie, koniecznością staje się rozwinięcie aplikacji o funkcje zaawansowanego przeszukiwania zgromadzonych w niej informacji (np. filtrowanie haseł po relacjach, po leksemach, po kategoriach). Pozwoliłoby to na odfiltrowanie fleksemów jednego leksemu, znalezienie odpowiedników aspektowych oraz leksemów o podobnym znaczeniu, np. wówczas gdy zanotowane zostały wariantywne argumenty lub predykaty, por. padać z nóg – lecieć z nóg. 1.3

Kompletność paradygmatu

Jak wspomniano wyżej, kodowanie czasowników w Toposławie odbywa się przy użyciu fleksemów. Ponieważ są one osobnymi hasłami słownika, zasób form poszczególnych zwrotów jest widoczny już na poziomie siatki haseł, np.:

4


Rysunek 1. Fragment siatki haseł słownika.

Pierwszym etapem opisu jest przyporządkowanie leksemowi etykiety morfosyntaktycznej, pochodzącej z rozszerzonego zestawu klas morfologicznych:

Rysunek 2. Ogólny opis hasła.

Kolejno ustala się charakterystykę morfoskładniową poszczególnych członów fleksemu oraz ewentualnie zaznacza ich odmienność:

Rysunek 3. Oznaczenie odmiany poszczególnych członów hasła.

Następnie precyzuje się opis gramatyczny za pomocą grafu. 5


2

Definiowanie grafów Korzystanie z zaproponowango zestawu klas powoduje konieczność kodowania poszczególnych fleksemów oddzielnie dla danego leksemu. Nie oznacza to jednak, że każdemu fleksemowi danego czasownika przysługuje odrębny graf. W szczególności fleksemy nieodmienne poszczególnych zwrotów posługują się jednym grafem: bezokolicznik, bezosobnik, imiesłów przysłówkowy. We wszystkich wspomnianych typach form nie występują wartości kategorii odmiennych, jest natomiast ustalona wartość aspektu. W konsekwencji odpowiedni graf wygląda następująco:

Rysunek 4. Graf fleksemu bezokolicznikowego kopnąć w kalendarz.

Formy osobowe czasownika w tagsecie NKJP są przyporządkowane do kilku fleksemów: preat (pseudoimiesłów), fin (formy nieprzeszłe – teraźniejsze dla czasowników niedokonanych i przyszłe dla dokonanych), impt (rozkaźnik). Tagset przewiduje również fleksem bedzie, będący składnikiem form czasu przyszłego złożonego, jak np.: będę robił/robić, oraz aglutynant, czyli formy niesamodzielne czasownika BYĆ, będące składnikiem form czasu przeszłego, np.: poszedłem (poszedł – preat, -em – aglt). Formy nieprzeszłe oraz rozkaźnikowe syntetyczne generowane są na podstawie jednego grafu, bowiem obu fleksemom przysługują te same kategorie morfskładniowe: osoba i liczba, np.:

Rysunek 5. Przykładowy graf formy nieprzeszłej.

Trzeba jednak zauważyć, że formy trybu rozkazującego w polszczyźnie nie mają jednorodnej budowy – 2 os. liczby pojedynczej i 1, 2 os. liczby mnogiej mają budowę syntetyczną (w tagsecie NKJP odpowiada im fleksem impt), natomiast 1 i 3 os. liczby pojedynczej oraz 3 os. liczby mnogiej mają budowę analityczną. Związane z tym komplikacje skłoniły nas do wyodrębnienia superklasy morfologicznej trybu. Formy analityczne trybu rozkazującego powstają w wyniku złożenia słowa ‘niech’ i formy nieprzeszłej czasownika (fleksem fin). Sprawę dodatkowo komplikuje fakt, że tylko wybrane pozycje paradygmatu mają taką budowę. Stąd też konieczność dwu ścieżek dla rozkaźnika złożonego: pierwszej dla form liczby pojedynczej, drugiej dla form liczby mnogiej, por.:

6


Rysunek 6. Przykładowy graf form analitycznych trybu rozkazującego.

Formy czasu przeszłego (praet) w obecnie używanej wersji Toposława (1.0.5)5 można wygenerować na podstawie grafu, w którym zapisuje się odmianę przez osobę, liczbę i rodzaj, np.:

Rysunek 7. Przykładowy graf formy przeszłej.

Pozostaje to w sprzeczności z obowiązującym tagsetem, według którego pseudoimiesłów odmienia się wyłącznie przez liczbę i rodzaj. Problem wynika z nieaktualnej wersji Morfeusza, która współpracuje z Toposławem. Formy czasu przeszłego mają w niej status form syntetycznych. W aktualnej wersji Morfeusza (18.06.2014) formy typu kopnęłam powstają z połączenia pseudoimiesłowu o wartości żeńska kategorii rodzaju (kopnęłą) oraz niewokalicznej postaci aglutynantu (-m). Po zmianie Morfeusza w Toposławie konieczna będzie korekta odpowiednich grafów. 3

Nieciągłości Nieciągłość jako cecha polskich zwrotów jest zjawiskiem dość pojemnym. Mieszczą się w niej zarówno argumenty jednostek, możliwe podrzędniki argumentów, podmiot mianownikowy, jak i problemy związane z kolejnością (szykiem) składników połączeń. Ostatni ze wspomnianych problemów uznajemy, że znajduje się poza opisem paradygmatycznym, możliwym do osiągnięcia w Toposławie. Jest to ogólna cecha składniowa polszczyzny, nie właściwość samych frazeologizmów. Wydaje się, że opis wszelkich możliwych porządków linearnych w zdaniu polskim i jego ograniczeń powinien znaleźć się w stosownych regułach gramatycznych – składniowych, nie stanowić składnik opisu morfosyntaktycznego. Natomiast pozostałe z wymienionych nieciągłości włączamy do opisu jednostki w ramach Toposława. Należy jednak zaznaczyć że zjawiska te zacznie wykraczają poza opis stricte paradygmatyczny. Zdają bowiem sprawę z walencji jednostek, nie z ich odmiany. Jednak dopiero wypełnienie koniecznych ram walencyjnych sprawia, że mamy do czynienia z jednostką wielowyrazową – por. prawa ręka prezesa i prawa ręka.

5 Wiemy o istnieniu kolejnej wersji Toposław – 1.0.6. Jednak z niej nie korzystamy, ponieważ podczas kodowania eksperymentalnego okazało się, że jest to wersja niestabilna (nieprzewidywalna generacja form w grafach z więcej niż jedną ścieżką).

7


3.1

Argumenty jednostek

Wśród jednostek wielowyrazowych znajdujemy takie, które obligatoryjnie wymagają uzupełnienia o człon, najczęściej rzeczownikowy, w określonym przypadku gramatycznym. Jest to warunek konieczny zaistnienia frazeologizmu. Zjawisko to jest charakterystyczne dla zwrotów, np. trzymać [coś: nerwy, uczucia, język] na wodzy. Jednak spotkać je można także wśród wyrażeń frazeologicznych, czego przykład stanowi wspomniane wyżej wyrażenie prawa ręka [kogoś]. Podczas eksperymentów próbowałyśmy opisać je w Toposławie na kilka sposobów. Po pierwsze, listę leksemów, spełniających wymagania walencyjne można kodować bezpośrednio w pudełkach grafów. Rozwiązanie takie ma jednak zasadniczą wadę – niemal każdy fleksem wymaga osobnego grafu, listę za każdym razem należy wpisać na sztywno w grafie. Po drugie, do kodowania członów wymiennych można użyć w grafach pudełek niedospecyfikowanych co do kształtu leksemu, notować w nich wyłącznie wartość wymaganego parametru gramatycznego (np. przypadek). Zasadnicza trudność związana z tym rozwiązaniem polega na tym, że nie wiadomo, jakie formy miałyby być generowane w miejscu takiego niedospecyfikowanego pudełka. Kolejne rozwiązanie polega na tym, że w hasłach używa się form leksemów KTOŚ, COŚ – na oznaczenie miejsc rzeczownikowych – oraz SENT (zdanie) – na oznaczenie miejsc walencyjnych realizowanych przez jednostki zdaniowe (lub zdaniopodobne). Formy leksemu KTOŚ i COŚ podlegają odmianie, lecz z powodu odmiennego zapisu (pisane wersalikami) ich formy odróżniają się od form faktycznych leksemów występujących w hasłach słownika. Niestety, takie rozwiązanie okazuje się niewystarczające, ponieważ leksemy KTOŚ i COŚ nie odmieniają się przez liczbę (Singulare Tantum), a niestawianie ograniczeń co do liczby rzeczownika wydaje się warunkiem potrzebnym lub wręcz koniecznym w notacji argumentów. Możliwe jest jednak jeszcze inne rozwiązanie. W haśle odnotowujemy wyłącznie człony niewymienne, natomiast dla oddania walencji jednostki wielowyrazowej tworzymy w grafach człony sztuczne, z poziomu metajęzykowego, co omawiamy szczegółowo poniżej. 3.1.1

Zestaw fraz i sposób notacji

W utworzonych w grafach pudełkach notujemy właściwości formy, która jest członem koniecznym, choć wymiennym, frazeologizmu. Do jej cech zaliczymy typ frazy, wartość (wartości) koniecznych parametrów morfosyntaktycznych oraz ewentualne ograniczenia semantyczne, np.:

Rysunek 8. Graf formy bezokolicznikowej zwrotu trzymać [coś] na wodzy.

Na potrzeby analizowanych dotychczas jednostek proponujemy następujący zestaw fraz (i ich realizacji na poziomie grup składniowych), przy czym lista ta w sposób naturalny wraz z kodowaniem kolejnych jednostek może ulec zmianie:

8


symbol frazy

nazwa frazy

realizacja na poziomie grup syntaktycznych

NP

fraza rzeczownikowa

grupa rzeczownikowa, grupa liczebnikowa…

SP

fraza zdaniowa

zdanie reszta

Tabela 4. Wykaz fraz stosowanych w Toposławie.

Jeśli miejsce walencyjne wypełnia fraza rzeczownikowa, po typie frazy następuje wartość kategorii morfologicznej przypadka. Posługujemy się następującymi skrótami: symbol

nazwa

NOM

mianownik

GEN

dopełniacz

DAT

celownik

ACC

biernik

INST

narzędnik

LOC

miejscownik

Tabela 5. Wykaz przypadków gramatycznych.

Jeśli natomiast oczekiwania walencyjne spełnia fraza zdaniowa, po typie frazy następuje jej doprecyzowanie. Za (Saloni, Świdziński 1998) wyróżniamy frazy typu ŻE i BY – od postaci spójników podrzędnych rozpoczynających frazę6. Na trzecim miejscu podaje się informację o ograniczeniach, cechach semantycznych leksemu, który stanowi wypełnienie otwieranego miejsca. Proponujemy następujący zestaw cech, przy czym należy zaznaczyć, że lista ta może ulec zmianie: symbol cechy

objaśnienie

przykładowe realizacje 7

HUM

rzeczownik osobowy

HUM-COL

rzeczownik kolektywny

NHUM

Jan, Maria, student, dziecko, prezes tłum, naród, duchowieństwo 8

rzeczownik nieosobowy

uczucia, nerwy, język

Tabela 6. Wykaz znaczników semantycznych stosowanych w Toposławie.

Jeśli zbiór możliwych argumentów można podać poprzez wyliczenie jego elementów (zbiór zamknięty), to zamiast cechy semantycznej notujemy informację: HEAD-at-LIST, a samą listę możliwych wypełnień umieszczamy w komentarzu do hasła, np.:

6

Frazę typu BY, oprócz by, reprezentują spójniki aby, żeby, iżby, natomiast frazę ŻE – oprócz oczywistego spójnika że również iż. 7 W słownikach tradycyjnych miejsce to markuje się formą leksemu KTOŚ. 8 W słownikach tradycyjnych miejsce to markuje się formą leksemu COŚ. 9


Rysunek 9. Komentarz do hasła trzymał [coś] na wodzy.

3.2

Podmiot mianownikowy

W Toposławie decydujemy się również odnotowywać podmiot w mianowniku. Choć jest to stała właściwość wszystkich form osobowych czasownika i jako taka należy do zbioru reguł gramatycznych, to potrzebne wydaje się odnotowanie ograniczeń semantycznych podmiotu. Może się to bowiem wiązać z blokowaniem form poszczególnych leksemów. Należy jeszcze dodać, że notacja podmiotu mianownikowego wynika ze sposobu kodowania czasowników. Odnotowywanie poszczególnych fleksemów pozwala z jednej strony precyzyjniej (kategorialnie) określić ograniczenia danego zwrotu, z drugiej – regulować ilość faktycznie otwartych miejsc walencyjnych. Nie wszystkie fleksemy otwierają przecież tyle samo miejsc, por. bezokolicznik, bezosobnik, imiesłowy przysłówkowe. By odnotować możliwą realizację podmiotu, w grafach form osobowych trybu oznajmującego zaznaczamy ścieżkę omijającą dany element, np.:

Rysunek 10. Przykładowy graf fleksemu nieprzeszłego.

3.3

Szyk

Warianty szyku zaliczamy do cech składniowych polszczyzny i decydujemy się szczególnie ich nie wyróżniać, poza sytuacjami, kiedy z jakiś powodów określony porządek linearny składników jest zablokowany. Weźmy na przykład połączenie dać [komuś] [coś] do zrozumienia. Kolejność składników zwrotu jest właściwie swobodna, z wyjątkiem sytuacji, gdy rolę koniecznego argumentu [coś] zajmuje fraza zdaniowa, np.: 1. W rozmowach dano nam do zrozumienia, że brytyjski premier przychyliłby się do prośby Polski9.

9

Cytowane przykłady pochodzą z pełnej wersji NKJP (dostęp 27.06.2014). 10


W tym wypadku konieczne wydają się dwie ścieżki w grafie:

Rysunek 11. Graf fleksemu da [komuś] [coś] do zrozumienia.

Na podstawie pierwszej ścieżki generowane są połączenia typu: 2. Po niedawnym meczu z Legią Warszawa odbyłem rozmowy z zawodnikami, które - mam nadzieję – dały im coś do zrozumienia.

Druga ścieżka pozwala generować połączenia typu: 3. Teraz Piotr uwierzył, że może podołać nauce, tym bardziej, że nauczyciele dali mu do zrozumienia, iż są chętni w dalszym ciągu mu pomagać.

4

Operacje składniowe a opis morfosyntaktyczny w Toposławie Zwroty frazeologiczne, podobnie jak leksemy czasownikowe, podlegają systemowym transformacjom, operacjom składniowym. Jedną nich jest zmiana wartości przypadka gramatycznego podrzędnika nominalnego (argumentu przyczasownikowego) z biernika na dopełniacz. Dzieje się tak w przypadku negacji oraz w wyniku tworzenia regularnych derywatów odczasownikowych – gerundium i imiesłowów przymiotnikowych, por.: (Jan) zbija bąki. (Jan) nie zbija bąków. zbijanie bąków, niezbijanie bąków (negacja nie zmienia już raz zmienionej wartości przypadka) zbijający bąki niezbijający bąków Wydaje się, że negacja form osobowych oraz tworzenie gerundiów nie stanowi problemu w Toposławie. Pierwszy wypadek interpretujemy jako systemowe zjawisko składniowe, nie właściwość paradygmatu. Należy więc zdać z niego sprawę w odpowiednich regułach gramatycznych zdania, nie w tabeli odmiany. występuje. Niekiedy czasownik nie dopuszcza negacji. Ponieważ nie ma sposobu kodowania systematycznie tego typu informacji w haśle, proponujemy zapisywać ją w komentarzu do hasła. Nominalizacja czasowników nie stanowi problemu, ponieważ kodowanie fleksemów wymusza już podanie formy dopełniaczowej. Problem stanowi natomiast odmiana imiesłowów przymiotnikowych przez negację, a mówiąc ściślej transformacja, podczas której dochodzi do zmiany 11


wartości przypadka rzeczownika z biernika na dopełniacz, por.: zbijający bąki, niezbijający bąków. W konsekwencji otrzymanie pełnego paradygmatu staje się niemożliwe, ponieważ w kategoriach morfologicznych rzeczownika negacja nie występuje. Problemu nie sprawia natomiast pasywizacja. Czasowniki jej podlegające tworzą imiesłów bierny, a ten jest kodowany jako osobny fleksem. 5

Podsumowanie Wprowadzone w Toposławie zmiany umożliwiają: − odmianę czasowników (ich fleksemów) we frazeologizmach (z dokładnością do błędów w starym Morfeuszu10); − łączenie fleksemów w leksemy (na poziomie relacji podstawowej); − łączenie różnych frazeologizmów o podobnym znaczeniu (na poziomie relacji nacechowana); − łączenie par aspektowych czasowników (na poziomie relacji potoczna); − kodowanie członów swobodnych11 w grafach w postaci elementów zewnętrznych o konwencjonalnych nazwach (np. NP, HUM itp.).

Niestety, mimo starań dotychczas niemożliwe jest kodowanie wszelkich form aglutynacyjnych (z powodu błędów w wersji Morfeusza aktualnie współpracującej z Toposławem). Tylko pośrednio, w komentarzu, zdajemy sprawę z wariantów leksykalnych członów głównych zwrotów (np. PADAĆ|LECIEĆ NA NOS), jak również z wyjątkowych, specyficznych ograniczeń szyku. Z pewnością dalszych prac wymaga podanie kompletnej listy znaczników semantycznych, służących do kodowania członów wymiennych. Wydaje się, że zaproponowany sposób kodowania właściwości paradygmatów frazeologizmów czasownikowych może znaleźć zastosowanie w innych pracach, związanych z maszynowym przetwarzaniem polszczyny, np. rozbudowie słownika walencyjnego Walenty, implementacjach gramatyki POLFIE, analizie składniowej programem Świgra oraz w znakowaniu składniowym NKJP (na poziomie słów składniowych) i bankach drzew. 6

Bibliografia Głowińska 2012: Katarzyna Głowińska, Anotacja składniowa [w:] Narodowy Korpus Języka Polskiego (red. Przepiórkowski i in.), PWN Warszawa, s. 107–127.

Saloni, Świdziński 1998: Zygmunt Saloni, Marek Świdziński, Składnia współczesnego języka polskiego, wyd. IV zmienione, PWN Warszawa. Woliński 2009: Marcin Woliński, A relational model of Polish inflection in Grammatical Dictionary of Polish. In Zygmunt Vetulani and Hans Uszkoreit, editors, Human Language Technology: Challenges of the Information Society, volume 5603 of Lecture Notes in Artificial Intelligence, pages 96–106. Springer-Verlag, Berlin, 2009.

10 11

Morfeusz nie generuje np. form 2 os. liczby mnogiej dla fleksemów nieprzeszłych (fin). Człony te mogą być podane poprzez wyliczenie lub ogólnie scharakteryzowane. 12


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.