31 minute read

L'uso dei corpora bilanciati nella compilazione di dizionari bilingui

PAOLO CALVETTI

L’uso di corpora bilanciati nella compilazione di dizionari bilingui. Il caso del progetto del grande dizionario giapponese-italiano

Introduzione

Lo sviluppo di software dedicato al trattamento di dati testuali, la presenza di computer sempre più potenti e veloci, e la creazione, per le principali lingue nazionali, di banche-dati testuali di ampie dimensioni, hanno determinato negli ultimi decenni un’attenzione maggiore per le potenzialità della “linguistica dei corpora” (corpus linguistics) sia in ambito teorico, sia nei suoi usi pratici nella didattica delle lingue straniere, nella traduzione automatica, nella lessicografia.

Nel caso della lingua giapponese, grazie alle iniziative di istituti di ricerca di eccellenza,1 sono stati realizzati corpora linguistici di dimensioni notevoli, comparabili al British National Corpus (BNC), al Corpus di Italiano Scritto contemporaneo (CORIS/CODIS), al Corpus de Referencia de la Lengua Española Contemporánea (CREA) o al Corpus Storage, Maintenance and Access System (COSMAS) dell’Institut für Deutsche Sprache.

L’utilizzazione di tali risorse può essere di grande aiuto anche per la compilazione di dizionari bilingui, permettendo un agevole reperimento di esempi testuali da inserire nelle fraseologie esemplificative dei lemmi e facilitando lo studio delle collocazioni lessicali, particolarmente importanti in quei dizionari bilingui destinati a fruitori che non siano madrelingua dell’idioma di partenza, quale è il caso di un dizionario giapponese-italiano destinato a lettori italiani. In precedenza, presentando il Progetto del Grande Dizionario Giapponese-Italiano, vi è stata occasione di descrivere lo stato della lessicografia bilingue italiano-giapponese2 e lamentare la carenza di dizionari raffinati che possano venire incontro alle sempre più articolate necessità di quanti in Italia utilizzano il giapponese per motivi di studio, lavoro, ricerca. Non è quindi necessario ritornare in questa sede sull’argomento. Vale piuttosto la pena di chiarire brevemente i vantaggi della linguistica dei corpora e soffermarsi sui progressi del trattamento dei dati testuali della lingua giapponese, per analizzare le potenzialità che questa metodologia può avere anche nel campo della lessicografia bilingue.

1 Basti ricordare il Departement of Corpus Linguistics del National Institute for Japanese Language and Linguistics (Kokuritsu Kokugo Kenkyūjo) di Tokyo o il Computational Linguistics Laboratory del NAIST (Nara Sentan Kagaku Gijutsu Daigakuin Daigaku) di Nara. 2 Paolo Calvetti, “Perché un nuovo dizionario giapponese-italiano”, in Luisa Bienati e Matilde Mastrangelo (a cura di), Un’isola in Levante. Saggi sul Giappone in onore di Adriana Boscaro, ScriptaWeb, Napoli 2010, pp. 389-403.

La linguistica dei corpora

Più che una branca della linguistica a sé, la linguistica dei corpora costituisce un approccio metodologico. Grazie ai sistemi informatici che permettono la consultazione sincronica di grandi quantità di dati provenienti da testi distinti e indipendenti, si è tornati a dar peso all’osservazione dei “fatti” reali della produzione linguistica, dopo decenni di ricerche teoretiche sulle lingue naturali che hanno messo in ombra l’importanza del controllo, tramite exempla testuali, della validità delle intuizioni dei linguisti.

La convinzione che le competenze innate di ogni parlante madrelingua siano sufficienti ad accertare l’accettabilità di un dato enunciato, senza il ricorso ad una prova “testuale”, ha fatto sì che linguisti come Noam Chomsky abbiano svalutato tale approccio metodologico, convinti che i corpora non costituirebbero una risorsa esaustiva, risultando persino fuorvianti perché registrano errori e distorsioni:

Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list.3

Questo tipo di osservazioni, di per sé non prive di fondamento, non legittimano tuttavia in maniera automatica la pretesa infallibilità delle competenze del parlante madrelingua. È vero, infatti, che qualsiasi corpus, per quanto quantitativamente esteso, non può essere considerato “completo”, mentre può finire per registrare fedelmente “errori”, intesi come atti linguistici non accettati dalla comunità di parlanti. Al tempo stesso, però, è anche vero che il repertorio che il madrelingua è in grado di realizzare in base alle sue “competenze innate” (non in via teorica ma nella realtà) è altrettanto incompleto e l’analisi introspettiva del madrelingua non è garanzia assoluta di rappresentatività, né è esente da cosiddetti errori.4

Per contro l’utilizzazione di banche dati testuali, qualitativamente e quantitativamente rappresentative, rende possibile un’osservazione della lingua “oggettiva” grazie a strumenti informatici che permettono l’interazione di più variabili (tratti morfologici, lessicali, sintattici, ecc.) nella selezione degli exempla, offrendo allo studioso (madrelingua o meno) un campionario di atti linguistici “veri” che posso-

3 Noam Chomsky, “A Transformational Approach to Syntax, in Archibald Hill (a cura di) Proceedings of the Third Texas Conference on Problems of Linguistic Analysis in English, University of Texas, Austin 1962, pp. 124-159, citato in Tony McEnery, Andrew Wilson, Corpus Linguistics, Edimburgh University Press, Edimburgh 20012, p. 10. 4 Ciò che un singolo parlante crede essere vero a proposito di un determinato fatto linguistico (per esempio che un certo verbo o aggettivo possa essere usato in un determinato contesto), non è necessariamente vero per un altro parlante, come dimostrano le comuni discussioni tra parlanti madrelingua a proposito di cosa “si possa o non si possa dire” nella propria lingua. A tal proposito si veda, come esempio di falsa convinzione, un’affermazione proprio di Chomsky a proposito del verbo inglese perform, citata in McEnery, Wilson, Corpus Linguistics, cit., p.11.

no andare oltre le esperienze performative personali del singolo parlante. Le banche dati testuali, compilate in base a principî espliciti (il tipo di campione linguistico: lingua parlata o lingua scritta, testi tecnici o testi letterari, ecc.) costituiscono perciò una preziosa risorsa di ricerca e, se strutturate come “corpora bilanciati”,5 assicurano una più alta rappresentatività qualitativa della lingua oggetto di studio.

Va ricordato che la lessicografia ha tradizionalmente fatto ricorso a dati empirici, come le citazioni da testi reali – in genere appartenenti ad un canone riconosciuto all’interno di una cultura – e che quindi l’uso di corpora non è una novità del recente passato. Ma è anche vero che la “linguistica dei corpora” ha cambiato oggi l’approccio con cui il lessicografo, e il lessicologo, osservano la lingua. Le potenzialità relative al dato quantitativo, vale a dire la possibilità dello studioso di richiamare con un personal computer centinaia o migliaia di contesti fraseologici di una determinata parola da un corpus di milioni di parole, ha mutato anche la qualità dell’analisi, permettendo un’osservazione più precisa, per esempio, della semantica dei lemmi oggetto dell’analisi, così come delle loro collocazioni, vale a dire delle combinazioni di parole che più spesso ricorrono in presenza del lemma ricercato, o ancora delle espressioni polirematiche la cui semantica è frutto del concorso sincronico di più elementi lessicali e non della sommatoria dei significati delle singole parole.6

Il BCCWJ (Balanced Corpus of Contemporary Written Japanese)

Il Kokuritsu Kokugo Kenkyūjo (National Institute for Japanese Language and Linguistics) di Tōkyō ha realizzato, con un progetto durato 5 anni, un corpus bilanciato basato sulla lingua scritta contemporanea che registra un totale di circa 100 milioni di “parole”7 conosciuto come BCCWJ (Balanced Corpus of Contemporary Written Japanese, in giapponese Gendai nihongo kakikotoba kintō kōpasu). Sul lavoro, terminato nel 2011, sono stati scritti ormai numerosi articoli, relativi al progetto e alla sua struttura, così come alle potenziali applicazioni e utilizzazioni future.8

5 Come si dirà più avanti a proposito del BCCWJ (Balanced Corpus of Contemporary Written Japanese), per “corpus bilanciato” comunemente si intende una raccolta di dati testuali selezionati sulla base di un determinato equilibrio tra generi testuali diversi (lingua scritta, lingua parlata, linguaggio tecnico, testi di chat di internet, testi letterari, articoli di quotidiani, saggi accademici, ecc.) che mira a rappresentare differenti ambiti della produzione linguistica di un dato idioma. 6 Sull’uso dei corpora e sul contributo della linguistica dei corpora alla lessicografia si veda Vincent B.Y. Ooi, Computer Corpus Linguistics, Edimburgh University Press, Edimburgh 1998; in part. pp. 1-19. 7 Per “parole”, o più correttamente tokens, si intendono le unità morfologiche segmentate nel corpus. Sono quindi computate come singole unità sia lessemi (uchi, utsukushii, taberu) sia parti funzionali del discorso (wa, to, -reru, -saseru, ecc.) 8 Tra gli altri, Maekawa Kikuo, “Kotonoha, the Corpus Development Project of the National Institute for Japanese Language”, Language Corpora: Their Compilation and Application (Proceedings of the 13th NIJL International Symposium), Tokyo 2006, pp. 55-62. Si vedano, in part., gli Atti del Convegno

La successiva tabella (Fig.1) illustra schematicamente le tipologie dei campioni di testo selezionati per costruire il corpus e assicurare il suo “bilanciamento”.

Subcorpus pubblicazioni

Libri, riviste e quotidiani pubblicati tra il 2001 e il 2005

35 milioni di parole Subcorpus a fini speciali Libri bianchi, testi da internet, trascrizioni parlamentari, best seller, ecc. Subcorpus biblioteche

Libri acquisiti in 13 biblioteche pubbliche di Tōkyō pubblicati dopo il 1985

30 milioni di parole

35 milioni di parole

Fig. 1 I principali subcorpora che costituiscono il BCCWJ

Il primo subcorpus raccoglie una campionatura di libri, riviste e quotidiani pubblicati tra il 2001 e il 2005: sono incluse anche opere considerate ormai “classiche”, per esempio della letteratura moderna, tuttora ristampate e vendute. La lingua rappresentata nel BCCWJ è quella quindi utilizzata in anni recenti, anche solo in funzione “passiva” (quella di lettura) e non necessariamente “prodotta” nell’arco di tempo che racchiude la campionatura dei testi. Il secondo subcorpus pone invece l’accento sulla diffusione e popolarità delle pubblicazioni: sono state qui raccolte opere che godono del favore dei frequentatori delle biblioteche pubbliche della capitale. Infine il terzo subcorpus include testi tecnici, come leggi o libri bianchi del governo, ma anche blog comparsi su Yahoo! Japan: si tratta in tutti i casi di registri linguistici peculiari che esprimono sottolessici settoriali (della politica, del diritto, ma anche slang giovanili come nel caso dei testi raccolti sul web).

I campioni contenuti nel BCCWJ sono accompagnati da una ricca messe di informazioni relative al testo (autore, anno di pubblicazione, sesso dell’autore, genere testuale), e anche all’analisi linguistica: dalle etichettature morfologiche (le parti del discorso), alle notazioni morfologiche per le parti del discorso soggette a flessione (indicazione delle coniugazioni e delle basi dei verbi e degli aggettivi). Queste annotazioni mostrano un alto livello di coerenza e facilitano il lavoro del lessicografo nell’identificazione di informazioni quali le etichette grammaticali (aggettivo, aggettivo nominale, nome ecc.) che, come diremo più avanti, non sono sempre evidenti.

L’uso del BCCWJ è reso particolarmente efficace da Chūnagon, un programma on-line di consultazione del corpus del Kokuritsu Kokugo Kenkyūjo, grazie al quale è possibile operare selezioni dei subcorpus e delle fonti, in base al genere dei testi (ma anche alla data di pubblicazione, al sesso dell’autore, ecc.), e di introdurre diverse variabili nella ricerca dei contesti. Si potrà, per esempio, decidere di cercare un determinato verbo, nella sua forma passiva, al passato, che termini con il suffisso colloquiale gentile -masu e che sia preceduto da un agente animato. La possibilità

internazionale MEXT-Monbukagakushō, a cura di, Tokutei ryōiki kenkyū “Nihongo kōpasu” Heisei 22 nendo kōkai wākushoppu yokōshū, Kokuritsu Kokugo Kenkyūjo, Tokyo 2011.

di introdurre diverse variabili nella ricerca di un determinato contesto frasale ci permetterà di studiare quale tipo di particella abbiamo dopo l’agente di una frase passiva (ni, ni yotte, kara nel caso citato del passivo) e vedere quale particella è statisticamente più rilevante dal punto di vista quantitativo. Potremo anche studiare quali siano gli elementi che interagiscono con la selezione delle forme alternative, o individuare eventuali variazioni tra frasi di registro linguistico diverso o frasi con tempi verbali diversi.

Consideriamo l’alternativa di uso di o e ga come marca dell’oggetto di un predicato desiderativo (come nella frase ringo ga/o tabetai ‘vorrei mangiare una mela’): Chūnagon ci permette di impostare la maschera di ricerca come segue (Fig.2), indicando di volta in volta le due diverse posposizioni (in questo caso utilizzate come variabile principale della ricerca) e premettendo che il suffisso desiderativo -tai sia ricercato in tutte le sue possibili realizzazioni (passato, condizionale, gerundivo, negativo, ecc.).

Fig. 2 Le maschere di ricerca di Chūnagon con i parametri *nome-ga/o suff-v -tai

Nei due casi esemplificati nelle illustrazioni, la ricerca è stata quindi impostata secondo i parametri: • qualsiasi nome-ga/o suffisso verbale -tai (entro 3 parole dopo posp. oggetto) • Chūnagon ci restituisce schermate come le seguenti (Figg. 3 e 4) dalle quali possiamo osservare i diversi contesti frasali (con le informazioni metalinguistiche di cui abbiamo già detto in precedenza) e i relativi dati quantitativi. Nel caso di una ricerca di dati con i parametri nome-ga/o V-tai, abbiamo come risultato 21.573 occorrenze, di cui 2.551 dove ga marca l’oggetto, e ben 19.022 casi in cui l’oggetto è invece marcato dalla posposizione o. 9

9 Si tratta di una mera osservazione quantitativa, ma è utile perché di norma il modello “minoritario” N-ga V-tai viene indicato come forma standard, o come prima alternativa, nella formazione della frase

Fig. 3 Un campione di esempi con la struttura N-o V-tai elicitati con Chūnagon dal BCCWJ.

Fig.4 Un campione di esempi con la struttura N-ga V-tai elicitati con Chūnagon dal BCCWJ.

Un’osservazione sulla correlazione tra l’uso delle posposizioni e la semantica dei predicati verbali è utile sia ai fini della descrizione della sintassi, sia per le possibili applicazioni nell’insegnamento del giapponese a discenti stranieri, in quanto la presentazione secondo categorie semantiche di modelli sintattici può facilitare l’apprendimento e la memorizzazione della combinazione di nomi-posposizioniverbi.

Prendendo il caso del verbo hashiru si nota che l’occorrenza alternativa delle posposizioni contribuisce in maniera determinante al cambiamento della semantica del verbo stesso:

a.N ni hashiru ‘scivolare verso’ (anche metaf.) popyurizumu ni hashiru minshutō seiken ‘il governo del Partito Democratico che sta scandendo nel populismo’

desiderativa giapponese, anche nei manuali o nelle grammatiche per stranieri più recenti e accurate. Si veda per esempio Silvana De Maio, Carolina Negri, Junichi Oue, Corso di lingua giapponese, I, Hoepli, Milano 2007, p.174; Matilde Mastrangelo, Naoko Ozawa, Mariko Saito, Grammatica giapponese, Hoepli, Milano 2006, p. 100.

b.N o hashiru ‘correre/spostarsi in un luogo’ Kodomotachi ga kōen no naka o hasshitte iru. ‘I bambini corrono nel parco’

c.N e / ni hashiru ‘passare rapidamente / fuggire verso un punto’ Nanbei e hashitta ga, tōtō tsukamatta. ‘Era fuggito in Sud America, ma alla fine è stato catturato.’

d.0 hashiru (intr. correre, muoversi rapidamente; metaf. volare) Mainichi yonjuppun gurai hashitte iru. ‘Ogni giorno faccio circa 40 minuti di corsa’.

In casi come questi il dato quantitativo permette un ampio riscontro delle correlazioni tra modelli sintattici e realizzazioni semantiche, divenendo un ausilio importante per l’organizzazione di una mappatura dei significati espressi da una determinata forma, o degli elementi morfologici che ricorrono in quanto collocazioni sintattiche e lessicali: tutti fattori importanti anche per la compilazione di un learner’s dictionary.

Le osservazioni possibili non si limitano certo alle singole parti del discorso, come negli esempi appena citati, ma possono, tra l’altro, interessare strutture sintagmatiche che, a seconda delle collocazioni lessicali, danno esiti semantici diversi.

Si consideri per esempio la seguente struttura:

suji no tōtta n linea gen attraversare-perf n

La costruzione suji no tōtta costituisce un sintagma che modifica il nome che segue, come nelle frasi 1. e 2.:

1.suji no tōtta kaishaku una spiegazione logica

2.suji no tōtta kireina hana un bel naso dritto

Il sintagma risulta assumere significati diversi, a seconda del tipo di nome che segue, in espressioni che: a. hanno una valenza polirematica; b. si applicano a campi semantici con valore distinto (metaforico oppure concreto); c. si legano ad una gamma di collocati ristretti a campi semantici individuabili (sfera del ragionamento o della morale oppure tratti somatici).

La frase 1. è un esempio di espressioni come suji no tōtta riron (‘una teoria razionale’), suji no tōtta benkai (‘una scusa plausibile’), suji no tōtta kōdō (‘un comportamento retto’). La frase 2. descrive qualità fisiche del corpo umano, ma il sintagma si applica solo alla collocazione hana (‘naso’, come nella frase 2.) nel caso abbia funzione di modificatore del nome, altrimenti il morfema suji diviene a sua

volta modificato da un primo elemento lessicale di un composto (modificatoresuji) come in hana-suji no tōtta hosoomote (‘un volto delicato con un naso dritto’), se-suji no tōtta rōkyōju (‘un’anziano professore dalla schiena [ben] dritta’).

Il verbo tōru (‘attraversare’), lo stesso che compare negli esempi precedenti, è usato anche in espressioni equivalenti a ‘passare un esame’ (shiken ni tōru) o ‘essere approvato’ (p.es. in kokkai o tōru, ‘essere approvato in parlamento’). Anche in questo caso il verbo, utilizzato con sensi diversi, prevede prescrittivamente che le posposizioni ni e o marchino il nome che è paziente dell’azione del verbo (nei due esempi, rispettivamente, shiken ‘esame’ e kokkai ‘parlamento’). Una ricerca sul BCCWJ rileva che, anche se l’uso normativo è predominante, non sono pochi i dati in cui troviamo frasi in cui l’uso delle posposizioni ni e o risulta inverso rispetto agli esempi appena citati (come in kokka shiken o tōreba gakusei demo shikai to shite no shikaku o motte imasu ‘anche uno studente, se passa l’esame di stato, acquisisce lo status di odontoiatra’; hōan ga dekite ite, kokkai ni tōreba shikō suru mikomi desu ‘la proposta di legge è pronta e se passa in parlamento si prevede che entri in vigore’). È interessante rilevare che l’uso shiken ni e kokkai o sembra esercitare un forte effetto normativo, come si è dimostrato con un’indagine su un campione di madrelingua.10 Sottoponendo infatti una selezione di esempi estratti dal BCCWJ a 8 parlanti di madrelingua giapponese una grande maggioranza (7 a 1) ha seguito il modello shiken ni e kokkai o, pur avendo ricevuto istruzioni per le risposte che includevano l’alternativa d’uso delle due posposizioni. Questo avvalora l’ipotesi che ciò che i madrelingua pensano circa la “correttezza” degli enunciati non corrisponde necessariamente all’uso reale della lingua, come già osservato a proposito dei postulati di Chomsky. Va inoltre rilevato che gli esempi che contraddicono la norma nell’uso delle posposizioni abbinate al verbo tōru sono tratti da pubblicazioni verosimilmente passate al vaglio di editor e, di conseguenza, che non possono essere considerati lontani dallo “standard” linguistico giapponese, né frutto di “errori” di grammatica.

L’uso dei corpora bilanciati nella redazione dei dizionari bilingui

Le potenzialità dell’utilizzazione di corpora bilanciati, fin qui delineate in modo sintetico e parziale, per quel che riguarda l’analisi delle lingue, e nello specifico del giapponese, trovano applicazione anche nella compilazione di dizionari bilingui, con una particolare utilità, come si è detto, per i cosiddetti learner’s dictionary.

10 Agli informatori madrelingua è stata sottoposta una campionatura di frasi in cui erano presenti proposizioni del tipo shiken ni tōru oppure kokkai o tōru cancellando le posposizioni del nome e chiedendo, come per gli esercizi a riempimento, di completare le frasi con ni oppure o. Si veda Paolo Calvetti, “Itariajin muke no Wa-I jiten no hensan ni okeru BCCWJ no kōken. The Contribution of BCCWJ in the Editing on a Japanese-Italian Dictionary for Italian Readers”, in Monbukagakushō kagaku kenkyūhi tokutei ryōiki kenkyū “Nihongo kōpasu” sōkatsuhan (a cura di), Gendai nihongo kakikotoba kinkō kōpasu. Kansei kinen kōenkai, Kokuritsu Kokugo Kenkyūjo, Tokyo 2011, pp. 217-225; in part. p. 223.

Qui, per learner’s dictionary si intende, restrittivamente, “un dizionario bilingue, destinato a fruitori che non siano madrelingua della lingua di partenza, e i cui lemmi non si limitino al lessico di base”. Com’è risaputo, i dizionari bilingui, al di là delle eventuali intenzioni dei compilatori e, ancor più delle pubblicità e delle promesse delle case editrici, non sono utilizzabili in modo equivalente e con pieno profitto da fruitori madrelingua dei due idiomi inclusi nel dizionario. Vale a dire che, di norma, un dizionario giapponese-italiano viene usato da un italiano per “comprendere” quali siano gli equivalenti in italiano (lessicali, fraseologici, grammaticali) di un testo giapponese di cui non riesce a cogliere pienamente il significato, mentre serve a un nipponofono per “produrre” in italiano un enunciato che veicoli un messaggio equivalente a quello della frase giapponese di cui ha piena competenza in quanto madrelingua.

A mo’ di esempio, si può ipotizzare il caso in cui un italiano, cercando il lemma kome, troverà come corrispondente italiano riso, accompagnato da esempi fraseologici del tipo kome o taku (‘cuocere il riso’), kome o togu (‘lavare il riso strofinandolo’), kome o tsukuru (‘coltivare il riso’), kome o tsuku (‘brillare il riso’). Nessuna informazione, per esempio, sarà fornita circa la limitazione del campo semantico di kome che non permette di usare la forma per indicare il ‘riso sulla pianta’ (ine), il ‘riso come pietanza’ (meshi/gohan), né le differenti accezioni di significato delle due frasi kome/meshi o taberu dove kome e meshi (o gohan) non sono intercambiabili.11 Se la funzione del vocabolario giapponese-italiano si limitasse alla trasposizione “passiva” verso la madrelingua del fruitore (una traduzione uno-ad-uno dei singoli elementi lessicali della frase), anche un dizionario concepito per giapponesi assolverebbe lo scopo. Tuttavia il lessico delle lingue costituisce una rete di significanti che sottendono legami semantici tra dominî lessicali e campi semantici di cui i dizionari dovrebbero dar conto. Il lettore italiano, rimanendo all’esempio di kome, verrebbe portato ad attribuire una relazione biunivoca tra kome e riso e sarebbe indotto in errore in caso di “produzione” della lingua, pensando che le occorrenze dell’italiano riso possano essere sempre rese in giapponese con kome. Parlare di ‘riso’, in giapponese, necessita, oltre ai termini citati, di altri numerosi significanti tra cui raisu, un prestito dall’inglese, che benché designi lo stesso referente di meshi e gohan, connota la stessa parola con il senso di ‘riso cotto per una pietanza yōshoku’ (‘cucina occidentale’), oppure come shari, che fa parte del sottolessico della cucina giapponese riferendosi alla parte di riso che forma il sushi.

Altra questione è la presentazione, all’interno dei lemmi, delle accezioni semantiche. I dizionari, in verità non solo quelli bilingui, tendono ad organizzare i diversi sensi dei lemmi secondo una gerarchia che ripete i modelli lessicografici del passato, spesso ispirati ad una presunta semantica “propria” del lemma (come se al processo

11 Infatti mentre meshi o taberu è una forma non marcata, equivalente all’italiano ‘mangiare riso’ (una pietanza possibile del menu), kome o taberu significa ‘mangiare riso’ (come alimento base, in alternativa ad altro alimento, gli spaghetti per esempio, o altro cereale) come nella frase bengarujin wa asaban, kome bakari tabete iru (‘i bengalesi, mattina e sera, mangiano sempre riso’). Infine, ma non è pertinente in questa discussione, la prima frase può essere equivalente di ‘fare un pasto’ dove ‘riso’ diviene ‘alimento’ per antonomasia.

di significazione non concorressero altri elementi della frase). Come ha evidenziato Yamazaki Makoto, sulla distribuzione dei sensi in termini polisemici, spesso i dizionari privilegiano i sensi concreti rispetto a quelli metaforici, quelli storicamente predominanti rispetto all’uso nella lingua contemporanea.12

Per esempio, nel Meikyō Kokugo Jiten13 le accezioni del verbo atsukau, e del suo deverbale atsukai, sono presentate entrambe secondo il medesimo ordine, cui si riferiscono i numeri della Fig. 5: 1. ‘manovrare, azionare’ (una macchina, un utensile), 2. ‘trattare, accogliere’ (una persona), 3. ‘occuparsi’ (come lavoro) di qualcosa, ‘occuparsi di una questione, 4. ‘rispondere, relazionarsi’ (a/con qualcosa).

Questa tendenza, pur con le dovute eccezioni e differenze nella suddivisione delle accezioni (che possono variare da vocabolario a vocabolario), si manifesta anche nei dizionari bilingui. Yamazaki ha invece dimostrato che, come nel caso di atsukau/atsukai, la distribuzione delle accezioni non riflette la gerarchia presentata nei dizionari e che non vi è simmetricità tra la distribuzione del verbo e quella del nome da esso derivato. Come si evince dalla figura seguente, nel caso del verbo, è la terza accezione che ha il primato statistico, seguita dalla prima, dalla seconda e poi dalla quarta, mentre è proprio la quarta accezione che risulta più usata quando si tratta di atsukai, nome, nel senso di ‘trattamento’, ‘modo di trattare’ come nei sintagmi kodomo atsukai (‘il trattare qualcuno come [fosse] un bambino’), tokubetsu atsukai (‘trattamento speciale’).

accezione verbo atsukau

1 27% (2) nome atsukai

9,5%(2)

2

3 15,5%(3)

47,5%(1) 28,5%(2)

13,5%(3)

4 10%%(4) 48,5%(1)

Fig. 5 Distribuzione delle accezioni di atsukau e atsukai

Ciò significa che chi consulta il dizionario ha una probabilità di trovare risposte alla sua ricerca con una proporzione diversa, se non a volte inversa, rispetto alla frequenza d’uso. L’utilizzazione di corpora bilanciati, quindi, oltre a consentire, come risultato marginale, la realizzazione di dizionari di più facile consultazione, apre interessanti prospettive per quel che riguarda la descrizione della distribuzione dei significati

12 Yamazaki Makoto, “Tagigo ni okeru imi no bunpu. Distribution of Senses in Polysemy”, in Monbukagakushō Kagakukenkyūhi Tokutei Kenkyūryōiki Nihongo Kōpasu Sōkatsuhan (a cura di), Tokutei ryōiki kenkyū “Nihongo kōpasu”, Kokuritsu Kokugo Kenkyūjo, Tokyo 2011, pp. 395-402. La Fig. 5 è adattata da Yamazaki, cit., p. 399. 13 Kitahara Yasuo, Meikyō Kokugo Jiten, Taishūkan, Tokyo 2002, citato in Yamazaki, ibidem.

delle forme lessicali, riuscendo a restituire il quadro del peso specifico delle diverse accezioni dei lessemi e dei loro rapporti statistici, e rendendo ancora più chiaro che la semantica delle forme lessicali dipende dal processo di significazione all’interno della frase e può variare diacronicamente sulla base di mutate consuetudini d’uso.

Altro aspetto cruciale nella compilazione dei dizionari bilingui è quello delle collocazioni e del raffronto delle corrispondenze tra le lingue. Com’è risaputo, i diversi campi semantici di un lessema di una data lingua non necessariamente (o meglio quasi mai) coincidono con quelli di un’altra. Di conseguenza in un dizionario bilingue ci si confronta prima di tutto con l’anisomorfismo lessicale, vale a dire la differenza dell’organizzazione delle forme del lessico per “coprire” i campi semantici relativi alla stessa realtà fattuale. Per esempio, la forma scala copre in italiano i campi semantici che in giapponese sono distinti ed i cui significanti hanno due forme differenti: kaidan (scala di un immobile) e hashigo (una scala portatile, a pioli). Viceversa scalinata o gradinata rientrano nel campo semantico espresso dal solo lessema kaidan e una esplicitazione, in giapponese, dei tratti semantici che distinguono scalinata e gradinata da scala, necessiterebbe di un elemento modificatore come dai- (‘grande’) in daikaidan (sia per ‘scalinata’, sia per ‘gradinata’ nella sua accezione di sinonimo di scalinata).

Ma l’asimmetricità del lessico non si limita ai singoli lessemi. Come si è detto, un importante aspetto della lingua è rappresentato dalle collocazioni sintattiche che costituiscono un elemento ulteriore di asimmetricità nella compilazione di un dizionario bilingue. Le informazioni relative all’uso delle posposizioni (si è visto in precedenza il caso del verbo tōru) così come le combinazioni di un determinato lemma con altre parole, mentre sono di scarsa importanza per un giapponese che consulti un dizionario giapponese-italiano, sono invece di alta rilevanza per un madrelingua italiano, sia per un eventuale uso produttivo delle informazioni contenute nel dizionario, sia per la ricerca rapida e mirata nella fraseologia esemplificativa nelle diverse sezioni della voce, distinte secondo i sensi del lemma.

Consideriamo il verbo kasu (‘prestare’). Nei dizionari giapponesi i campi semantici sono generalmente due: 1. ‘concedere l’uso ad altri, per un tempo limitato, di un oggetto o di una cosa di propria proprietà’; 2. ‘offrire ad altri le proprie capacità, il proprio lavoro’. Nei dizionari bilingui, spesso questi due campi semantici vengono distinti in tre accezioni, soprattutto perché il campo 1. ha un’utilizzazione specializzata nel senso di ‘prestare dietro pagamento’, equivalente in italiano (e ad altre lingue come l’inglese, il francese, ecc.) a ‘concedere in affitto’. Tuttavia una più ampia analisi delle collocazioni che accompagnano il verbo kasu, condotta per esempio con il BCCWJ, svela una gamma di combinazioni che necessitano di una correlazione articolata con gli “equivalenti” frasali italiani. Le seguenti sono solo una selezione limitata delle più ricorrenti che meriterebbero l’inclusione in un dizionario bilingue:

te o kasu (‘dare una mano’, soprattutto metaf.), kata o kasu (‘sostenere’ metaf.) mimi o kasu (‘dare ascolto’) kao o kasu (‘partecipare ad un incontro su richiesta di qualcuno’) mune o kasu (‘aiutare fisicamente/fare da sparring partner per allenamenti di sumō’)

ude o kasu (‘dare il braccio per sostenere qualcuno’) chie o kasu (‘dare un consiglio’) toire o kasu (‘permettere l’uso del gabinetto’) hi o kasu (‘fare accendere una sigaretta’) na / meigi o kasu (‘concedere l’utilizzo del proprio nome/nominativo’) manshon o kasu / ie o kasu / apāto o kasu (‘dare in affitto un appartamento’)

Si nota infatti che all’interno della bipartizione dei campi semantici (1. e 2. poc’anzi ricordati), proposta tradizionalmente dai dizionari monolingui giapponesi, le collocazioni danno vita a espressioni che in italiano corrispondono a polirematiche, e che non sarebbero quindi ricavabili dalla traduzione dei singoli elementi lessicali. I sintagmi kao o kasu e kata o kasu sono, per esempio, costituiti da un lessema che designa una parte del corpo (rispettivamente ‘la faccia’ e ‘la spalla’), entrambi oggetto del verbo transitivo kasu. Il significato delle due espressioni è metaforico ed equivale all’italiano ‘partecipare ad un incontro su richiesta di qualcuno’ (p.es. per sostenere colui che l’ha chiesto) e ‘sostenere qlcu.’. Stessa osservazione potrebbe essere estesa agli altri esempi. Qui è evidente che il verbo kasu come arcisemema di ‘offrire qualcosa (oggetto concreto o cosa astratta), senza remunerazione, a favore di qualcuno’ funge da elemento formante di espressioni che utilizzano elementi metaforici (faccia nel senso di ‘ruolo sociale’, spalla nel senso di ‘supporto’, orecchio nel senso di ‘ascolto’) per significare un generico ‘concedere’ specificato proprio dagli elementi che nel sintagma hanno il ruolo grammaticale di oggetto. Per un madrelingua italiano il legame metaforico non risulta trasparente e diviene quindi necessario fornire corrispondenti frasali per ciascuna delle collocazioni. Anche in questo caso, da cui escludiamo le pur possibili espressioni idiomatiche,14 è evidente l’importanza di un corpus ampio a cui fare riferimento per enucleare le collocazioni statisticamente rilevanti dei lemmi selezionati per la compilazione di un dizionario.

Il BCCWJ, come si è detto all’inizio, fornisce anche informazioni a proposito delle categorie grammaticali (le “parti del discorso”) che sono organizzate secondo principî descrittivi e pragmatici e perciò non seguono necessariamente la tradizione grammaticale giapponese. È il caso, per esempio, dei cosiddetti aggettivi nominali (o “aggettivi in -na) che nella terminologia scolastica, ripresa dai dizionari monolingui, sono definiti keiyō dōshi (‘verbi descrittivi’). Com’è noto si tratta di una categoria di parole che hanno funzione di modificatori dei nomi (come gli aggettivi), morfologicamente uguali ai nomi e che talvolta possono svolgere anche funzione di nomi comuni. Tali variabili non sono prevedibili e la categoria grammaticale può essere definita solo sulla base di un’analisi contestuale. Mentre di kirei (‘bello’; pulito’) non è attestato l’uso come nome15, nel caso di zankoku (‘crudele’, ‘brutale’) troviamo che la stessa forma può ricorrere in frasi con valore di nome comune (‘cru-

14 Come nella frase hisashi o kashite omoya o toreru (lett. ‘prestata la tettoia si viene privati della fabbricato principale’), che può essere parafrasata dall’italiano ‘dai un dito e ti prendono il braccio’. 15 Nel BCCWJ kirei, su un totale di 6373 occorrenze, ricorre solo 7 volte seguito dalla marca dell’oggetto o (indice quindi di un suo possibile uso come nome), ma in contesti stilistici molto particolari che non autorizzano a considerarlo un sostantivo.

deltà’, ‘brutalità’). L’indicazione morfologica nei dizionari monolingui giapponesi, è uguale per entrambe le forme che sono categorizzate come keiyō dōshi (‘verbi descrittivi’), quindi “aggettivi nominali”. In più è interessante notare che, limitandoci agli esempi ora proposti, nel caso di zankoku, accanto ad una forma nominalizzata ottenuta per derivazione dall’aggiunta del suffisso -sa (zankokusa ‘crudeltà’, analogamente a kirei ‘bello’ > kireisa ‘bellezza’) esiste anche la forma zankoku con funzione di nome, come nella frase zankoku o kirau (‘provare ripugnanza per la brutalità’).

Anche in questo caso scopriamo che le funzioni sintattiche di zankoku hanno una distribuzione che varia quantitativamente: il suo primo uso assoluto è quello di aggettivo nominale, il secondo quello di nome derivato tramite il suffisso -sa e solo al terzo posto lo troviamo usato indipendentemente come nome.

Sommando le diverse considerazioni che abbiamo fatto sino a questo punto, e a mo’ di esempio dei risultati potenziali dell’uso del BCCWJ per la compilazione di un dizionario giapponese-italiano, riportiamo una prova della voce zankoku redatta per il Progetto del Grande Dizionario Giapponese-Italiano (IsIAO e Università Orientale di Napoli) messa a confronto con quella che compare nel Dizionario Giapponese-Italiano di Nishikawa Ichirō e nel Progressive Japanese-English Dictionary di Kondō Ineko et al.. 16 Il confronto principale è con l’esempio del Dizionario di Nishikawa, ma è utile osservare anche la soluzione del Progressive Dictionary poiché le due opere, pubblicate dalla casa editrice Shōgakukan, mostrano un’impostazione lessicografica molto simile.

Prova di voce del Grande Dizionario Giapponese-Italiano

16 Per la prova di voce del Progetto del Grande Dizionario Giapponese-Italiano ringrazio per le acute osservazioni il Dr. Giuseppe Giordano (Dipartimento di Studi Asiatici – Università “L’Orientale” di Napoli), schedatore del lemma zankoku, con cui ho discusso alcune soluzioni per la compilazione del lemma.

Nishikawa Ichirō, Dizionario Giapponese-Italiano, Shōgakukan, Tokyo 20082

Kondō Ineko et al., Progressive Japanese-English Dictionary, Shōgakukan, Tokyo 20023

Come si evince dai tre esempi, con l’ausilio dei dati del BCCWJ è possibile redigere una voce di dizionario che descriva in maniera molto più dettagliata: a. le categorie grammaticali; b. gli usi fraseologici; c. le collocazioni lessicali e di conseguenza una più ampia gamma di “corrispondenze” semantiche e lessicali con la lingua di arrivo. L’etichettatura (taggatura) delle parti del discorso fa stato dell’uso reale dei lemmi e, come abbiamo visto nel caso di zankoku, è possibile presentare gli usi ordinati secondo la loro rappresentatività statistica, indicando la differenza di status rispetto ad altre forme omologate tutte sotto l’etichetta di “aggettivo nominale”.17 Va ricordato per inciso che spesso i dizionari bilingui giapponesi, concepiti per lettori giapponesi, non forniscono nessuna informazione sulle parti del discorso, dando per scontato che il madrelingua giapponese abbia già tali conoscenze.18

Conclusioni

Riassumendo brevemente quanto si è descritto sino ad ora sull’uso dei corpora bilanciati nella compilazione di dizionari bilingui, pensiamo di aver contribuito ad affermare che il corpus testuale, pur non rappresentando una risorsa esclusiva per

17 Qui indicato come a.2 (aggettivo di secondo tipo), per differenziarlo dagli aggettivi “veri e propri” (a.1) che in giapponese, com’è noto, hanno una radice e una parte variabile (taka-i, utsukushi-i, ecc.). 18 Un’eccezione è rappresentata dal “classico” Kenkyūsha’s New Japanese-English Dictionary curato da Masuda Kō, Kenkyūsha, Tokyo 19744. Nel caso specifico di zankoku assegna al lemma le categorie di nome e aggettivo in -na, anche se non registra la possibilità di avere due usi di nome: il sostantivo nella sua forma originaria e la nominalizzazione dell’aggettivo in -na per mezzo del suffisso nominalizzatore -sa.

l’analisi della lingua (e conseguentemente per il lavoro del lessicografo), costituisca un ausilio imprescindibile per l’osservazione funzionale della lingua.

Grazie ad una selezione mirata delle tipologie dei campioni testuali, che sono identificabili e perciò controllabili dal punto di vista del genere e delle sue caratteristiche stilistiche, lessicali, sintattiche, i corpora bilanciati forniscono un laboratorio circoscritto ma ben “attrezzato” per la ricerca degli usi lessicali. La selezione è di per sé soggettiva e passibile di correzioni, integrazioni e variazioni del peso relativo dei vari generi rappresentati nel corpus ma permetterà, per esempio, di scegliere il sesso dello scrivente e, attraverso la scelta di campioni di parlato-scritto (i dialoghi di un romanzo o la trascrizione sottoposta a riadattamento editoriale di interviste), osservare i tratti morfo-sintattici che caratterizzano, per esempio, il linguaggio femminile o quello maschile.

Gli strumenti informatici ora a disposizione sono infine il mezzo attraverso il quale una messe di dati, fino a epoche recenti magmatica e di difficile fruizione, può essere consultata tramite l’interrogazione dei computer ed organizzata secondo variabili anche complesse che possono coinvolgere, contemporaneamente, diversi piani dell’analisi morfologica e sintattica, come pure diafasica e diastratica.

Le obiezioni di Chomsky negli anni ’60 del secolo scorso, forse sono in parte il frutto dello stato dell’arte delle tecnologie informatiche applicate alla linguistica. Oggi è invece possibile consultare corpora di dimensioni considerevoli, ricavando in pochi secondi enormi quantità di esempi d’uso che mettono in grado lo studioso di svolgere autonomamente ricerche tecnicamente impossibili fino a qualche anno fa, una condizione che rende pragmaticamente favorevole l’approccio della linguistica dei corpora.

Ulteriori passi in avanti a favore della lessicografia bilingue si potranno probabilmente compiere grazie alla compilazione di corpora paralleli19 e di strumenti informatici ancora più raffinati per la loro consultazione. Sarà possibile attraverso di essi approfondire le differenze interlinguistiche di semantica lessicale, sintassi e pragmatica contribuendo alle ricerche sulla traduzione automatica.

19 Si veda in questo volume il contributo di Patrizia Zotti, “Costruire un corpus parallelo giapponeseitaliano. Metodologie di compilazione e applicazioni”.

Using Balances Corpora in Editing Bilingual Dictionaries

Up to recent time the editing of Japanese bilingual dictionaries has not made use of electronic data bases projected and carried out during many years. This is true also for Japanese-Italian and Italian-Japanese dictionaries available on the market. The possibility to use balanced corpora (very large data bases constituted by text samples belonging to different genres) gives new and unusual research’s perspectives. As a matter of fact, corpus linguistics, differently from computational linguistics that reduces languages to syntax-grammar’s procedures, focuses on the meaning’s negotiation amongst the participants to a certain discourse (the realization of a text), having the interpretation of sense situated in a real and pragmatic sphere. By applying this epistemological procedure to the work of the lexicographer is possible to have dictionaries in which a sampling of the “real language” is represented. At the same time it is also possible to add much information about the use of words besides semantics explanations usually listed in traditional bilingual dictionaries. In this paper I introduce the project of editing a modern Japanese-Italian dictionary conceived for Italian readers, using the BCCJW (Balanced Corpus of Contemporary Written Japanese) a corpus of more than one hundred million words developed by the Kokuritsu Kokugo Kenkyūjo. A part is dedicated to “collocations”, i.e. the co-occurences of different parts of speech that contribute together to the formation of meaning, which are very important for the “right” interpretation of the language in particular for not native speakers.

対訳辞典編纂における均衡コーパス使用の利点

パオロ・カルヴェッティ

最近まで日本語対訳辞典の編纂の作業では、以前より作成されてきた 言語データベースが利用されていなかった。事実、市販の日伊・伊日 辞典の場合も同様である。 現在、利用可能になった均衡コーパス(各種ジャンルの文章を収集し た大規模な言語データベース)は未曾有の新しい研究の展望を切り開 ける。コーパス言語学は、言語をシンタクス・文法の仕組みに転向す る計量言語学と違い、ディスコース(文の実現としての)に関わって いる話者の意味のネゴシエーションを扱い、意味解釈を現実かつプラ グマティックな範囲に置く。 このような認識論的なやり方を辞書編纂に適用することによって、日 常の言語実態に近い言葉のサンプルが含まれている辞典を編纂するこ とが可能になり、意味解釈関係の情報のほか、現存の辞典、特に対訳 辞典より実用的な数多くの情報を提供することができるようになる。 本稿ではBCCJW(『現代日本語書き言葉均衡コーパス』、1億語以上 のデータを収納したコーパス)を利用して、イタリア語の母語話者向 けの新構想の辞典の編纂計画を紹介する。更に、別して外国人にとっ て「正しい」意味解釈に大切である、コロケーション(意味形成に貢 献する単語の共起)についても言及する。