Go to Arachnion nr. 2 - contents or to Arachnion - home page

Studiare lo stile dei testi per mezzo delle frequenze[*]

Sommario

Elaborazioni sul significato delle forme non sono oggi possibili
Perplessità di fronte ai conteggi di frequenza delle forme
Le frequenze delle forme di un testo devono essere interpretate
Tutte le frequenze - basse, alte - sono interessanti
Non solo forme, ma anche segmenti, patterns
Giungere allo stile per mezzo delle frequenze
Strumenti informatici utilizzabili per giungere allo stile attraverso le frequenze
Problemi metodologici connessi con l'uso di strumenti informatici
1. Il campionamento
2. L'ordine delle parole nel testo
Una distinzione importante: lingue in evoluzione e lingue stabilizzate
I punti di riferimento mancanti
La valutazione delle ricerche

Elaborazioni sul significato delle forme non sono oggi possibili

Ciò che con un computer si può fare facilmente, di fronte ad un testo, è contare le occorrenze delle parole (delle forme grafiche) che lo compongono. Si parla di forme (forme grafiche), più che di parole per precisare che - in pratica - non è facile ricondurre all'unità del lemma la variabilità morfologica della lingua: ciò richiederebbe la presenza nel computer (nella coppia computer-programma di analisi) di una competenza analitica che per molte lingue (italiano, tedesco, ...) sarebbe molto difficile da codificare; ma anche di una competenza semantica assolutamente irraggiungibile: di fronte ad una frase come «La vecchia legge la regola», «legge » è nome o verbo? Oppure: «Sul tavolo, una chiave rosa»; «rosa» è verbo o aggettivo? Le diverse possibili analisi delle forme in questione si inseriscono poi nel contesto dell'analisi dell'intera frase, e comunque di fronte a ciascuna delle analisi possibili solo la conoscenza del contesto permette di comprendere quale significato corretto attribuire alla frase.

Tale contesto, però, non può essere definito o delimitato a priori: e proprio ciò rende difficile realizzare traduzioni automatiche con buoni risultati al di fuori di contesti molto ristretti (testi scritti in lingue settoriali: manuali tecnici, atti dei vari organismi dell'Unione Europea, e simili; che comunque richiedono revisioni finali umane). Un essere umano si trova al contrario nella condizione di saper di volta in volta definire e delimitare il contesto, senza bisogno di conoscere l'Universo intero. Una situazione che richiama l'interessante questione sollevata dalla grammatica generativa: un parlante umano, sulla base di un numero finito e ristretto di esempi d'uso, acquisisce la competenza necessaria a produrre frasi di numero infinito ed a giudicare sulla grammaticalità di qualsiasi frase gli si presenti; mentre nessun programma di computer arriverebbe a ciò nelle stesse condizioni.

Dunque non è possibile risolvere le ambiguità insite nell'uso del computer per contare frequenze di forme decidendo di utilizzarlo per elaborazioni non quantitative: il computer, che non ha competenza semantica, può essere utilizzato proprio solo per contare occorrenze.

Perplessità di fronte ai conteggi di frequenza delle forme

L'uso, nel titolo di questo articolo, di un termine come stile è volutamente provocatorio, sia in sé e per sé, in quanto pare indicare un oggetto sfuggente e in vario modo legato ad una concezione datata della letteratura (stile come forme, elementi, che rendono elegante ed ornata l'espressione verbale orale o scritta); sia in rapporto agli strumenti informatici che ne dovrebbero permettere lo studio e che sono marcati, come si diceva, dalla loro intrinseca natura quantitativa.

Essa è sentita come un limite grave per gli studi sui testi. Un testo recente scrive infatti: «I risultati dell'analisi quantitativa sono assai discutibili, dal momento che l'indice di frequenza [...] non comporta di per sé un tasso maggiore di informazioni, al contrario, un messaggio è tanto più informativo quanto meno è prevedibile.»[1], con ciò implicitamente identificando approccio quantitativo e attenzione alle frequenze alte.

Tale posizione è coerente con una lunga pratica dell'attività filologica, orientata a valorizzare e ad attribuire importanza, nello studio di un testo, alle parole usate di rado, alle parole con occorenze rare: e parole di un testo che risultano essere hapax [1bis] attirano l'attenzione dello studioso fin dai tempi dei primi grammatici ellenistici.

Ma anche la teoria dell'informazione di Shannon e Weaver, che parla di rapporto inversamente proporzionale tra prevedibilità e informatività di un messaggio, è qui chiamata in causa: l'«indice di frequenza » che «non comporta di per sé un tasso maggiore di informazioni» rinvia alle forme che hanno frequenze molto alte e risultano quindi, da un punto di vista statistico, molto probabili: perché solo per tali forme si può poi di parlare di rapporto tra prevedibilità e informazione nel messaggio.

Non è tutto così semplice e ovvio, però.

Un hapax è tale solo per rapporto alla presenza, nel testo, di molte altre parole con frequenze molto alte (se tutte le parole di un ipotetico testo avessero frequenza compresa tra 1 e 3, nessuna parola con frequenza 1 potrebbe avere particolare rilevanza): le parole con frequenze molto alte sono indispensabili per evidenziare un hapax.

E secondo la teoria dell'informazione una certa dose di ridondanza è necessaria nel messaggio, per evitare che un disturbo nella comunicazione possa rovinare proprio quella sequenza rara e quindi altamente informativa. Tale ridondanza si traduce, in riferimento ad un testo, in pura e semplice ripetizione, anafora, oppure in variatio, a seconda delle scelte dell'autore.

Le frequenze delle forme di un testo devono essere interpretate

La questione del significato da attribuire alle occorrenze delle forme molto frequenti è perciò parte di una questione ben più ampia e complessa: quale significato abbiano le frequenze in un testo, siano esse uniche, basse, o alte.

Il problema del significato da attribuire alle frequenze delle forme di un testo si pone oggi, più che un tempo, principalmente per la disponibilità sempre più ampia di macchine e programmi che permettono di compiere elaborazioni quantitative sui testi, e per la pubblicazione di studi, volumi, ricerche, in ambito non solo umanistico, che idolatrano il numero, che si assoggettano alla tirannia della tabella numerica. Non mancano però, proprio tra coloro che di 'numeri' si interessano professionalmente, voci che sollecitano a ricordare l'importanza dell'interpretazione e della spiegazione dei numeri, delle tabelle, degli indici.

J.P. Benzécri, importante matematico francese (ideatore di un metodo originale di analisi dei dati, poi reso utilizzabile in SPAD.T e SPAD.N, programmi menzionati più specificamente più avanti) afferma che i risultati dell'analisi di dati numerici dovrebbero essere descritti in termini verbali, discorsivi: «interpréter un axe, c'est trouver ce qu'il y a d'analogue d'une part entre tout ce qui est écrit à droite de l'origine, d'autre part entre tout ce qui à gauche; et exprimer avec concision et exactitude l'opposition entre les deux extrêmes»[1ter]. Al di là dei termini tecnici (axe, origine, s'écarte, che fanno riferimento all'interpretazione di dati rappresentati sotto forma di piani cartesiani) è interessante il fatto che egli richiama l'esigenza di giungere a conclusioni sintetiche, comunicabili senza uso di tabelle, anche a chi non sia un esperto degli specifici metodi o strumenti impiegati.

R. S. Wurman, statunitense, teorico e studioso della comunicazione, scrive: «Not only is extreme accuracy not always information, it is often not necessary. [...] Just because the technology exist to provide accuracy to the nth degree doesn't mean that we have to take advantage of it. Sometimes extreme detail prohibits you from seeing the bigger picture.»[1quater].

Tutte le frequenze - basse, alte - sono interessanti

In qualsiasi conteggio di occorrenze all'interno di un testo, si può sapere prima di osservare i dati effettivi che le forme più frequenti saranno certamente le congiunzioni coordinanti, gli articoli, le preposizioni, la copula, e così via: parole che sono sostanzialmente prive di significato forte, determinato dal testo a cui appartengono. Ma proprio queste parole sono quelle che spiccano di più, se si osservano i soli numeri. Ciò sembrerebbe confermare che le forme con frequenze alte avrebbero poco da dire sulla natura e sul contenuto di un testo. Molto spesso, però, tra le forme di un testo che hanno frequenze più alte ci sono quelle che in qualche modo già con la loro solo presenza descrivono l'argomento del testo….

Se poi il problema del significato delle frequenze alte viene pensato in un altro contesto, i termini della questione si chiariscono. Si consideri un'indagine sulla popolazione di una città X, mirante a individuare se la gastronomia tradizionale si sia conservata oppure no, e in quale misura. Appurare che il 73,7% degli abitanti consuma almeno una volta al giorno il piatto a, tradizionale, e che il resto degli abitanti si divide tra i piatti b e c (tradizionali, per un ulteriore 12,3%), e d e e, indica che l'86% degli abitanti consuma ogni giorno un piatto della tradizione gastronomica locale. Solo dopo che si sono ricavati questi dati si potrà forse dire che «mangiare almeno una volta al giorno un piatto tradizionale» è nella città X un fatto ovvio, che tale informazione è di scarso valore. Ci si potrà poi chiedere se per quel 14% degli abitanti, che non consuma almeno u A piuttosto che dell'autore B si andrà a osservare e soppesare una per una quali siano le caratteristiche genetiche che accomunano il testo e il corpus studiati: la somiglianza potrebbe derivare dal genere, dall'epoca, più che dalla oggettiva paternità del testo (se un'indagine svolta in Giappone sul colore dei capelli individua 2 soli soggetti che contro tutto il resto della popolazione hanno i capelli biondi, tali individui potrebbero essere europei di nascita, e non dei giapponesi geneticamente devianti dalla norma statistica[4]); oppure dipendere effettivamente da una comune origine.

Se due corpora, di chiara e nota attribuzione a due autori differenti, presentano grande numero di identici o molto simili segmenti ripetuti ciò può essere segno di allusione o ripresa o citazione di stile o di contenuto dell'uno nei confronti dell'altro.

Ci si può chiedere naturalmente quali siano i programmi, gli strumenti concretamente e realmente esistenti per operare in tal modo, ma prima dell'aspetto operativo è importante quello metodologico in quanto permette di capire come utilizzare gli strumenti esistenti e quali strumenti nuovi cercare o attendere[5].

Giungere allo stile per mezzo delle frequenze

Stile è «combinazione unica di caratteri genetici»[6] che identificano il testo. In tal senso lo stile è certo ancora «l'assieme dei tratti formali che caratterizzano (in complesso o in un momento particolare) il modo di esprimersi di una persona, o il modo di scrivere di un autore» , «l'assieme dei tratti formali che caratterizzano un gruppo di opere, costituito su basi tipologiche o storiche»[7] ma la caratterizzazione che se ne è individuata permette di utilizzare il computer per una parte delle indagini. D'altra parte chi potrebbe in tempi ragionevoli, da solo, senza strumenti informatici, enucleare quali siano i segmenti ripetuti, per esempio, che caratterizzano il corpus degli storici fiorentini del 300?

Se lo stile è scarto rispetto agli schemi (patterns) che costituiscono la «norma », se è «risultato di una selezione, di inclusioni (o esclusioni) compiute dal parlante o dallo scrivente all'interno della varietà linguistica che gli è propria e in base al registro adottato», le linee di lavoro qui sopra descritte sembrano appropriate allo scopo da raggiungere, pur senza esaurirlo e senza pretendere che lo strumento informatico possa, o debba, sostituirsi allo (o essere usato in sostituzione dello) studioso. Sottolineano infatti il rapporto tra le forme espressive caratterizzanti un testo e il patrimonio della lingua a cui tale testo afferisce: il testo attualizza - per così dire - una delle innumerevoli possibilità espressive offerte dalla lingua.

Strumenti informatici utilizzabili per giungere allo stile attraverso le frequenze

Gli strumenti informatici utilizzabili sono essenzialmente alcuni programmi non specialistici, e alcuni programmi specificamente mirati all'analisi dei testi.

Nel primo gruppo si possono collocare tutti i vari programmi che permettono di effettuare (come funzione esclusiva, o come funzione disponibile insieme ad altre) conteggi di frequenze, da sottoporre poi ad analisi tramite programmi per analisi statistiche[8].

I conteggi non supportati da analisi statistiche si prestano però a quelle critiche riportate in apertura, secondo cui le frequenze di per sé non dicono molto. Infatti l'informazione «nel testo X la forma a ricorre 17 volte, mentre la forma b ricorre 3 volte», non è rilevante perché non è accompagnata da informazioni sull'insieme dei dati a cui l'informazione si riferisce. Se la stessa informazione viene data nella forma: «nel testo X, costituito da 89 forme, che hanno frequenza minima 1 e frequenza massima 17, la forma a ricorre 17 volte, mentre la forma b ricorre 3 volte», allora la rilevanza della forma a all'interno di quel testo appare più chiara. Si potrebbe continuare, ma l'esempio è chiaro. Tali informazioni sul complesso dei dati (frequenze ordinate in ranghi[9], loro valori massimi e minimi, pesatura delle frequenze[10], punti Z - anche detti con termine anglosassone z-scores[11]) sono forniti automaticamente da tutti i programmi per elaborazioni statistiche.

Tra i programmi specificamente destinatiall'analisi dei testi, oltre a quelli più propriamente destinati alle elaborazioni statistiche, si può menzionare TACT, realizzato presso l'Università di Toronto[11bis]: unisce funzionalità più tradizionali (come la creazione di indici, lessici, concordanze, con altre più matematico- statistiche (indici statistici come i punti Z) o più rare (studi e confronti sul lessico di testi differenti).

Problemi metodologici connessi con l'uso di strumenti informatici

Il campionamento

Molte ricerche sui testi si basano su dati provenienti non dalla totalità del testo o del corpus ma da campioni. Si tratta di una pratica che si fonda su due assunzioni di principio, essenzialmente: che l'universo (in senso statistico l'insieme dei dati) da esaminare sia veramente troppo grande per le attuali risorse della ricerca (un'indagine che volesse studiare la lingua di italiani dovrebbe necessariamente ricorrere al campionamento); che il lavorare su campioni permetta di ridurre i tempi della ricerca; che i campioni conservino le caratteristiche degli insiemi da cui sono estratti.

La prima assunzione è assolutamente discriminante ed è legata all'evoluzione degli sviluppi teorici e dei mezzzi della ricerca.

La seconda assunzione non è verificata nella pratica in quanto la maggior parte del tempo richiesto da una ricerca informatica su testi è necessaria per preparare i testi stessi all'analisi informatica[12] e per analizzare e valutare gli esiti dell'elaborazione[13]. Il campionamento del testo dunque non riduce sensibilmente i tempi complessivi della ricerca.

La seconda assunzione è più complessa. Nelle ricerche di tipo sociologico o antropologico è pratica corrente quella di scegliere, all'interno della popolazione da studiare, un sottoinsieme che conservi la medesima distribuzione che le caratteristiche da studiare hanno all'interno della popolazione stessa. In altre parole: se si vuole studiare il rapporto peso- altezza in una popolazione, il campione non sarà scelto tra gli iscritti di società sportive (in quanto essi saranno probabilmente più giovani della norma statistica della popolazione a cui appartengono e dunque più alti[14]), ma all'interno degli elenchi anagrafici utilizzando criteri di casualità così che prevedibilmente la percentuale di persone alte 150, …, 160, …, 170, …, 180, …, centimetri presenti nel campione sia la medesima che si trova all'interno della popolazione di riferimento. Inoltre, in quel tipo di ricerche,

la scelta del campione si effettua sapendo in anticipo quale scarto si avrà tra la distribuzione delle caratteristiche nella popolazione e la distribuzione nel campione: a seconda delle inchieste o delle ricerche si sceglie un campione che può presentare un margine di errore del 10%, o del 5%, o del 2% rispetto alla popolazione di riferimento.

Se il medesimo ragionamento viene portato nell'ambito dei testi, esso appare immediatamente insostenibile: come si possono scegliere i campioni all'interno di un testo così che conservino la stessa distribuzione di caratteristiche del testo? In primo luogo: quali caratteristiche ha un testo? non solo le frequenze delle forme; non solo il lessico; non solo i segmenti ripetuti; ma anche una evoluzione lineare [15] da un inizio ad una conclusione, una evoluzione temporale da un anno ad un altro di composizione o stesura. Come si può escludere preliminarmente che la linearità di composizione e scrittura non influenzi lessico, frequenze, e altre caratteristiche quantitative più direttamente osservabili e appariscenti? Nessun campionamento in tal caso può essere appropriato: le caratteristiche del testo non sono distribuite in modo uniforme all'interno dell'insieme delle unità di analisi (pagine, righe, frasi, paragrafi, strofe, ...) che lo formano; e poi, se è chiaro quali siano gli individui che costituiscono una popolazione in relazione ad una indagine di tipo socio-antropologico[16], quali sono gli 'individui' che formano il testo? le forme, le lettere, le sillabe, i segmenti di caratteri di lunghezza n, i segmenti ripetuti costituiti dalle forme, le frasi, i periodi, i capitoli, i paragrafi? quali tra questi in funzione di uno studio sui rapporti tra due testi di un medesimo autore? Inoltre non si possono effettuare campioni su una certa unità testuale (un'unità testuale convenzionale come, per esempio, la pagina) per poi studiare, per esempio, i segmenti ripetuti all'interno di quel campione. La ragione è concretamente evidente, almeno in questo caso: i salti pagina possono interrompere dei segmenti, che quindi vanno persi per lo specifico modo in cui è stato trattato il campione. Volendo studiare un campione di segmenti ripetuti occorre prima individuare tutti i segmenti ripetuti presenti nel testo, e poi scegliere tra essi specificamente il campione da studiare.

È evidente che sui presupposti e sul metodo da adottare nelle ricerche sui testi si conosce molto meno di quanto si conosce nell'ambito di altri oggetti consueti per le analisi statistiche, e dunque in tale situazione le assunzioni di principio implicite nel campionamento poggiano su fondamenti non saldi.

L'ordine delle parole nel testo

L'ordine delle parole solitamente va perso (diventa irrilevante) nei conteggi di frequenze: se la forma casa ricorre 4 volte nel testo x, nessuno immagina che ciò indichi la presenza nel testo x della sequenza di forme casa casa casa casa…, né che tali forme ricorrano nel testo al di fuori di criteri di adeguatezza sintattica, lessicale, semantica. Il puro dato di frequenza risulta però del tutto privo di indicazioni sulla posizione della forma casa in relazione al significato del testo e alla presenza di altre forme nel testo.

Tre le vie per ovviare a questa limitazione:
- ridurre le dimensioni dell'unità di testo in cui si calcolano le frequenze (non il testo stesso, ma il libro, il capitolo, il paragrafo, il periodo); - utilizzare come unità di analisi il segmento ripetuto; - combinare il primo criterio con il secondo (segmenti ripetuti dentro unità di testo quali il libro o il capitolo)[17].

In particolare si deve segnalare che esiste almeno un programma per analisi statistiche capace di gestire una ricerca di questo tipo: SPAD.T. Esso può leggere direttamente un testo contenente marcatori che ne descrivano e definiscano le divisioni strutturali da utilizzare come criterio per definire le unità di analisi, e permette di definire dimensioni e quantità dei segmenti da osservare[18].

Una distinzione importante: lingue in evoluzione e lingue stabilizzate

La lingua, di cui nei testi si studiano strutture, lessico, segmenti, forme, è essa stessa un contesto di difficile definizione. Quando si studia il rapporto peso/altezza in una popolazione umana, le entità da osservare sono già approssimativamente note[19]; ma quali assunzioni quantitative di massima si possono fare sulla lingua di un testo? praticamente nessuna. D'altra parte le lingue vive sono in continua evoluzione e quindi impossibili a definirsi e descriversi in modo definitivo; mentre le lingue di epoche storiche passate, o la lingua di un autore che abbia terminato la sua attività, proprio per la loro staticità si prestano ad uno studio analitico più esauriente.

Si tratta di una differenza non trascurabile, perché se occorre definire un contesto, uno sfondo, su cui collocare le osservazioni relative ad un singolo testo o ad un singolo autore, nel caso di lingue morte o di autori che non producano più, o di epoche passate, ciò può avvenire con un buon grado di precisione: si può studiare la lingua dell'opera a in rapporto alla lingua del suo autore X ; la lingua di Boiardo in rapporto al volgare padano; la lingua dell'Orlando Furioso in rapporto alla lingua dei poemi cavallereschi in volgare; la lingua della Coscienza di Zeno in rapporto a quella dei precedenti romanzi di Svevo.

Studi di tipo statistico-quantitativo che si limitino ad osservazioni ed analisi su uno specifico testo, o corpus, o autore, o genere, senza evidenziarne rapporti con un contesto di riferimento, risultano dotati di significato non valutabile criticamente da parte del lettore/studioso/fruitore in quanto nessun lettore/studioso/fruitore possiede un sistema di conoscenze di riferimento apprezzabilmente preciso[20] .

I punti di riferimento mancanti

I punti di riferimento mancanti possono allora essere così elencati e descritti:
- corpora di autori, generi, epoche, su supporto magnetico;
- lessici per autore, genere, periodo;
- studi di casi modello.

Corpora di autori, generi, epoche, su supporto magnetico

Testi e corpora su supporto magnetico sono il materiale primo su cui si lavora, come l'edizione critica del testo per il tradizionale metodo filologico: oggetto di lavoro preliminare e successivo in quanto in assenza di una valida edizione critica lo studio del testo è aleatorio e dunque il filologo lavora sia per produrre l'edizione critica, sia per studiare - attraverso essa - il testo. Le edizioni di testi disponibili nel mondo su supporto magnetico spesso lasciano a desiderare per precisione filologica, e dunque una parte non piccola del lavoro del singolo studioso va nell'adeguare l'edizione elettronica ad una valida edizione critica, con un lavoro che poi non diventa pubblico e facilmente accessibile anche per altri come nel caso della pubblicazione di un'edizione critica su carta.

Se corpora e testi di buone edizioni critiche rimangono in una zona grigia in cui non sono del tutto condivisi e accessibili, ciò in parte dipende dal fatto che la trasposizione di una edizione critica su supporto magnetico potrebbe violare (viola, in certi casi) il principio della protezione dei diritti d'autore (e dell'editore, come accade nel mondo anglosassone[21]), in parte dal fatto che non esistono ancora, nel mondo delle comunicazioni elettroniche, luoghi paragonabili alle case editrici e alle librerie: case editrici che pubblichino il catalogo delle loro opere e librerie a cui chiedere che procurino il testo.

Lessici per autore, genere, periodo

Lessici che descrivano la lingua di una singola opera, di un autore, di un genere, sono lo strumento essenziale per definire lo sfondo su cui collocare i risultati della ricerca, come si diceva sopra.

La loro pura e semplice disponibilità non è però sufficiente, in quanto si pone un problema di scala: lo sfondo, il contesto linguistico di riferimento deve essere ampio (per esempio, un arco di tempo da 200 prima a 200 anni dopo la data di composizione dell'opera studiata) o ristretto (per esempio, la lingua dell'epoca in cui si colloca la composizione dell'opera)? l'evidenza dei risultati dell'analisi di un testo varierà a seconda dello sfondo, ampio o ristretto, che si sia scelto. Come scegliere questa scala non è possibile dire a priori, anche perché mancano confronti che costituisconao dei punti di riferimento. In linea ipotetica si può dire che su uno sfondo molto ampio le specificità di un testo possono restare appiattite mentre uno sfondo molto ristretto esalta quelle stesse specificità[22]. Peraltro potrebbe anche accadere il contrario: su un vasto sfondo omogeneo una netta specificità potrebbe risaltare molto di più che su uno sfondo già di per sè molto vario e multiforme.

Studi di casi modello

Non esistono studi di casi modello utilizzabili al fine di definire con certezza una metodologia scientificamente corretta.

Occorrerebbe a tale scopo scegliere un corpus di testi di autore noto, ben caratterizzati (così che si abbia un chiaro e indiscutibile riferimento per valutare le conclusioni della ricerca), e poi effettuare su di essi una serie di ricerche:
- studi statistici di attribuzione effettuati sui testi interi, confrontati con i medesimi studi effettuati con i medesimi metodi ma su campioni di vario tipo: parole isolate, righe isolate, segmenti di n righe, pagine;
- studi che utilizzino come unità di analisi le forme, o le sillabe, o i segmenti, confrontati fra loro;
- studi che collochino la lingua di un autore o di un testo a confronto con quella dell'epoca dell'autore oppure di un arco di tempo molto più ampio e individuino che cosa muta nella perspicuità dei risultati dell'analisi quantitativa;

La valutazione delle ricerche

Lo studioso che utilizza un'edizione critica, pur senza essere un filologo in senso stretto, è (deve essere!) in grado di valutarne con buon grado di approssimazione la precisione e correttezza di metodo, così da sapere se su tale edizione può fare grande affidamento oppure no.

Ciò dovrebbe accadere anche di fronte a ricerche effettuate con metodi informatici, quantitativi, statistici: senza necessariamente dover essere in grado di condurle in prima persona, lo studioso dovrebbe essere in grado di valutarle criticamente così da capire quanto fare affidamento sulle loro conclusioni.

Dove e come si possa acquisire, in modo sistematico, tale capacità, è difficile dire. Questa breve nota intende dunque contribuire a diffondere le conoscenze necessarie per valutare criticamente le ricerche e gli studi che con i nuovi metodi informatici e statistici vengono sempre più spesso effettuate, ed a suscitare il dibattito e la riflessione.

[*]Un ringraziamento particolare a E. Amisano, che mi ha introdotto alla statistica e i suoi metodi e ha contribuito in misura importante a tutte le mie ricerche su questioni di stile o attribuzione di testi. Anche questo articolo deve molto alle riflessioni metodologiche sviluppate insieme a lui.

[1] Dizionario di linguistica, diretto da G.L. Beccaria (Torino, 1994), s.v. «stilistica », di E. Soletti. La citazione riporta, per esteso: «I risultati dell'analisi quantitativa sono assai discutibili, dal momento che l'indice di frequenza, somma delle "parole-tema" (le unità lessicali più frequenti nel testo) e delle "parole- chiave" (quelle parole tema che mostrano uno scarto significativo rispetto alla lingua comune, non comporta di per sé un tasso maggiore di informazioni, al contrario, un messaggio è tanto più informativo quanto meno è prevedibile.» «Parole- tema» e «parole-chiave» rinviano agli studi di P. Guiraud, che era stato poco prima menzionato. La ragione della citazione non è di aprire una polemica con chi tale posizione ha espresso, bensì di citare un testo indubbiamente autorevole che esprime un'opinione molto diffusa.

[1bis] Per hapax si intenda «ogni forma che ricorra una sola volta nel testo o corpus in esame».

[1ter] J.P et F. Benzécri, Pratique de l'Analyse des Données, 1. Analyse des correspondances - Exposé élémentaire, p. 302, Paris, 1984.

[1quater] R. S. Wurman, Information Anxiety, Doubleday, New York, 1989, pp. 126-127.

[2] Due frasi come «È Gianni che ho visto» e «È che ho visto Gianni» sono identiche per lessico, ma la disposizione delle parole, regolata dalla grammatica, veicola significati differenti.

[3] Si intende per segmento una sequenza di due o più forme che ricorra due o più volte nel testo o corpus in esame. Per esempio nella frase precedente si trova il segmento ripetuto «due o più» che ha appunto frequenza 2.

[4] Naturalmente un'indagine reale sulle caratteristiche genetiche del colore dei capelli in Giappone provvederebbe a definire il campione da analizzare in modo tale da non includere persone di origine europea: ma ciò può avvenire perché l'universo costituito dai nativi giapponesi è già, per molti caratteri, definito e individuato; se però i caratteri genetici collegati al colore dei capelli dovessero servire per arrivare ad individuare un gruppo definito di caratteristiche dei nativi giapponesi, non si potrebbero a priori escludere dall'indagine coloro che avessero i capelli biondi.

[5] È ovvio che qui «strumenti» vale «programmi informatici», in quanto se ne vuole evidenziare la caratteristica di essere utilizzabili per molteplici fini differenti.

[6] «Genetico» non allude qui in alcun modo (ovviamente) all'idea di genesi od origine.

[7] Così C. Segre, Avviamento all'analisi del testo letterario, Torino, 1985, citato s.v. «stile» in: Dizionario di linguistica, diretto da G.L. Beccaria, Torino, 1994.

[8] Non basta sapere che le forme x, y, z, oggetto dello studio hanno determinate frequenze: tali frequenze devono essere rapportate alle dimensioni del testo o della sezione di testo su cui sono calcolate, e l'informazione che forniscono è più o meno importante a seconda delle frequenze che nel suo complesso quel testo o sezione presentano, e così via. I programmi più diffusi per analisi statistiche sono SPSS e SAS; ad essi se ne affiancano molti altri meno noti (tra tutti si possono segnalare SPAD.N e SPAD.T) o meno complessi. Si tratta in tutti i casi di programmi non semplici da usare, anche perché richiedono specifiche conoscenze nell' ambito della statistica, e dunque non si può pensare di apprenderne l'uso (un uso efficace ed appropriato) in pochi giorni. D' altra parte nessun filologo pensa che i metodi della filologia si apprendano sul piano puramente pragmatico, o in pochi giorni…

[9] Qui sotto un esempio fittizio di frequenze ordinate in ranghi:

forma 	frequenza  rango 
aa         1         1 
ac         1 
sc         1 
al         3         2 
zt         3 
sw         5         3 
fr         8         4 
gh         8 
at        11         5 
az        19         6

[10] Se la forma a ha frequenza 25 in due testi x e y rispettivamente di 1250 e 3470 forme totali, essa costituisce il 2% delle forme del primo testo e lo 0,72% delle forme del secondo testo. Le percentuali rapportano le frequenze osservate alle dimensioni del testo in cui sono state osservate; le frequenze così pesate sono indici che possono essere confrontati senza più riferimento alle dimensioni del testo di appartenenza.

[11] I punti Z sono un altro tipo di indice, più raffinato di quello costituito dalle frequenze pesate. L'unità di misura, nel caso dei punti Z, non è più la semplice presenza della forma osservata, bensì la media degli scarti dalla media delle frequenze (detta deviazione standard, in termini tecnici) nel testo osservato. Si avranno così per le forme del testo punti Z prossimi a 0 (per le forme la cui frequenza è pari alla alla frequenza media nel testo studiato), positivi (per le forme che hanno frequenza superiore a quella media) e negativi (per le forme che hanno frequenza inferiore a quella media). Ci si potrebbe chiedere perché non ricorrere semplicemente alla frequenza media, come unità di misura. Si ricorre invece alla media degli scarti dalla media perché in tal modo si può tenere conto del fatto che il testo presenta un'ampia o ristretta variabilità di frequenze. Si pensi a questi due casi: testo x, le forme di rango 1, 2, 3, 4, 5, 6 costituiscono l'80% del testo; testo y, le forme di rango 1, 2, 3, 4, 5, 6 costituiscono il 40% del testo, e per arrivare alle forme che costituiscono l'80% del testo occorre giungere alle forme di rango 45: nel testo y la variabilità delle frequenze è molto più ampia che nel testo x e dunque le frequenze, alte o basse che siano, non indicano di per sè nulla di importante. Per chiarire il concetto, di non immediata comprensione per chi non sia esperto di statistica, si può ricorrere a un esempio che fa riferimento ad una situazione nota: in un ambiente dove tutti parlano a bassa voce, chi parla a voce normale spicca in evidenza; in un ambiente in cui ci sia chi sussurra, chi parla a voce normale, e chi urla, non suscita sorpresa né chi parla a bassa voce né chi grida. Il calcolo dei punti Z delle frequenze delle forme di un testo è un' operazione piuttosto complessa, che i programmi per analisi statistiche eseguono automaticamente sui dati che elaborano. Per una descrizione analitica dei passi che portano dalle frequenze di un insieme di dati, ai corrispondenti punti Z, si può vedere M. Lana, L'uso del computer nell'analisi dei testi, Milano, 1994, pp. 84-85.

[11bis] Per informazioni: TACT distribution, Centre for Computing in the Humanities, Robarts Library, Room14297A, University of Toronto, Toronto, Ont. M5S 1A5, Canada. Si veda anche http://www.cch.epas.utoronto.ca:8080/cch.

[12] I testi devono essere reperiti (o registrati) su supporto magnetico, devono essere controllati e uniformati dal punto di vista grafico, devono essere in vario modo marcati (così da inserirvi, in modo opportuno e differente a seconda del programma di analisi che si userà, le indicazioni di struttura: capitolo, paragrafo, riga, verso, a seconda delle necessità).

[13] Le proporzioni di tempo-macchina/tempo umano nel corso di una ricerca stanno in un rapporto che va da 1/10 a 1/100.

[14] In tutte le popolazioni dei paesi industrializzati l'altezza media è maggiore per le classi di età più giovani.

[15] Vi sono teorie del testo propongono l'ipertesto come modello che meglio descrive caratteristiche e natura di molti tipi di testi: testo non lineare, non sequenziale, 'tentacolare' per i collegamenti tra punti differenti al suo interno, ma anche un ipertesto non si sottrae alla linearità temporale della lettura né alla linearità temporale della composizione.

[16] In termini di indagini sociologiche o antropologiche gli individui possono essere i singoli esseri umani, le famiglie anagraficamente definite, le famiglie di fatto, le aziende, le associazioni, e nessuno, pur senza essere un esperto del settore, ha molti dubbi su quali siano i soggetti da studiare se si vuole indagare sul rapporto peso/altezza nella popolazione.

[17] Si potrà vedere l'esito di una ricerca di questo tipo (svolta sul corpus senofonteo e sulle Storie di Tucidide, realizzata insieme a E. Amisano e presentata al convegno JADT3, Roma, 10-12 dicembre 1995) in una nota pubblicata su uno dei prossimi numeri di «Arachnion».

[18] Dimensioni: lunghezza minima e massima dei segmenti da prendere in considerazione; quantità : soglia di frequenza minima e massima per la registrazione delle frequenze dei segmenti (segmenti con frequenze sotto o sopra la soglia non vengono elencati e registrati. Per informazioni su SPAD.T (e SPAD.N): CISIA, 1 Avenue Herbillon, 94160 Saint-Mandé (France); fax 33-1-43741729.

[19] Per esempio nessun umano pesa più di 300 chili, e pochi superano i 150; nessun umano è alto più di 240 centimetri e pochi sono alti più di 185 centimetri.

[20] Tutti coloro che siano anche solo mediamente acculturati possono invece comprendere il senso di un'indagine sociologica o antropologica che arrivi a individuare in 3 milioni al mese il reddito medio degli abitanti di una regione x, o in 158 centimetri l'altezza media degli abitanti di una regione y.

[21] Il testo stabilito di un'edizione critica è in Italia liberamente riproducibile (ad eccezione del caso di testi di autori viventi o di recente scomparsi), in quanto risulta essere proprietà di un autore che non ha più, né lui in persona, né i parenti, diritti da proteggere. Nel mondo anglosassone esistono invece i diritti dell'editore che proteggono anche la riproduzione del testo stabilito di un'edizione di Aristotele.

[22] Ci si può chiedere (riprendendo un esempio citato in precedenza) se, volendo collocare la lingua dell'Orlando Furioso sullo sfondo della lingua dei poemi cavallereschi in volgare, i dati relativi al Furioso debbano oppure no entrare a far parte dei dati sul complesso dei poemi cavallereschi. È anche qui in questione la scala delle grandezze. Se il Furioso costituisse l'80% del materiale testuale ascrivibile alla categoria 'poemi cavallereschi in volgare', avrebbe poco senso confrontare il Furioso con se stesso, per così dire; se invece il Furioso costituisse il 13% dei materiali testuali ascrivibili alla categoria 'poemi cavallereschi in volgare', la categoria nel suo complesso sarebbe certamente adatta a costituire un punto di riferimento per valutare la lingua del Furioso in rapporto al genere di appartenenza.

Go to Arachnion nr. 2 - contents or to Arachnion - home page

Last technical revision September, 12, 1995.

This document (http://www.cisi.unito.it/arachne/num2/lana2.html) is part of «Arachnion - A Journal of Ancient Literature and History on the Web» (http://www.cisi.unito.it/arachne/arachne.html). The editors are Maurizio Lana and Emanuele Narducci. The journal is distributed by the host of CISI - Università degli Studi di Torino, Via Sant'Ottavio 20, I-10124 Torino .
Quoting this document, please remember to mention the original paper edition, if any, and the electronic edition of Arachnion (in the form: Arachnion. A Journal of Ancient Literature and History on the Web, nr. 2 - http://www.cisi.unito.it/arachne/num2/lana2.html). If you like to access this document through a WWW page, please create a link to it, not to a local copy.