martes, 30 de mayo de 2017

Anàlisi Lexicomètrica




Segons Borja Navarro AntConc és un programa per analitzar i extreure dades d'amplis corpus textuals com són la freqüència de les paraules, concordances, per  buscar les expressions regulars, etc. Mostra els texts de manera diferent: per freqüència, per patrons de busca, per paraules, etc. A partir d'aquí, els especialistes poden detectar aspectes dels texts i del llenguatge que d'altre forma no s'haurien detectat.[1]

Per fer l'estudi lexicomètric amb AntConc he agafat alguns articles del  blog de l'Ismael Peña-López, professor dels Estudis de Dret i Ciència Política de la UOC, especialitzat en estudiar l'impacte de les TIC a la societat, les opinions del qual he trobat especialment interessants.


Els articles parlen de la privacitat, la necessitat de la immersió lingüística a Catalunya, la democràcia directa i el vot electrònic, la sanitat pública i el canvi de paradigma cap a la societat del coneixement.

També he triat un article sobre els casos de corrupció del PP:


Un article anomenat Querer no es poder sobre una roda de premsa de l'Angela Merkel i l'Emmanuel Macron a Berlin:


I un article sobre el 15M:


Un cop entrats els articles a Ant Conc, el primer resultat de l'estudi de la freqüència de l'ús de paraules fou la següent:

Word Types
2579
Word Tokens
11552
Search Hits
0
1             532         de
2             418         que
3             365         xf
4             355         xe
5             353         la
6             301         n
7             275         en
8             250         a
9             247         el
10           225         y


La primera columna mostra la posició de la paraula, la segona mostra el nombre de vegades que es repeteix la paraula, la tercera columna és la paraula en sí. El No. de Tokens és el conjunt de caràcters separats per un espai en blanc i el No. de Typers es refereix als Tokens iguals.

Podem veure que les 10 paraules més usades són mots sense sentit o preposicions. Si fem un llistat de mots i unitats lèxiques sense sentit específic, no vàlides per a un treball terminològic, que surten amb elevada freqüència en els texts, i en fem un arxiu de text, podrem excloure-les  fent-ne un stopword list o filtre. 

Aplicant aquest filtre, les 15 paraules més freqüents són:

Word Types
2454
Word Tokens
4858
Search Hits
0
1             47           todo     
2             35           democracia       
3             31           pero     
4             27           voto     
5             24           cuando
6             23           castellano          
7             23           hacer   
8             23           herramientas   
9             19           instituciones     
10           17           bien      
11           16           forma  
12           15           ciudadanos       
13           15           innovar               
14           15           nueva  
15           15           poder


Les paraules podem veure-les per ordre alfabètic, també:

Word Types
2579
Word Tokens
11552
Search Hits
0
1             1             abandona          
2             1             abierta
3             1             abiertamente  
4             1             abierto
5             2             abiertos              
6             1             abog     
7             1             abogados           
8             1             aboguemos      
9             1             abordarlos         
10           1             aborto 
11           1             abra      
12           1             abraza 
13           1             abre     
14           1             abriendo            
15           1             absoluta


La llista de paraules és llarga, i en moltes ocasions tan sols volem analitzar la freqüència d'algunes d'elles. Si posen una paraula al buscador, per exemple "democracia" o "instituciones", el programa ens mostra en quina posició està i quina freqüència té.

Total No. of Cluster Types
16
Total No. of Cluster Tokens
35
1             9             1             democracia directa
2             7             1             democracia deliberativa
3             3             1             democracia l
4             3             1             democracia representativa
5             2             1             democracia h
6             1             1             democracia 4.0: en
7             1             1             democracia \x
8             1             1             democracia compuesto
9             1             1             democracia es
10           1             1             democracia no
11           1             1             democracia pasa
12           1             1             democracia real
13           1             1             democracia. el
14           1             1             democracia. un
15           1             1             democracia: el
16           1             1             democracia:\xa


Total No. of Cluster Types
15
Total No. of Cluster Tokens
19
1             3             1         instituciones deben
2             2             1         instituciones de
3             2             2         instituciones del
4             1             1         instituciones * lo
5             1             1         instituciones como
6             1             1         instituciones con
7             1             1         instituciones educativas     
8             1             1         instituciones han
9             1             1         instituciones intermediadoras
10           1             1         instituciones se
11           1             1         instituciones y
12           1             1         instituciones, cambiar
13           1             1         instituciones, en
14           1             1         instituciones. as
15           1             1         instituciones. m


Amb l'aplicació Concordance podrem veure llistats d'aparició d'una paraula específica acompanyada del text o co-text. La paraula està destacada per poder analitzar i detectar les seves col·locacions o paraules que apareixen en el seu entorn per poder analitzar els patrons lingüístics que surten amb una determinada freqüència i que reflexa el comportament real en context d'una paraula.

En aquest cas he usat la paraula "instituciones":

1       los partidos y otras                     instituciones de la democracia no representan fide                blog uoc politic I SOCIETAT.txt 
2       distintos estratos de                    instituciones intermediadoras. No en vano, en el s               blog uoc politic I SOCIETAT.txt
3       seguir confiando en las                instituciones como \xFAltimo (o primer) recurso. *             blog uoc politic I SOCIETAT.txt    
4       participaci\xF3n, repensar las        instituciones * Lo que la tecnolog\xEDa nos permit            blog uoc politic I SOCIETAT.txt
5       decisiones. * Las                        instituciones se han convertido, con los a\xF1os,                blog uoc politic I SOCIETAT.txt  
6       facilitaci\xF3n de las                   instituciones. M\xE1s que nunca. Las instituciones             blog uoc politic I  SOCIETAT.txt 
7       M\xE1s que nunca. Las               instituciones deben aportar el contexto\xA0que nos              blog uoc politic I SOCIETAT.txt  
8       toma de decisiones. Las               instituciones deben facilitar la creaci\xF3n de es                  blog uoc politic I SOCIETAT.txt 
9       informada y de consenso. Las       instituciones deben contribuir a fomentar la toma                 blog uoc politic I SOCIETAT.txt 
10      modernas\x97 de las                   instituciones. As\xED, las instituciones han contr                blog uoc politic I SOCIETAT.txt       
11      las instituciones. As\xED, las      instituciones han contribuido a la creaci\xF3n y                   blog uoc politic I SOCIETAT.txt 
12      Del mismo modo las                 instituciones, en beneficio de los ciudadanos y en                 blog uoc politic I SOCIETAT.txt       
13      de ra\xEDz. Las personas e          instituciones de esta sociedad est\xE1n viendo en                 blog uoc politic I SOCIETAT.txt 
14      sistema educativo\x94 o              instituciones educativas\x94. Y es leg\xEDtimo. Es             blog uoc politic I SOCIETAT.txt 
15      \xF1as que destruyen las             instituciones del Estado Espa\xF1ol.  En cualqu                  lista de casos de corrupción del PP.txt
16      destrucci\xF3n de las                  instituciones y del pa\xEDs, nos lleva su falta                     lista de casos de corrupción del PP.
17      posici\xF3n pol\xEDtica en las    instituciones, cambiar el lenguaje y hasta las ves                  seis años de lucha.txt 
18      que han llegado a las                  instituciones con nuestros votos es que no les hem               seis años de lucha.txt
19      un peligro real de que las            instituciones del sistema los coopten, pero ser\xE                 seis años de lucha.txt 


[1] Borja Navarro. Guía rápìda de análisis de corpus (con AntConc). Universidad de Aliucante, 2014

No hay comentarios:

Publicar un comentario