Segons Borja Navarro AntConc és un programa per analitzar i extreure dades d'amplis corpus textuals com són la freqüència de les paraules, concordances, per buscar les expressions regulars, etc. Mostra els texts de manera diferent: per freqüència, per patrons de busca, per paraules, etc. A partir d'aquí, els especialistes poden detectar aspectes dels texts i del llenguatge que d'altre forma no s'haurien detectat.[1]
Per fer l'estudi lexicomètric amb AntConc he agafat alguns articles
del blog de l'Ismael Peña-López,
professor dels Estudis de Dret i Ciència Política de la UOC, especialitzat en
estudiar l'impacte de les TIC a la societat, les opinions del qual he trobat
especialment interessants.
Els articles parlen de la privacitat, la
necessitat de la immersió lingüística a Catalunya, la democràcia directa i el
vot electrònic, la sanitat pública i el canvi de paradigma cap a la societat
del coneixement.
També he triat un article sobre els casos de
corrupció del PP:
Un article anomenat Querer no es poder sobre una roda de premsa de l'Angela Merkel i
l'Emmanuel Macron a Berlin:
I un article sobre el 15M:
Un cop entrats els articles a Ant Conc, el primer resultat de l'estudi
de la freqüència de l'ús de paraules fou la següent:
Word Types
|
2579
|
Word Tokens
|
11552
|
Search Hits
|
0
|
1 532 de
2 418 que
3 365 xf
4 355 xe
5 353 la
6 301 n
7 275 en
8 250 a
9 247 el
10 225 y
|
La primera columna mostra la posició de la
paraula, la segona mostra el nombre de vegades que es repeteix la paraula, la
tercera columna és la paraula en sí. El No. de Tokens és el conjunt de caràcters
separats per un espai en blanc i el No. de Typers es refereix als Tokens
iguals.
Podem veure que les 10 paraules més usades són
mots sense sentit o preposicions. Si fem un llistat de mots i unitats lèxiques
sense sentit específic, no vàlides per a un treball terminològic, que surten
amb elevada freqüència en els texts, i en fem un arxiu de text, podrem
excloure-les fent-ne un stopword list o filtre.
Aplicant aquest filtre, les 15 paraules més freqüents són:
Aplicant aquest filtre, les 15 paraules més freqüents són:
Word Types
|
2454
|
Word Tokens
|
4858
|
Search Hits
|
0
|
1 47 todo
2 35 democracia
3 31 pero
4 27 voto
5 24 cuando
6 23 castellano
7 23 hacer
8 23 herramientas
9 19 instituciones
10 17 bien
11 16 forma
12 15 ciudadanos
13 15 innovar
14 15 nueva
15 15 poder
|
Les paraules podem veure-les per ordre
alfabètic, també:
Word Types
|
2579
|
Word Tokens
|
11552
|
Search Hits
|
0
|
1 1 abandona
2 1 abierta
3 1 abiertamente
4 1 abierto
5 2 abiertos
6 1 abog
7 1 abogados
8 1 aboguemos
9 1 abordarlos
10 1 aborto
11 1 abra
12 1 abraza
13 1 abre
14 1 abriendo
15 1 absoluta
|
La llista de paraules és llarga, i en moltes
ocasions tan sols volem analitzar la freqüència d'algunes d'elles. Si posen una
paraula al buscador, per exemple "democracia" o "instituciones",
el programa ens mostra en quina posició està i quina freqüència té.
Total No. of Cluster Types
|
16
|
Total No. of Cluster Tokens
|
35
|
1 9 1 democracia
directa
2 7 1 democracia
deliberativa
3 3 1 democracia
l
4 3 1 democracia
representativa
5 2 1 democracia
h
6 1 1 democracia
4.0: en
7 1 1 democracia
\x
8 1 1 democracia
compuesto
9 1 1 democracia
es
10 1 1 democracia
no
11 1 1 democracia
pasa
12 1 1 democracia
real
13 1 1 democracia.
el
14 1 1 democracia.
un
15 1 1 democracia:
el
16 1 1 democracia:\xa
|
Total No. of Cluster Types
|
15
|
Total No. of Cluster Tokens
|
19
|
1 3 1 instituciones
deben
2 2 1 instituciones
de
3 2 2 instituciones
del
4 1 1 instituciones
* lo
5 1 1 instituciones
como
6 1 1 instituciones
con
7 1 1 instituciones
educativas
8 1 1 instituciones
han
9 1 1 instituciones
intermediadoras
10 1 1 instituciones
se
11 1 1 instituciones
y
12 1 1 instituciones,
cambiar
13 1 1 instituciones,
en
14 1 1 instituciones.
as
15 1 1 instituciones.
m
|
Amb l'aplicació Concordance podrem veure llistats d'aparició d'una paraula específica
acompanyada del text o co-text. La paraula està destacada per poder analitzar i
detectar les seves col·locacions o paraules que apareixen en el seu entorn per
poder analitzar els patrons lingüístics que surten amb una determinada
freqüència i que reflexa el comportament real en context d'una paraula.
En
aquest cas he usat la paraula "instituciones":
1 los partidos y
otras
instituciones de la democracia no representan fide
blog uoc politic I SOCIETAT.txt
2 distintos
estratos de
instituciones intermediadoras. No en vano, en el s
blog uoc politic I SOCIETAT.txt
3 seguir
confiando en las
instituciones como \xFAltimo (o primer) recurso. *
blog uoc politic I SOCIETAT.txt
4
participaci\xF3n, repensar las instituciones * Lo
que la tecnolog\xEDa nos permit blog
uoc politic I SOCIETAT.txt
5 decisiones. *
Las
instituciones se han convertido, con los a\xF1os, blog uoc politic I SOCIETAT.txt
6
facilitaci\xF3n de las instituciones. M\xE1s que nunca. Las instituciones
blog uoc politic I SOCIETAT.txt
7 M\xE1s que
nunca. Las instituciones
deben aportar el contexto\xA0que nos
blog uoc politic I SOCIETAT.txt
8 toma de
decisiones. Las instituciones
deben facilitar la creaci\xF3n de es
blog uoc politic I SOCIETAT.txt
9 informada y de
consenso. Las instituciones deben contribuir a fomentar
la toma blog uoc politic I
SOCIETAT.txt
10 modernas\x97
de las instituciones. As\xED, las instituciones han contr blog uoc politic I SOCIETAT.txt
11 las
instituciones. As\xED, las instituciones han contribuido a la
creaci\xF3n y blog
uoc politic I SOCIETAT.txt
12 Del mismo modo
las instituciones, en
beneficio de los ciudadanos y en blog uoc politic I SOCIETAT.txt
13 de ra\xEDz. Las
personas e instituciones de esta sociedad
est\xE1n viendo en blog uoc
politic I SOCIETAT.txt
14 sistema
educativo\x94 o instituciones
educativas\x94. Y es leg\xEDtimo. Es blog
uoc politic I SOCIETAT.txt
15 \xF1as que
destruyen las instituciones del
Estado Espa\xF1ol. En cualqu lista de casos de corrupción del PP.txt
16 destrucci\xF3n
de las instituciones
y del pa\xEDs, nos lleva su falta lista de casos de corrupción del PP.
17 posici\xF3n
pol\xEDtica en las instituciones, cambiar el lenguaje y hasta las ves seis años de lucha.txt
18 que han
llegado a las instituciones con nuestros votos es que no les hem seis años de lucha.txt
19 un peligro
real de que las instituciones del sistema
los coopten, pero ser\xE seis años de lucha.txt
|
[1] Borja Navarro. Guía rápìda de análisis de corpus (con AntConc). Universidad de Aliucante, 2014
No hay comentarios:
Publicar un comentario