# Introducció al processament de llenguatge natural

Moltes de les operacions actuals de processament de llenguatge natural es basen en tècniques de *machine learning* i *deep learning*. Fins fa poc, però, aquestes operacions es basaven en regles i estadístiques. En aquesta pràctica, veurem com utilitzar algunes d'aquestes tècniques bàsiques per treballar en text.

En aquesta pràctica veurem les operacions bàsiques que ens donen les llibreries en python més utilitzades per preprocessar el text i les representacions que podem obtenir.

## Tokenització

La tokenització és el procés de dividir una cadena de caràcters en unitats més petites. Aquestes unitats poden ser paraules, caràcters, frases, etc.

Aquesta es una operació bàsica i necessària per poder aplicar qualsevol tècnica de processament de llenguatge natural.  En aquesta pràctica utilitzarem la tokenització de paraules, és a dir, dividirem el text en paraules. 

Per fer-ho utilitzarem la llibreria [TextBlob](https://textblob.readthedocs.io/en/dev/). Aquesta llibreria ens permetrà tokenitzar text de forma senzilla.

In [None]:
%pip install textblob==0.19.0
%pip install gensim


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.
Collecting gensim
  Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.1.0-py3-none-any.whl.metadata (24 kB)
Downloading gensim-4.3.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (26.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.7/26.7 MB[0m [31m387.7 kB/s[0m eta [36m0:00:00[0m00:01[0m00:02[0m
[?25hDownloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylin

Per tokenitzar un text amb textblob abans hem de baixar els `corpora`. Els `corpora` són conjunts de dades que ens permeten utilitzar les funcionalitats de la llibreria.

In [2]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /home/carles/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt_tab to /home/carles/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /home/carles/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /home/carles/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to /home/carles/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     /home/carles/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
Finished.


### Tokenització de paraules

Un cop hem baixat el model, podem tokenitzar el text. Per fer-ho, primer de tot hem d'importar la llibreria.

A continuació, crearem un objecte `TextBlob` amb el text que volem tokenitzar. Aquest objecte ens permetrà accedir a les funcionalitats de la llibreria.

Finalment, utilitzarem la funció `words` per tokenitzar el text.

In [4]:
# Importem la llibreria
from textblob import TextBlob

# Creem un objecte TextBlob amb el text que volem tokenitzar
text = "El Barça és el millor equip del món. De vegades."
blob = TextBlob(text)

# Tokenitzem el text
tokens = blob.words

# Mostrem els tokens
tokens

WordList(['El', 'Barça', 'és', 'el', 'millor', 'equip', 'del', 'món', 'De', 'vegades'])

Una de les funcions més interessants de TextBlob és que ens permet obtenir la categoria gramatical de cada paraula. Per fer-ho, utilitzarem l'atribut `tags` de l'objecte `TextBlob`.

In [None]:
# Obtenim la categoria gramatical de cada paraula
# Les categories gramaticals es poden consultar a: https://digiasset.org/html/mbsp-tags.html

tags = blob.tags

tags

[('El', 'NNP'),
 ('Barça', 'NNP'),
 ('és', 'NNP'),
 ('el', 'VBZ'),
 ('millor', 'NN'),
 ('equip', 'NN'),
 ('del', 'NN'),
 ('món', 'NN'),
 ('De', 'NNP'),
 ('vegades', 'NNS')]

També podem fer el `noun phrase extraction`. Aquesta funció ens permet obtenir els grups de paraules que formen un nom.

In [6]:
# Obtenim els noun phrases

nps = blob.noun_phrases

nps

WordList(['el barça', 'és el millor equip del món', 'de'])

### Tokenització de frases

En alguns casos, també és necessari tokenitzar el text en frases. Per fer-ho, utilitzarem la funció `sentences` de l'objecte `TextBlob`.

In [8]:
# Tokenitzem el text en frases

text = "El Barça és el millor equip del món. De vegades."
blob = TextBlob(text)
sentences = blob.sentences

sentences

[Sentence("El Barça és el millor equip del món."), Sentence("De vegades.")]

## Stopwords i signes de puntuació

Les *stopwords* són paraules que no aporten informació rellevant per a la tasca que estem realitzant. Per exemple, en la tasca de classificació de text, les *stopwords* no aporten informació per a la classificació.

Per tant, en molts casos, és recomanable eliminar les *stopwords* del text abans d'aplicar qualsevol tècnica de processament de llenguatge natural.

TextBlob ens permet eliminar les *stopwords* del text. Per fer-ho, utilitzarem la llista de *stopwords* que té NLTK (llibreria en la que es basa TextBlob).

In [11]:
# Obtenim les stopwords

import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
stop = stopwords.words('catalan')

stop

[nltk_data] Downloading package stopwords to /home/carles/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['a',
 'abans',
 'ací',
 'ah',
 'així',
 'això',
 'al',
 'aleshores',
 'algun',
 'alguna',
 'algunes',
 'alguns',
 'alhora',
 'allà',
 'allí',
 'allò',
 'als',
 'altra',
 'altre',
 'altres',
 'amb',
 'ambdues',
 'ambdós',
 'anar',
 'ans',
 'apa',
 'aquell',
 'aquella',
 'aquelles',
 'aquells',
 'aquest',
 'aquesta',
 'aquestes',
 'aquests',
 'aquí',
 'baix',
 'bastant',
 'bé',
 'cada',
 'cadascuna',
 'cadascunes',
 'cadascuns',
 'cadascú',
 'com',
 'consegueixo',
 'conseguim',
 'conseguir',
 'consigueix',
 'consigueixen',
 'consigueixes',
 'contra',
 "d'un",
 "d'una",
 "d'unes",
 "d'uns",
 'dalt',
 'de',
 'del',
 'dels',
 'des',
 'des de',
 'després',
 'dins',
 'dintre',
 'donat',
 'doncs',
 'durant',
 'e',
 'eh',
 'el',
 'elles',
 'ells',
 'els',
 'em',
 'en',
 'encara',
 'ens',
 'entre',
 'era',
 'erem',
 'eren',
 'eres',
 'es',
 'esta',
 'estan',
 'estat',
 'estava',
 'estaven',
 'estem',
 'esteu',
 'estic',
 'està',
 'estàvem',
 'estàveu',
 'et',
 'etc',
 'ets',
 'fa',
 'faig',
 'f

A continuació, veurem un exemple de com eliminar les *stopwords* d'un text.

In [12]:
# Eliminem les stopwords d'un text

text = "El Barça és el millor equip del món. De vegades."
blob = TextBlob(text)
tokens = [token for token in blob.words if token not in stop]

tokens

['El', 'Barça', 'millor', 'equip', 'món', 'De', 'vegades']

També podem veure com, junt als stopwords, també s'eliminen els signes de puntuació.

## Lematització i stemming

La lematització és el procés de convertir una paraula a la seva forma base. Per exemple, la paraula *està* es converteix en *estar*. L'stemming, en canvi, consisteix en eliminar els afixos de les paraules. Per exemple, la paraula *està* es converteix en *est*.

Ambdues tècniques ens permeten reduir el vocabulari del text i, per tant, reduir la dimensionalitat dels vectors de paraules; cosa que ens pot ajudar a millorar el rendiment dels nostres models.

Vejam un exemple de com aplicar la lematització i el stemming amb TextBlob.

In [13]:
# Lematitzem i stemitzem un text

text = "Series un bon cantant, si no fora per la veu."
blob = TextBlob(text)

# Lematitzem
lemmas = [token.lemmatize() for token in blob.words]

# Stemitzem

stemes = [token.stem() for token in blob.words]

lemmas, stemes

(['Series', 'un', 'bon', 'cantant', 'si', 'no', 'forum', 'per', 'la', 'veu'],
 ['seri', 'un', 'bon', 'cantant', 'si', 'no', 'fora', 'per', 'la', 'veu'])

## N-grams

Els n-grams són seqüències de n paraules consecutives. Per exemple, si tenim el següent text: *'El Barça és el millor equip del món'*, els n-grams de 2 paraules serien: *'El Barça', 'Barça és', 'és el', 'el millor', 'millor equip', 'equip del', 'del món'*.

Els n-grams ens permeten tenir en compte la relació entre paraules consecutives. Per exemple, en el text anterior, si només utilitzem unigrammes, no sabrem que *'millor'* i *'equip'* estan relacionades. En canvi, si utilitzem bigrames, sí que sabrem que *'millor equip'* estan relacionades.

Per crear els n-grams en TextBlob, utilitzarem la funció `ngrams`.

In [14]:
# Creem bigrames d'un text

text = "El Barça és el millor equip del món."
blob = TextBlob(text)
bigrams = blob.ngrams(n=2)

bigrams

[WordList(['El', 'Barça']),
 WordList(['Barça', 'és']),
 WordList(['és', 'el']),
 WordList(['el', 'millor']),
 WordList(['millor', 'equip']),
 WordList(['equip', 'del']),
 WordList(['del', 'món'])]

## Representació del text

Un cop hem pre-processat el text, hem de representar-lo en un format que pugui ser entès per l'ordinador. 

Veurem algunes de les representacions més utilitzades en processament de llenguatge natural. En aquesta pràctica, ens centrarem en algunes de les representacions més utilitzades en tasques de classificació de text.
 
### One-hot encoding

La representació *one-hot encoding* consisteix en crear un vector per a cada document. Aquest vector té tantes dimensions com paraules diferents hi ha en el vocabulari. Cada dimensió del vector representa una paraula del vocabulari i el valor de la dimensió és 1 si la paraula apareix en el document i 0 si no apareix.

Per exemple, si tenim el següent vocabulari: *'casa', 'cotxe', 'avio'* i el següent document: *'casa cotxe casa'*, el vector resultant seria: *[1, 1, 0]*.

Utilitzarem la classe `OneHotEncoder` de la llibreria `sklearn` per crear la representació *one-hot encoding*.


In [15]:
import numpy
from sklearn import preprocessing

# Creem la representació one-hot encoding d'un text

text = "El barça és el millor equip del món. De vegades."
blob = TextBlob(text)
tokens = numpy.array([token for token in blob.words if token not in stop])

encoder = preprocessing.OneHotEncoder()

encoded = encoder.fit_transform(tokens.reshape(-1, 1)).toarray()
encoded

array([[0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1.]])

### Bag of Words

La representació *Bag of Words* consisteix en crear un vector per a cada document. Aquest vector té tantes dimensions com paraules diferents hi ha en el vocabulari. Cada dimensió del vector representa una paraula del vocabulari i el valor de la dimensió és el nombre d'aparicions d'aquesta paraula en el document.

Per exemple, si tenim el següent vocabulari: *'casa', 'cotxe', 'avio'* i el següent document: *'casa cotxe casa'*, el vector resultant seria: *[2, 1, 0]*.

Per crear la representació *Bag of Words* utilitzarem la classe `CountVectorizer` de la llibreria `sklearn`.

In [16]:
# Creem la representació Bag of Words d'un text

from sklearn.feature_extraction.text import CountVectorizer

text = "Em passo la vida del treball a casa i de casa al treball."
blob = TextBlob(text)
tokens = [token for token in blob.words if token not in stop]
text = ' '.join(tokens)

vectorizer = CountVectorizer()
bow = vectorizer.fit_transform([text])

print(vectorizer.get_feature_names_out())
print(bow.toarray())

['casa' 'em' 'passo' 'treball' 'vida']
[[2 1 1 2 1]]


### TF-IDF

La representació TF-IDF (*Term Frequency - Inverse Document Frequency*) consisteix en crear un vector per a cada document. Aquest vector té tantes dimensions com paraules diferents hi ha en el vocabulari. Cada dimensió del vector representa una paraula del vocabulari i el valor de la dimensió és el producte de la freqüència de la paraula en el document (TF) i la freqüència inversa de la paraula en el conjunt de documents (IDF).

Per exemple, si tenim el següent vocabulari: *'casa', 'cotxe', 'avio'* i el següent document: *'casa cotxe casa'*, el vector resultant seria: *[2/3, 1/3, 0]*.

Per crear la representació TF-IDF utilitzarem la classe `TfidfVectorizer` de la llibreria `sklearn`.

In [17]:
# Creem la representació TF-IDF d'un text

from sklearn.feature_extraction.text import TfidfVectorizer

text = "Em passo la vida del treball a casa i de casa al treball."
blob = TextBlob(text)
tokens = [token for token in blob.words if token not in stop]
text = ' '.join(tokens)

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform([text])

print(vectorizer.get_feature_names_out())
print(tfidf.toarray())

['casa' 'em' 'passo' 'treball' 'vida']
[[0.60302269 0.30151134 0.30151134 0.60302269 0.30151134]]


### Word2Vec

Word2Vec és un algorisme que ens permet representar les paraules en un espai vectorial. Aquesta representació ens permet tenir en compte la semàntica de les paraules. Per exemple, si representem les paraules *'rei'* i *'reina'* en un espai vectorial, veurem que la distància entre els vectors és menor que la distància entre els vectors de *'rei'* i *'cotxe'*.

Per crear la representació Word2Vec utilitzarem la classe `Word2Vec` de la llibreria `gensim`.

In [18]:
# Creem la representació Word2Vec d'un text

from gensim.models import Word2Vec

text = "Em passo la vida del treball a casa i de casa al treball."
blob = TextBlob(text)
tokens = [token for token in blob.words if token not in stop]

model = Word2Vec([tokens], min_count=1)
model.wv['casa']

array([-5.3622725e-04,  2.3643136e-04,  5.1033497e-03,  9.0092728e-03,
       -9.3029495e-03, -7.1168090e-03,  6.4588725e-03,  8.9729885e-03,
       -5.0154282e-03, -3.7633716e-03,  7.3805046e-03, -1.5334714e-03,
       -4.5366134e-03,  6.5540518e-03, -4.8601604e-03, -1.8160177e-03,
        2.8765798e-03,  9.9187379e-04, -8.2852151e-03, -9.4488179e-03,
        7.3117660e-03,  5.0702621e-03,  6.7576934e-03,  7.6286553e-04,
        6.3508903e-03, -3.4053659e-03, -9.4640139e-04,  5.7685734e-03,
       -7.5216377e-03, -3.9361035e-03, -7.5115822e-03, -9.3004224e-04,
        9.5381187e-03, -7.3191668e-03, -2.3337686e-03, -1.9377411e-03,
        8.0774371e-03, -5.9308959e-03,  4.5162440e-05, -4.7537340e-03,
       -9.6035507e-03,  5.0072931e-03, -8.7595852e-03, -4.3918253e-03,
       -3.5099984e-05, -2.9618145e-04, -7.6612402e-03,  9.6147433e-03,
        4.9820580e-03,  9.2331432e-03, -8.1579173e-03,  4.4957981e-03,
       -4.1370760e-03,  8.2453608e-04,  8.4986202e-03, -4.4621765e-03,
      

## Altres funcionalitats de TextBlob

TextBlob ens permet realitzar altres tasques de processament de llenguatge natural. A continuació, veurem algunes d'aquestes funcionalitats.

### Anàlisi de sentiments

TextBlob ens permet analitzar els sentiments d'un text. Per fer-ho, utilitzarem l'atribut `sentiment` de l'objecte `TextBlob`. Aquest atribut ens retorna un objecte `Sentiment` amb dos atributs: `polarity` i `subjectivity`. La polaritat és un valor entre -1 i 1 que indica si el text és positiu o negatiu. La subjectivitat és un valor entre 0 i 1 que indica si el text és objectiu o subjectiu.

In [19]:
# Analitzem els sentiments d'un text

text = "This song is the shit. It's the best song I've ever heard!"
blob = TextBlob(text)
blob.sentiment

Sentiment(polarity=0.4, subjectivity=0.55)

### Classificació

TextBlob ens permet classificar text utilitzant diferents classificadors. Per fer-ho, primer de tot hem d'entrenar el classificador.

En aquesta pràctica, utilitzarem el classificador *Naive Bayes* per classificar text. Per entrenar el classificador, utilitzarem la classe `NaiveBayesClassifier` de la llibreria `textblob.classifiers`.

Un cop entrenat el classificador, podem classificar text utilitzant la funció `classify` de l'objecte `NaiveBayesClassifier`.

A continuació, veurem un exemple de com classificar text amb TextBlob.

In [20]:
# En primer lloc crearem les dades d'entrenament i testeig

# Training data
train = [
    ('The application crashes when I try to open it.', 'Bug'),
    ('I would like to request a new feature.', 'Feature Request'),
    ('How do I reset my password?', 'Question'),
    ('There is a typo on the main page.', 'Bug'),
    ('Could you add support for multiple languages?', 'Feature Request'),
    ('Where can I find the user manual?', 'Question'),
]

# Testing data
test = [
    ('The app is not responding.', 'Bug'),
    ('I think it would be great if you could add a dark mode.', 'Feature Request'),
    ('What is the maximum file size I can upload?', 'Question'),
]

# Entrenem el classificador

from textblob.classifiers import NaiveBayesClassifier

classifier = NaiveBayesClassifier(train)

# Classifiquem text

classifier.classify('The app crashes when I try to upload a file.')

'Bug'

In [21]:
classifier.accuracy(test)

1.0

# Conclusions

En aquesta pràctica hem vist com pre-processar text i com representar-lo en un format que pugui ser entès per l'ordinador. A més, hem vist com utilitzar algunes de les funcionalitats de TextBlob i llibreries relacionades.

TextBlob, però, està basat en NLTK, una llibreria que es fonamenta en regles i, com hem vist a teoria, aquestes llibreries no sempre funcionen bé. Per tant, en la següent pràctica veurem com utilitzar eines basades en xarxes neuronals per pre-processar text i classificar-lo.