# Classificador de notícies

En aquesta pràctica, crearem un classificador de notícies utilitzant les tècniques de processament de llenguatge natural que hem vist a classe, centrades en la representació del text.

Utilitzarem el `dataset` [AG News](https://www.kaggle.com/amananandrai/ag-news-classification-dataset) que conté 1.000.000 de notícies de 4 categories diferents.

## Dataset

Per carregar el dataset, utilitzarem la llibreria `datasets`. Aquesta llibreria ens permetrà carregar molts datasets diferents de manera senzilla. En aquest cas, carregarem el dataset d'AG News.

## Preparació del dataset

Per instal·lar les llibreries necessàries, executarem la següent cel·la. 

Anem a utilitzar `pytorch` (una llibreria de deep learning), `scikit-learn` (una llibreria de machine learning) i `transformers` (una llibreria de models de llenguatge).

In [28]:
# Instalem les llibreries necessàries en les versions correctes

!pip install torch datasets scikit-learn transformers

[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [1]:
from datasets import load_dataset

# Carreguem el dataset. Es descarregarà automàticament i es guardarà en local. 
# Aquest dataset conté notícies de diferents categories. En aquest cas
# utilitzarem les categories World, Sports, Business i Sci/Tech.

dataset = load_dataset('ag_news')

dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 120000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 7600
    })
})

In [2]:
print(dataset['train'][0])

print(dataset['train'].features)

classes = dataset['train'].features["label"].names
classes

{'text': "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.", 'label': 2}
{'text': Value(dtype='string', id=None), 'label': ClassLabel(names=['World', 'Sports', 'Business', 'Sci/Tech'], id=None)}


['World', 'Sports', 'Business', 'Sci/Tech']

Automáticament, la funció `load` ha dividit el dataset en dos conjunts: un de train i un de test. Per accedir a aquests conjunts, utilitzarem els atributs `train` i `test` de l'objecte `dataset`. Aquests atributs són objectes `tf.data.Dataset` que contenen els exemples i les etiquetes del conjunt d'entrenament i de test. Per accedir als exemples i les etiquetes, utilitzarem els atributs `data` i `label` de l'objecte `tf.data.Dataset`.

In [3]:
# Separem el dataset en conjunt d'entrenament i de test
ds_train = dataset['train']
ds_test = dataset['test']

# Vejam quants exemples hi ha en cada conjunt
print('Nombre d\'exemples de train:', len(ds_train))
print('Nombre d\'exemples de test:', len(ds_test))

Nombre d'exemples de train: 120000
Nombre d'exemples de test: 7600


Imprimim els primers 5 exemples del conjunt d'entrenament. Com podem veure, cada exemple és una notícia i la seva etiqueta.

In [4]:
# Imprimim els primers 5 exemples del conjunt d'entrenament
for w in ds_train.take(5):
    print(f"{w['label']} ({classes[w['label']]}) -> {w['text']}")

2 (Business) -> Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics, are seeing green again.
2 (Business) -> Carlyle Looks Toward Commercial Aerospace (Reuters) Reuters - Private investment firm Carlyle Group,\which has a reputation for making well-timed and occasionally\controversial plays in the defense industry, has quietly placed\its bets on another part of the market.
2 (Business) -> Oil and Economy Cloud Stocks' Outlook (Reuters) Reuters - Soaring crude prices plus worries\about the economy and the outlook for earnings are expected to\hang over the stock market next week during the depth of the\summer doldrums.
2 (Business) -> Iraq Halts Oil Exports from Main Southern Pipeline (Reuters) Reuters - Authorities have halted oil export\flows from the main pipeline in southern Iraq after\intelligence showed a rebel militia could strike\infrastructure, an oil official said on Saturday.
2 (Business) -> Oil prices soar to

## Tokenització

La representació del text en un model de llenguatge requereix que el text sigui convertit en números. Si volem una representació a nivell de paraula, necessitem fer dues coses:

* Utilitzar un **tokenitzador** per dividir el text en **tokens**.
* Construir un **vocabulari** amb aquests tokens.

In [5]:
# Utilitzem el tokenitzador de BERT (un dels primers models de llenguatge basats en transformers) per tokenitzar les frases

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("google-bert/bert-base-uncased")

print(tokenizer.tokenize("-- Hello, how are you doing today?"))

# Podem veure el vocabulari del tokenitzador
vocab = tokenizer.get_vocab()
print(len(vocab))



['-', '-', 'hello', ',', 'how', 'are', 'you', 'doing', 'today', '?']
30522


Utilitzant el tokenitzador, podem també convertir la nostra cadena tokenitzada en un conjunt de números:

In [6]:
tokenitzada = tokenizer.tokenize("-- Hello, how are you doing today?")

def encode(text):
    tk = tokenizer.tokenize(text)
    return tokenizer.convert_tokens_to_ids(tk)

print(encode("-- Hello, how are you doing today?"))

[1011, 1011, 7592, 1010, 2129, 2024, 2017, 2725, 2651, 1029]


## Representació del text

Per poder entrenar un model de xarxes neuronals, necessitem representar el text com a vectors de nombres. En aquesta pràctica, utilitzarem la representació Bag-of-Words (BoW) que consisteix en representar cada paraula com un nombre. Aquesta representació és molt senzilla i no té en compte l'ordre de les paraules ni la seva semàntica. Però és una representació que funciona prou bé en molts casos.

### Representació Bag-of-Words

Encara que el significat de les paraules no és fàcil de deduir sense poder accedir al context, en alguns casos, la representació Bag-of-Words pot ser útil. Per exemple, en el text d'una notícia, la paraula `covid` pot ser un bon indicador que la notícia parla sobre la pandèmia de la COVID-19 i la paraula `snow` pot ser un bon indicador que la notícia parla sobre el temps atmosfèric.

De les tècniques clàssiques de vectorització de text, la més senzilla és la representació Bag-of-Words (BoW). En aquesta representació, cada paraula es representa com un nombre. Per convertir un text en una representació BoW, primer creem un vector amb tants zeros com paraules hi ha en el vocabulari. Després, per cada paraula del text, incrementem en 1 el valor de la posició corresponent al vector. Per exemple, si el text és `this sentence is a test sentence`, el vector resultant seria `[1, 2, 1, 1, 0, 0, 0, 0, 0, 0, ...]`.

Si recordem la representació one-hot, veurem que la representació BoW és molt similar. La diferència és que la representació one-hot serà una sèrie de vectors amb un sol 1 i la resta de valors a 0. En canvi, la representació BoW serà un vector amb tants 1 com vegades apareixi cada paraula. Podem considerar que la representació BoW seria la suma de vectors one-hot.

Per exemple, si el text és `this sentence is a test sentence`, el vector one-hot de la primera paraula seria `[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...]` i el vector one-hot de la segona paraula seria `[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...]`. La representació BoW seria la suma d'aquests dos vectors: `[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, ...]`.

Per generar una representació BoW, utilitzarem aquesta tècnica per convertir cada paraula en un vector one-hot i després sumarem tots els vectors. Per fer-ho, utilitzarem la funció `to_bow` que crearem a continuació. Aquesta funció rep un text i retorna un vector amb la representació BoW del text.

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = [
        'I like hot dogs.',
        'The dog ran fast.',
        'Its hot outside.',
    ]
vectorizer.fit_transform(corpus)

vectorizer.transform(['My dog likes hot dogs on a hot day.']).toarray()

array([[1, 1, 0, 2, 0, 0, 0, 0, 0]])

Per a calcular el vector BoW de d'una noticia del nostre dataset AG_NEWS, podem utilitzar la següent funció:

In [8]:
import torch

len_vocab = len(vocab)

def to_bow(text, tamany_vocabulari=len_vocab):
    res = torch.zeros(tamany_vocabulari, dtype=torch.float32)

    for i in encode(text):
        if i<tamany_vocabulari:
            res[i] += 1
    return res

print(ds_train[0])
print(to_bow(ds_train[0]["text"]))

{'text': "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.", 'label': 2}
tensor([0., 0., 0.,  ..., 0., 0., 0.])


#### Entrenament del model de classificació BoW

El nostre primer model serà un classificador de notícies utilitzant la representació BoW. Per fer-ho, crearem un model de xarxes neuronals amb una capa d'entrada amb tants neurones com paraules hi hagi al nostre vocabulari i una capa de sortida amb tants neurones com categories hi hagi al nostre dataset.

#### Representació BoW

En primer lloc necessitem convertir el text en la representació BoW utilitzant la funció `to_bow` que hem creat abans. Aquesta funció rep un text i retorna un vector amb la representació BoW del text.

En pytorch s'utilitzen els `DataLoaders`, per carregar les dades en lots i convertir-les en tensors de PyTorch. Aprofitarem aquesta funcionalitat per convertir les dades en BoW en tensors de PyTorch, utilitzant el paràmetre `collate_fn` del `DataLoader` i proporcionant una funció que converteixi les dades textuals en tensors de BoW.

In [9]:
from torch.utils.data import DataLoader


# this collate function gets list of batch_size tuples, and needs to
# return a pair of label-feature tensors for the whole minibatch
def bowify(batch):
    """
    Aquesta funció rep una llista de noticies i retorna un tensor amb les etiquetes
    (vector de floats) i un altre amb les notícies codificades com a BoW (matriu de floats on cada fila
    és un vector de BoW).
    """

    # Els labels són 0, 1, 2 o 3.
    # Utilitzem LongTensor perquè són enters.

    etiquetes = torch.LongTensor([noticia["label"] for noticia in batch])

    # Les notícies són tensors de BoW
    noticies = torch.stack([to_bow(noticia["text"]) for noticia in batch])

    return (etiquetes, noticies)

train_loader = DataLoader(ds_train, batch_size=16, collate_fn=bowify)
test_loader = DataLoader(ds_test, batch_size=16, collate_fn=bowify)


#### Model de classificació

Now let's define a simple classifier neural network that contains one linear layer. The size of the input vector equals to `vocab_size`, and output size corresponds to the number of classes (4). Because we are solving classification task, the final activation function is `LogSoftmax()`.

Ara crearem el model de classificació utilitzant PyTorch. Definirem un model senzill amb una capa lineal. La mida del vector d'entrada serà `vocab_size` i la mida de la sortida serà el nombre de classes (4). Com que estem resolent una tasca de classificació, la funció d'activació final serà `LogSoftmax()`.

In [10]:
net = torch.nn.Sequential(
    torch.nn.Linear(len(vocab), 4),
    torch.nn.LogSoftmax(dim=1)
)

# També podem definir la xarxa neuronal com a classe

class BoWClassifier(torch.nn.Module):
    def __init__(self, tamany_vocabulari, num_classes):
        # En el constructor definim les capes de la xarxa
        # crida al constructor de la classe pare
        super().__init__()

        # Capa lineal que passa de tamany_vocabulari a num_classes
        self.fc = torch.nn.Linear(tamany_vocabulari, num_classes)

        # Funció de softmax per obtenir probabilitats
        self.logsoftmax = torch.nn.LogSoftmax(dim=1)

        # Com a funció de pèrdua utilitzarem la NNLLLoss (Negative Log Likelihood Loss)
        # S'utilitza per classificació multiclasse i determina la pèrdua entre les prediccions
        # i les etiquetes

        self.loss = torch.nn.NLLLoss()

    def forward(self, ids):
        # x és el vector de BoW de la notícia
        # labels és l'etiqueta de la notícia

        # Passem x per la capa lineal
        ids = self.fc(ids)
        
        # Passem x per la funció de softmax
        ids = self.logsoftmax(ids)

        return ids
    
net = BoWClassifier(len(vocab), 4)

#### Entrenament del model

Ara definirem el bucle d'entrenament estàndard de PyTorch. Com que el nostre dataset és bastant gran, per a la nostra finalitat docent entrenarem només per una època, i a vegades fins i tot per menys d'una època (especificant el paràmetre `epoch_size` ens permet limitar l'entrenament). També informarem de l'exactitud d'entrenament acumulada durant l'entrenament; la freqüència de notificació es especifica utilitzant el paràmetre `report_freq`.

Per entrenar el model, utilitzarem l'optimitzador `Adam` (ja que és un dels optimitzadors més utilitzats) i la funció de cost `CrossEntropyLoss` (ja que tenim un problema de classificació amb més de dues classes). 

In [11]:
# Definim l'optimitzador, la funció de pèrdua i el dispositiu on es faran els càlculs
optimizer = torch.optim.Adam(net.parameters(), lr=0.01)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
loss_fn = torch.nn.CrossEntropyLoss()

In [12]:
def train_epoch(
    net,
    dataloader,
    device=None,
    optimizer=None,
    loss_fn=None,
    epoch_size=None,
    report_freq=200,
):
    # Movem la xarxa a la GPU
    net.to(device)

    # Posem la xarxa en mode training. Això activa el comportament de les capes Dropout, per exemple.
    net.train()

    # Inicialitzem les variables que ens serviran per calcular la precisió
    total_loss, acc, count, i = 0, 0, 0, 0

    # Iterem sobre el dataloader
    for labels, features in dataloader:
        # Movem les dades a la GPU
        labels, features = labels.to(device), features.to(device)

        # Posem els gradients a zero
        optimizer.zero_grad()

        # Calculem la sortida de la xarxa
        out = net(features)

        # Calculem la pèrdua. Aquesta funció ja aplica la softmax a la sortida.
        loss = loss_fn(out, labels)  # cross_entropy(out,labels)

        # Propaguem la pèrdua enrere. Això farà que es calculin els gradients.
        loss.backward()

        # Actualitzem els pesos de la xarxa. Això fa un pas d'optimització.
        optimizer.step()

        # Actualitzem les variables per calcular la precisió.
        total_loss += loss

        # Calculem la precisió. Per fer-ho, hem de convertir la sortida de la xarxa en etiquetes.
        # La classe amb la probabilitat més alta és la que predim com a etiqueta.
        _, predicted = torch.max(out, 1)
        acc += (predicted == labels).sum()

        # Actualitzem el comptador de mostres
        count += len(labels)

        # Mostrem la precisió cada report_freq mostres
        i += 1
        if i % report_freq == 0:
            print(f"{count}: acc={acc.item()/count}")

        # Si s'ha especificat epoch_size i ja hem processat aquest nombre de mostres, sortim del bucle.
        if epoch_size and count > epoch_size:
            break
    return total_loss.item() / count, acc.item() / count


# si volem entrenar la xarxa durant més èpoques, podem fer-ho amb un bucle
def train(
    net,
    train_loader,
    test_loader,
    device=None,
    optimizer=None,
    loss_fn=None,
    epochs=10,
    report_freq=200,
):
    if optimizer is None:
        optimizer = torch.optim.Adam(net.parameters(), lr=0.01)

    if any(x is None for x in [device, loss_fn]):
        raise ValueError("device, optimizer and loss_fn must be specified")

    for epoch in range(epochs):
        print(f"Epoch {epoch}")
        train_loss, train_acc = train_epoch(
            net, train_loader, optimizer=optimizer, loss_fn=loss_fn, report_freq=report_freq
        )
        print(f"Train loss: {train_loss}, Train acc: {train_acc}")

In [13]:
train(net, train_loader, test_loader, device=device, loss_fn=loss_fn, epochs=1)

Epoch 0
3200: acc=0.7409375
6400: acc=0.80375
9600: acc=0.8259375
12800: acc=0.84125
16000: acc=0.8498125
19200: acc=0.8547916666666666
22400: acc=0.8603571428571428
25600: acc=0.8645703125
28800: acc=0.8661111111111112
32000: acc=0.868
35200: acc=0.8707102272727273
38400: acc=0.8723177083333333
41600: acc=0.8737019230769231
44800: acc=0.8752008928571429
48000: acc=0.8757916666666666
51200: acc=0.87615234375
54400: acc=0.8773345588235294
57600: acc=0.8781076388888889
60800: acc=0.8777302631578947
64000: acc=0.877859375
67200: acc=0.8788392857142857
70400: acc=0.879346590909091
73600: acc=0.8800815217391305
76800: acc=0.8815625
80000: acc=0.883325
83200: acc=0.8846995192307693
86400: acc=0.885011574074074
89600: acc=0.8852120535714286
92800: acc=0.8859482758620689
96000: acc=0.88646875
99200: acc=0.8866935483870968
102400: acc=0.887021484375
105600: acc=0.8877840909090909
108800: acc=0.8881801470588235
112000: acc=0.8884017857142857
115200: acc=0.8890104166666667
118400: acc=0.889518581

In [14]:
def validate(net, test_loader):
    net.eval()
    total_loss, acc, count = 0, 0, 0
    for labels, features in test_loader:
        out = net(features)
        _, predicted = torch.max(out, 1)
        acc += (predicted == labels).sum()
        count += len(labels)
    return acc.item() / count

In [15]:
validate(net, test_loader)

0.8925

El model ha aconseguit una accuracy de quasi `0.9` en el conjunt d'entrenament; un nombre prou acceptable tenint en compte que hem simplificat el problema per reduïr el temps d'execució del tutorial. En un cas real, utilitzaríem totes les notícies del conjunt d'entrenament i el model seria més precís.

### Representació Word2Vec

La representació Word2Vec és una representació molt utilitzada en el processament de llenguatge natural. Aquesta representació té en compte el context de les paraules i permet fer operacions amb les paraules. Per exemple, si restem el vector de la paraula `king` i sumem el vector de la paraula `woman`, obtindrem un vector que serà molt similar al vector de la paraula `queen`.

Per generar la representació Word2Vec, utilitzarem la llibreria `gensim`. Aquesta llibreria conté molts models de representació de paraules. En aquest cas, utilitzarem el model `word2vec-google-news-300` que conté la representació Word2Vec de 3 milions de paraules i frases. 

> La primera vegada que s'executi aquesta cel·la, la funció `load` descarregarà el model d'1.5GB. Això pot trigar uns minuts. Un cop descarregat, el model es guardarà a la carpeta `/home/USUARI/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz` i no caldrà descarregar-lo de nou.
> Aquesta funció retorna un objecte `KeyedVectors` que conté la representació Word2Vec.

In [16]:
import gensim.downloader as api

w2v = api.load('word2vec-google-news-300')

Ara ja podem accedir a la representació Word2Vec de cada paraula. Per exemple, per accedir a la representació de la paraula `king`, utilitzarem la funció `get_vector` de l'objecte `KeyedVectors`.

In [17]:
w2v.get_vector('king')

array([ 1.25976562e-01,  2.97851562e-02,  8.60595703e-03,  1.39648438e-01,
       -2.56347656e-02, -3.61328125e-02,  1.11816406e-01, -1.98242188e-01,
        5.12695312e-02,  3.63281250e-01, -2.42187500e-01, -3.02734375e-01,
       -1.77734375e-01, -2.49023438e-02, -1.67968750e-01, -1.69921875e-01,
        3.46679688e-02,  5.21850586e-03,  4.63867188e-02,  1.28906250e-01,
        1.36718750e-01,  1.12792969e-01,  5.95703125e-02,  1.36718750e-01,
        1.01074219e-01, -1.76757812e-01, -2.51953125e-01,  5.98144531e-02,
        3.41796875e-01, -3.11279297e-02,  1.04492188e-01,  6.17675781e-02,
        1.24511719e-01,  4.00390625e-01, -3.22265625e-01,  8.39843750e-02,
        3.90625000e-02,  5.85937500e-03,  7.03125000e-02,  1.72851562e-01,
        1.38671875e-01, -2.31445312e-01,  2.83203125e-01,  1.42578125e-01,
        3.41796875e-01, -2.39257812e-02, -1.09863281e-01,  3.32031250e-02,
       -5.46875000e-02,  1.53198242e-02, -1.62109375e-01,  1.58203125e-01,
       -2.59765625e-01,  

També podem accedir a les paraules més similars a una paraula. Per exemple, per accedir a les paraules més similars a la paraula `king`, utilitzarem la funció `most_similar` de l'objecte `KeyedVectors`.

In [18]:
for w, p in w2v.most_similar('king'):
    print(f"{w} -> {p}")

kings -> 0.7138045430183411
queen -> 0.6510956883430481
monarch -> 0.6413194537162781
crown_prince -> 0.6204220056533813
prince -> 0.6159993410110474
sultan -> 0.5864824056625366
ruler -> 0.5797567367553711
princes -> 0.5646552443504333
Prince_Paras -> 0.5432944297790527
throne -> 0.5422105193138123


El més interessant de la representació Word2Vec és que els vectors tenen una estructura matemàtica que permet fer operacions amb les paraules. Per exemple, si restem el vector de la paraula `king` i sumem el vector de la paraula `woman`, obtindrem un vector que serà molt similar al vector de la paraula `queen`.

$$ KING - MAN + WOMAN = QUEEN $$

Per fer aquesta operació, utilitzarem la funció `most_similar` de l'objecte `KeyedVectors` i li passarem els vectors de les paraules `king`, `woman` i `man`. Aquesta funció retornarà una llista amb les paraules més similars al vector resultant. Com podem veure, la paraula més similar és `queen`.

In [19]:
w2v.most_similar(positive=['king', 'woman'], negative=['man'])[0]

('queen', 0.7118193507194519)

### Classificador Word2Vec

Ara crearem un classificador de notícies utilitzant la representació Word2Vec. En primer lloc haurem d'obtenir la representació Word2Vec de cada paraula per convertir el text en vectors. Després, sumarem tots els vectors per obtenir un vector per cada notícia. Aquest vector serà la representació de la notícia.

Per convertir un text en un vector, utilitzarem la funció `to_w2v` que crearem a continuació. Aquesta funció rep un text i retorna un vector amb la representació Word2Vec del text.

In [20]:
def to_w2v(text):
    res = torch.zeros(300, dtype=torch.float32)
    for word in text:
        if word in w2v:
            res += torch.tensor(w2v.get_vector(word))
    return res

print(to_w2v(ds_train[0]["text"]))

tensor([-17.0809,  11.0404,  -0.9337,  12.4042,  -6.2286,   3.0224, -10.0442,
         -8.5156,  -5.9407,   1.1501,  -3.8471,  -8.0006, -18.2444,   4.3982,
        -14.2061,  11.0110,  11.2352,  14.8521,  -2.5686,   2.8961, -22.3914,
         -3.2182,   9.7872,   0.3238,  -8.6214,   4.2367, -21.9348,   5.7704,
         -0.6942,  -1.7075,  -2.4800,   2.1805,  -7.0602, -12.3824, -11.6949,
          8.2563, -18.9995,  11.3932,  -7.3198,   7.3370,  -6.1129,  -3.6244,
          5.8519,   8.3060,   3.9137,  -1.8091,  -3.2730, -15.8203,  -9.6418,
          8.9092, -16.8270,  24.5614,  -2.5387,  21.7112,   6.0571,  14.3324,
        -17.4978, -12.2693,   1.1129, -15.9192, -12.1886,  -9.5650, -19.0873,
         -7.7948,  -4.9111, -18.4653, -10.2332,  11.3437,  -6.0452,   5.4705,
          3.7500,  -9.5068,   4.4747,  -0.2912,  -3.9221,   0.3543,  13.0927,
          2.3088,   3.5300, -11.2126, -14.8031,  -2.9008,  -3.4219,  -0.3365,
         13.8353,   7.0914,  -5.2219,  22.0132,   4.2657,   5.84

Igual que hem fet amb la representació BoW, utilitzarem els `DataLoaders` de PyTorch per convertir les dades en vectors Word2Vec en tensors de PyTorch. Aprofitarem el paràmetre `collate_fn` del `DataLoader` per proporcionar una funció que converteixi les dades textuals en tensors Word2Vec.

In [21]:
def w2vify(batch):
    etiquetes = torch.LongTensor([noticia["label"] for noticia in batch])
    noticies = torch.stack([to_w2v(tokenizer.tokenize(noticia["text"])) for noticia in batch])
    return etiquetes, noticies

train_loader = DataLoader(ds_train, batch_size=16, collate_fn=w2vify)
test_loader = DataLoader(ds_test, batch_size=16, collate_fn=w2vify)

### Model de classificació

Ara crearem el model de classificació utilitzant PyTorch. Definirem un model senzill amb una capa lineal. La mida del vector d'entrada serà `300` (la mida de la representació Word2Vec) i la mida de la sortida serà el nombre de classes (4). Com que estem resolent una tasca de classificació, la funció d'activació final serà `LogSoftmax()`.

In [22]:
net = torch.nn.Sequential(
    torch.nn.Linear(300, 4),
    torch.nn.LogSoftmax(dim=1)
)

Finalment, entrenarem el model utilitzant el mateix procediment que hem fet amb la representació BoW.

In [23]:
train(net, train_loader, test_loader, device=device, loss_fn=loss_fn, epochs=5)

Epoch 0
3200: acc=0.7375
6400: acc=0.77109375
9600: acc=0.7835416666666667
12800: acc=0.79390625
16000: acc=0.8014375
19200: acc=0.80484375
22400: acc=0.8094642857142857
25600: acc=0.81375
28800: acc=0.8157986111111111
32000: acc=0.819625
35200: acc=0.821875
38400: acc=0.8231770833333333
41600: acc=0.8246153846153846
44800: acc=0.8258705357142857
48000: acc=0.8262708333333333
51200: acc=0.8261328125
54400: acc=0.8265257352941177
57600: acc=0.8272743055555556
60800: acc=0.8262828947368421
64000: acc=0.826078125
67200: acc=0.8270833333333333
70400: acc=0.827684659090909
73600: acc=0.8289130434782609
76800: acc=0.8301692708333334
80000: acc=0.832925
83200: acc=0.8349879807692308
86400: acc=0.835625
89600: acc=0.8365513392857142
92800: acc=0.8374030172413793
96000: acc=0.8376979166666667
99200: acc=0.8374798387096775
102400: acc=0.837607421875
105600: acc=0.8384469696969697
108800: acc=0.8388602941176471
112000: acc=0.8390892857142858
115200: acc=0.8398524305555556
118400: acc=0.8404138513

In [24]:
validate(net, test_loader)

0.8497368421052631

El resultat no es molt bo. Això és perquè el model Word2Vec que hem utilitzat no té les paraules que apareixen en el dataset. Per exemple, si busquem la paraula `covid`, veurem que no apareix en el model.

Per solucionar aquest problema hauriem d'utilitzar un model entrenat amb les paraules del dataset o bé utilitzar un model de representació de paraules més gran. Ho farem en el següent exemple.

## Xarxes neuronals recurrents

Finalment veurem com utilitzar xarxes neuronals recurrents (RNN) per classificar les notícies. Les RNN són un tipus de xarxes neuronals que permeten processar seqüències de dades. En aquest cas, utilitzarem una RNN per processar les paraules de les notícies.

### Dataloaders

Haurem de crear un `DataLoader` que carregui les dades en seqüències de paraules. Per fer-ho, utilitzarem la funció `collate_fn` del `DataLoader` i proporcionarem una funció que converteixi les dades textuals en seqüències de paraules. En aquest lloc no transformarem les paraules en vectors Word2Vec, sinó que crearem sequëncies d'índexs de paraules.

In [30]:
from torch.nn.utils.rnn import pad_sequence

def collate_fn(batch):
    labels = torch.tensor([item["label"] for item in batch], dtype=torch.long)
    texts = [torch.tensor(encode(item["text"])) for item in batch]
    texts_padded = pad_sequence(texts, batch_first=True, padding_value=0)
    return labels, texts_padded


# Creem els DataLoader
train_loader = DataLoader(ds_train, batch_size=16, shuffle=True, collate_fn=collate_fn)
test_loader = DataLoader(ds_test, batch_size=16, shuffle=False, collate_fn=collate_fn)

### Model de classificació

Ara crearem el model de classificació utilitzant PyTorch. Definirem un model senzill amb una capa d'entrada amb una capa RNN i una capa de sortida amb tants neurones com categories hi hagi al nostre dataset. Com que estem resolent una tasca de classificació, la funció d'activació final serà `LogSoftmax()`.

En aquest cas no podem utilitzar `Sequential` per definir el model, ja que cal gestionar l'estat intern de la RNN. Per això, crearem una nova classe `RNNClassifier` que hereti de `nn.Module` i implementarem el mètode `forward`.

Utilitzarem també `nn.Embedding` per convertir els índexs de paraules en embeddings. Aquests embeddings seran els vectors que la RNN processarà.

In [31]:
import torch.nn as nn

class RNNClassifier(torch.nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_class):
        super().__init__()
        # Inicialitzem els atributs del model
        # Hidden dim és la dimensió de l'estat ocult de la RNN
        self.hidden_dim = hidden_dim
        self.embedding = torch.nn.Embedding(vocab_size, embed_dim)
        self.rnn = torch.nn.LSTM(embed_dim,hidden_dim,batch_first=True)
        self.fc = torch.nn.Linear(hidden_dim, num_class)

    def forward(self, x):
        x = self.embedding(x)
        x,h = self.rnn(x)
        return self.fc(x.mean(dim=1))
    
# Paràmetres del model
vocab_size = len(tokenizer.get_vocab())  # Mida del vocabulari
embedding_dim = 64  # Dimensió dels embeddings
hidden_dim = 32  # Dimensió de l'estat ocult de la LSTM
num_class = len(classes)  # Nombre de classes (World, Sports, Business, Sci/Tech)

# Creem el model
model = RNNClassifier(vocab_size, embedding_dim, hidden_dim, num_class)

In [32]:
train(model, train_loader, test_loader, device=device, loss_fn=loss_fn, epochs=5)

Epoch 0
3200: acc=0.508125
6400: acc=0.65078125
9600: acc=0.7163541666666666
12800: acc=0.750078125
16000: acc=0.7735625
19200: acc=0.7906770833333333
22400: acc=0.8041071428571429
25600: acc=0.814453125
28800: acc=0.8213541666666667
32000: acc=0.82815625
35200: acc=0.8335511363636363
38400: acc=0.83859375
41600: acc=0.8425961538461538
44800: acc=0.8465625
48000: acc=0.8498541666666667
51200: acc=0.85291015625
54400: acc=0.8555330882352942
57600: acc=0.8583159722222222
60800: acc=0.8605756578947369
64000: acc=0.86240625
67200: acc=0.8638988095238095
70400: acc=0.8652130681818182
73600: acc=0.8667119565217392
76800: acc=0.8684375
80000: acc=0.86955
83200: acc=0.8711177884615384
86400: acc=0.8720138888888889
89600: acc=0.8731473214285714
92800: acc=0.8742025862068965
96000: acc=0.8751875
99200: acc=0.87625
102400: acc=0.877109375
105600: acc=0.8778787878787879
108800: acc=0.8786305147058824
112000: acc=0.8794375
115200: acc=0.8802690972222222
118400: acc=0.8808108108108108
Train loss: 0.

Com podem veure el millor resultat l'obtenim amb la representació en una xarxa neuronal recurrent (LSTM) amb una accuracy de quasi `0.94`, sense tindre que precalcular les representacions de les paraules.

Podem destacar que solament hem posat una capa recurrent i una capa lineal, però podríem afegir més capes recurrents, dropout, etc. per millorar el model.

Es per aixó que fins l'irrupció dels transformers, les RNN eren les més utilitzades en el processament de llenguatge natural i segueixen sent molt utilitzades en molts casos. De tota manera en la següent pràctica veurem com utilitzar els transformers per aconseguir resultats encara millors.