El siguiente ejemplo utiliza un dataset de productos de supermercado, y crear un clasificador para predecir la categoría del producto usando el nombre.
El dataset proviene de un web-scraping realizado en una página de un supermercado, y tiene la siguiente estructura:
Para lograr esto se utiliza el algoritmo de word2vec para transformar el texto en una matriz que represente los features o variables. En este ejemplo no se explica la teoría de word2vec, luego haré otro post sobre eso.
El proceso sigue estos pasos:
PASO 1: Entrenar Word2vec
Se entrena un modelo usando Word2vec, y se genera un diccionario (word vector) que tiene un vector numérico por cada palabra. Conceptualmente sería así: