_____________________________________________________________________________________
Enlaces a los ejercicios
5.1.
Cómo cargar un dataset desde Hugging FaceEn este ejercicio, aprenderemos a cargar un dataset alojado en Hugging Face.
5.2.
Cómo cargar un dataset desde local en un objeto DatasetEn este ejercicio, aprenderemos a cargar un dataset alojado en nuestra unidad de google drive o en un repositorio. También veremos la forma más eficiente para acceder a sus datos.
5.3.
Algunos métodos útiles para trabajar con objetos DatasetDict.
En este ejercicio, conoceremos y practicaremos con algunos métodos muy útiles de las clases DatasetDict y Dataset. Estos métodos permitirán eliminar y renombrar campos, seleccionar instancias usando condiciones, aplicar funciones a todo el dataset, etc.
5.4.
Cómo crear particiones (splits) en un objeto DatasetEn este ejercicio, aprenderemos a dividir un objeto Dataset para crear un objeto DictDataset con las particiones (splits) para entrenar, validar y evaluar un transformer.
5.5.
Tokenización en transformersEn este ejercicio, aprenderemos a tokenizar un texto con el tokenizador de un transformer y estudiaremos su salida. También trabajaremos con el concepto wordpiece tokenizacion.
5.6.
Aplicando padding y truncationEn este ejercicio, aprenderemos a tokenizar una colección de textos, revisaremos los conceptos de padding y truncation y aprenderemos a aplicarlos con un tokenizador de un transformer.
5.7.
Cómo usar un transformer para inferir (pipelines)En este ejercicio, aprenderemos a utilizar la clase Pipelines, que nos permite cargar transformer que ya han sido ajustados para una tarea y utilizarlos directamente para inferir sobre nuevos textos.
5.8.
Cómo ajustar (fine-tuning) un transformer En este ejercicio, aprenderemos a ajustar (fine-tuning) para la tarea de clasificación de textos.