RedPajama: an Open Dataset for Training Large Language Models

Sección
General
Tipo
General

Este artículo presenta los conjuntos de datos RedPajama-V1 y RedPajama-V2, creados para mejorar el entrenamiento de modelos de lenguaje grandes (LLMs). RedPajama-V1 replica los datos de Llama, mientras que RedPajama-V2 se centra en datos web de alta calidad con más de 100 billones de token. Ambos conjuntos son esenciales para el desarrollo de modelos de lenguaje robustos:  

 • Objetivo de transparencia y versatilidad: Buscan mejorar ambas en la curación de datos para preentrernamiento de modelos de lenguaje.                  

  • Impacto de las señales de calidad: Las señales de calidad en los datos permiten crear subconjuntos de alta calidad, mejorando significativamente el rendimiento de los modelos de lenguaje entrenados. 

Autor:

Caltech