Sección
General
Tipo
General
Este artículo presenta los conjuntos de datos RedPajama-V1 y RedPajama-V2, creados para mejorar el entrenamiento de modelos de lenguaje grandes (LLMs). RedPajama-V1 replica los datos de Llama, mientras que RedPajama-V2 se centra en datos web de alta calidad con más de 100 billones de token. Ambos conjuntos son esenciales para el desarrollo de modelos de lenguaje robustos:
• Objetivo de transparencia y versatilidad: Buscan mejorar ambas en la curación de datos para preentrernamiento de modelos de lenguaje.
• Impacto de las señales de calidad: Las señales de calidad en los datos permiten crear subconjuntos de alta calidad, mejorando significativamente el rendimiento de los modelos de lenguaje entrenados.
Autor:
Caltech