Los modelos preentrenados y fundacionales constituyen la base tecnológica más extendida en la actualidad. Estos modelos, entrenados con grandes volúmenes de datos en múltiples dominios, ofrecen capacidades generalistas que pueden ser adaptadas a un amplio abanico de tareas específicas.
Su principal valor reside en la reducción de costes y tiempos de desarrollo, ya que permiten a las organizaciones aprovechar arquitecturas previamente entrenadas en lugar de desarrollar soluciones desde cero. Además, abren la puerta a funcionalidades avanzadas, como el procesamiento multimodal (texto, imagen, audio), el análisis de lenguaje natural a escala o la generación de contenido.
Entre los modelos más destacados se encuentran:
- GPT y variantes abiertas (GPT-Neo, GPT-J), como ejemplos de modelos de lenguaje fundacionales.
- CLIP, orientado al vínculo entre texto e imagen.
- Whisper, especializado en reconocimiento de voz multilingüe.
- EfficientNet, modelo optimizado de visión con un enfoque eficiente en recursos.
- DistilBERT y TinyML, que representan líneas de trabajo orientadas a modelos más ligeros y sostenibles.
La evolución hacia modelos fundacionales más sostenibles ha llevado a desarrollar arquitecturas con menor huella energética, manteniendo un equilibrio entre rendimiento y eficiencia.