Ruta AIF-C01Dominio 3 · Modelos fundacionalesEntrenamiento y ajuste de modelos fundacionales

Entrenamiento y ajuste de modelos fundacionales

Pre-training, fine-tuning, continuous pre-training, distillation, instruction tuning, transferencia de aprendizaje, preparación de datos, gobierno, representatividad, etiquetado y RLHF.

Preparación1
Dominio 12
Dominio 23
Dominio 34
Dominio 45
Dominio 56
Selector de módulo
Dominio 3 · Modelos fundacionales

Entrenamiento y ajuste de modelos fundacionales

◷ 34 min

Entrenar y ajustar modelos fundacionales no significa simplemente “meter datos en un modelo”. En AIF-C01 debes entender el proceso a nivel conceptual: cómo se crean capacidades generales durante el pre-training, cómo se adaptan después con fine-tuning, cuándo conviene usar instruction tuning, qué papel tienen los datos y por qué la calidad, la representatividad, el etiquetado y el gobierno son tan importantes como la técnica elegida.

Pre-training Fine-tuning Continuous pre-training Distillation Instruction tuning RLHF Gobierno de datos
Pista de examen: si el problema es falta de conocimiento actualizado, normalmente piensa primero en RAG. Si el problema es adaptar comportamiento, estilo o una tarea repetitiva con muchos ejemplos revisados, puede tener sentido fine-tuning. Entrenar desde cero o hacer pre-training suele ser la opción más cara y menos habitual en un escenario foundational.

1. Por qué este tema es importante en AIF-C01

El examen no espera que sepas entrenar un modelo fundacional desde cero a nivel de ingeniería profunda, pero sí que entiendas las opciones disponibles y sus compromisos. AWS puede plantear escenarios donde una empresa quiere adaptar un modelo a su dominio, mejorar el tono de las respuestas, reducir coste, usar datos propios o mantener conocimiento actualizado. Tu trabajo es identificar si conviene usar prompt engineering, RAG, fine-tuning, continuous pre-training, distillation o un modelo existente sin personalización.

Conocimiento actualizado

Cuando los documentos cambian con frecuencia, suele encajar mejor RAG o una base de conocimiento que reentrenar el modelo.

Estilo o formato de respuesta

Si el contenido es correcto pero el tono o la estructura no encajan, primero se prueban prompts, plantillas y ejemplos.

Tarea repetitiva con ejemplos revisados

Si existen muchos ejemplos de alta calidad, puede ser razonable usar fine-tuning para adaptar el comportamiento del modelo.

Modelo más pequeño y barato

Si un modelo grande funciona bien pero es costoso, la distillation puede crear un modelo más ligero para una tarea concreta.

2. Pre-training: crear capacidades generales

El pre-training es la fase en la que un modelo aprende patrones generales a partir de enormes cantidades de datos. En modelos de lenguaje, aprende relaciones entre palabras, estructuras de frases, conceptos, razonamiento aproximado, estilos de escritura y conocimiento general. Esta fase es extremadamente costosa, requiere grandes volúmenes de datos, mucha infraestructura y controles de calidad.

Para AIF-C01, lo importante es recordar que el pre-training no suele ser la primera opción para una empresa que solo quiere adaptar un asistente a sus documentos internos. Crear o continuar el entrenamiento de un modelo fundacional implica coste, tiempo, datos, gobierno y riesgo. En la mayoría de escenarios de examen, si el objetivo es responder sobre contenido empresarial actualizado, la respuesta suele estar más cerca de RAG que de pre-training.

CaracterísticaPre-trainingIdea para examen
ObjetivoCrear capacidades generales del modelo.No es para pequeños ajustes de estilo o respuestas sobre documentos que cambian a menudo.
DatosGrandes volúmenes, normalmente muy diversos.La calidad y gobierno de los datos son críticos.
CosteMuy alto.En AIF-C01, suele ser menos razonable que RAG o fine-tuning para casos empresariales normales.
RiesgosSesgos, datos sensibles, contenido incorrecto, problemas de propiedad intelectual.Necesita controles de gobierno desde el inicio.

3. Continuous pre-training: ampliar conocimiento base

El continuous pre-training continúa el entrenamiento de un modelo existente con nuevos datos, normalmente para adaptarlo a un dominio amplio o añadir exposición a un tipo de contenido específico. No es lo mismo que RAG: en RAG el conocimiento se recupera desde una fuente externa en tiempo de inferencia; en continuous pre-training se modifica el propio modelo para incorporar patrones adicionales.

Escenario típico: una organización dispone de un gran corpus técnico muy especializado y quiere que el modelo entienda mejor el lenguaje del sector. Continuous pre-training podría tener sentido si el volumen de datos, el presupuesto, el gobierno y la necesidad lo justifican. Si solo quiere responder preguntas sobre documentos internos que cambian cada semana, RAG suele ser mejor opción.

4. Fine-tuning: adaptar un modelo a una tarea

El fine-tuning parte de un modelo ya entrenado y lo ajusta con ejemplos específicos. La idea no es enseñar al modelo todo el conocimiento de la empresa, sino adaptar su comportamiento a una tarea, formato, tono, dominio o patrón de respuesta. Puede ser útil cuando prompt engineering y RAG no son suficientes para conseguir consistencia.

Fine-tuning puede encajar si una empresa tiene miles de ejemplos revisados por expertos, quiere respuestas con un estilo muy concreto y la tarea es estable. No suele ser la mejor solución si el problema principal es que la documentación cambia constantemente. En ese caso, reentrenar o reajustar el modelo cada vez sería costoso y difícil de gobernar.

Situación¿Fine-tuning encaja?Motivo
El modelo responde bien, pero no con el formato requeridoPrimero prompt engineering; fine-tuning si no basta.Puede bastar con instrucciones, ejemplos y plantillas.
Hay muchos ejemplos de preguntas y respuestas aprobadasSí, puede encajar.Los ejemplos ayudan a adaptar el comportamiento.
La documentación cambia cada díaNo como primera opción.RAG permite actualizar fuentes sin reajustar el modelo.
Se necesita enseñar datos privados sensibles sin controlNo sin gobierno previo.Antes hay que revisar privacidad, permisos, minimización y cumplimiento.

5. Instruction tuning: seguir instrucciones mejor

El instruction tuning es una forma de ajuste orientada a que el modelo siga instrucciones de manera más fiable. Se entrena con pares de instrucción-respuesta para mejorar su capacidad de interpretar tareas, responder en formatos concretos, seguir restricciones y comportarse de forma más útil para usuarios finales.

En el examen puede aparecer como una opción cuando el objetivo no es añadir conocimiento nuevo, sino mejorar la forma en que el modelo responde a instrucciones. Por ejemplo, si una organización tiene un conjunto de instrucciones y respuestas ideales revisadas por expertos, instruction tuning podría ayudar a adaptar el comportamiento.

6. Transfer learning: reutilizar capacidades aprendidas

La transferencia de aprendizaje consiste en aprovechar lo que un modelo ya aprendió en una tarea o dominio y adaptarlo a otro relacionado. En lugar de empezar desde cero, se parte de capacidades existentes. Esto reduce tiempo y coste frente a entrenar un modelo completo desde el principio.

Pregunta tipo examen

Una empresa no quiere entrenar un modelo desde cero, pero tiene ejemplos propios de alta calidad para adaptar una tarea concreta. La respuesta más razonable suele apuntar a reutilizar un modelo existente y ajustarlo, no a construir un modelo fundacional nuevo.

7. Distillation: crear un modelo más pequeño

La distillation busca transferir conocimiento de un modelo grande a otro más pequeño. El objetivo suele ser mantener suficiente calidad para una tarea concreta, pero con menor coste, menor latencia o requisitos de infraestructura más bajos. Es útil cuando un modelo grande es potente, pero demasiado caro o lento para producción a gran escala.

VentajaCompromisoCuándo puede aparecer en examen
Menor costePuede perder capacidad general.Cuando el caso de uso es repetitivo y acotado.
Menor latenciaPuede responder peor fuera de la tarea objetivo.Cuando se necesita respuesta rápida a gran volumen.
Más fácil de operarRequiere evaluación para asegurar que mantiene calidad.Cuando se quiere optimizar inferencia.

8. RLHF: aprendizaje con feedback humano

RLHF significa Reinforcement Learning from Human Feedback. A alto nivel, consiste en usar preferencias o evaluaciones humanas para guiar el comportamiento del modelo hacia respuestas más útiles, seguras o alineadas con expectativas humanas. No debes memorizar fórmulas, pero sí entender que el feedback humano puede ayudar a mejorar la calidad percibida, seguridad y alineación de un modelo.

En el examen, RLHF puede aparecer como parte de la preparación de datos o del ajuste del comportamiento del modelo. La idea importante es que las personas revisan, comparan o valoran salidas para que el modelo aprenda qué respuestas son preferibles.

9. Preparación de datos para fine-tuning

La calidad de los datos es uno de los puntos más importantes. Un ajuste con datos pobres puede empeorar el modelo, introducir sesgos, generar respuestas inconsistentes o provocar problemas de cumplimiento. AWS incluye explícitamente conceptos como data curation, gobierno, tamaño, etiquetado, representatividad y RLHF dentro de este bloque de examen.

1Curación de datos. Seleccionar ejemplos útiles, eliminar ruido, duplicados, datos incorrectos y contenido que no debería usarse.
2Gobierno. Saber de dónde vienen los datos, quién los aprobó, qué permisos tienen y si cumplen políticas internas.
3Tamaño suficiente. Usar suficientes ejemplos para que el ajuste tenga señal, sin confundir volumen con calidad.
4Etiquetado correcto. Las respuestas esperadas deben estar revisadas; errores en etiquetas se convierten en errores del modelo.
5Representatividad. Los ejemplos deben cubrir casos reales, variaciones, idiomas, usuarios y escenarios límite.

10. Riesgos de un ajuste mal diseñado

Importante: fine-tuning no arregla mágicamente datos malos. Si los ejemplos contienen sesgo, errores, información sensible o patrones incorrectos, el modelo puede aprenderlos y reproducirlos.
  • Sobreajuste: el modelo aprende demasiado los ejemplos de entrenamiento y generaliza mal.
  • Sesgo: si los datos no son representativos, las respuestas pueden favorecer ciertos patrones injustamente.
  • Pérdida de comportamiento general: un ajuste muy agresivo puede degradar capacidades previas del modelo.
  • Exposición de datos sensibles: si se usan datos privados sin control, pueden aparecer riesgos de privacidad o cumplimiento.
  • Coste y complejidad: ajustar implica preparación, entrenamiento, evaluación, versionado y mantenimiento.

11. Fine-tuning frente a RAG, prompt engineering y pre-training

EnfoqueMejor cuando...No es ideal cuando...
Prompt engineeringNecesitas mejorar instrucciones, formato, tono o estructura de salida.Falta conocimiento interno actualizado o el comportamiento sigue siendo inconsistente.
RAGNecesitas respuestas basadas en documentos, políticas o conocimiento cambiante.El problema principal es adaptar profundamente el estilo o patrón de comportamiento del modelo.
Fine-tuningTienes ejemplos aprobados y quieres adaptar una tarea, dominio, formato o estilo.Solo necesitas consultar documentos que cambian con frecuencia.
Continuous pre-trainingQuieres ampliar exposición a un dominio amplio con mucho corpus especializado.El caso es pequeño, puntual o se resuelve con RAG.
Pre-training desde ceroTienes una necesidad muy avanzada, enormes datos, presupuesto y capacidades técnicas.La mayoría de escenarios empresariales foundational.
DistillationQuieres reducir coste o latencia para una tarea acotada.Necesitas máxima capacidad general o razonamiento amplio.

12. Evaluación después del ajuste

Después de ajustar un modelo, hay que evaluarlo. No basta con que responda bien a los ejemplos usados para entrenar. Debe probarse con preguntas nuevas, casos límite y escenarios reales. También hay que comparar contra el modelo base para comprobar si el ajuste realmente aporta valor.

Calidad

Exactitud, relevancia, completitud, coherencia y cumplimiento del formato esperado.

Seguridad

Fugas de información, contenido no permitido, respuestas dañinas o incumplimiento de políticas.

Operación

Latencia, coste, tasa de error, estabilidad y capacidad de escalar.

Negocio

Productividad, satisfacción de usuario, reducción de tiempo y tasa de finalización de tareas.

13. Servicios AWS relacionados

ServicioQué debes recordar para AIF-C01
Amazon BedrockPermite usar modelos fundacionales administrados y, según el modelo y capacidades disponibles, personalizar o adaptar modelos para casos concretos.
Amazon SageMaker AIServicio administrado para construir, entrenar, ajustar, desplegar y monitorizar modelos de machine learning.
Amazon Bedrock Model EvaluationAyuda a evaluar modelos y comparar rendimiento para seleccionar el modelo más adecuado.
Amazon Bedrock Knowledge BasesNo es fine-tuning: es patrón RAG administrado para conectar modelos con fuentes documentales.
Amazon S3Puede aparecer como almacenamiento de datasets, documentos o artefactos del ciclo de vida.

14. Cómo razonar preguntas de examen

1Identifica el problema real. ¿Falta conocimiento, formato, estilo, coste, latencia o comportamiento consistente?
2Elige el enfoque menos complejo que resuelva el problema. Prompt engineering antes que fine-tuning; RAG antes que reentrenar conocimiento cambiante.
3Revisa los datos. Si una opción ignora gobierno, calidad, etiquetado o representatividad, desconfía.
4Considera coste y mantenimiento. Entrenar o ajustar implica más operación que usar contexto o recuperación.
5Evalúa después del cambio. Todo ajuste debe medirse con datos no vistos y objetivos de negocio.

15. Errores frecuentes

  • Usar fine-tuning para todo. No siempre es necesario; a veces basta con prompt engineering o RAG.
  • Confundir RAG con fine-tuning. RAG recupera información externa; fine-tuning modifica el comportamiento del modelo.
  • Entrenar desde cero sin necesidad. Es costoso, complejo y rara vez es la opción correcta en escenarios foundational.
  • Ignorar preparación de datos. La calidad del ajuste depende directamente de los ejemplos usados.
  • No evaluar el modelo ajustado. Un modelo puede mejorar en unos casos y empeorar en otros.

Resumen final

El entrenamiento y ajuste de modelos fundacionales es un bloque clave del Dominio 3. El pre-training crea capacidades generales, el continuous pre-training amplía exposición a un dominio, el fine-tuning adapta comportamiento, el instruction tuning mejora la capacidad de seguir instrucciones, RLHF incorpora feedback humano y la distillation permite optimizar coste o latencia creando modelos más pequeños.

Para el examen, recuerda el orden mental: primero define el problema, luego elige el enfoque menos complejo que lo resuelva. Usa prompt engineering para mejorar instrucciones y formato, RAG para conocimiento externo o cambiante, fine-tuning para adaptar comportamiento con buenos ejemplos, distillation para reducir coste o latencia, y pre-training solo en escenarios muy avanzados. La preparación y gobierno de datos siempre importan.