Entrenamiento y ajuste de modelos fundacionales
Entrenar y ajustar modelos fundacionales no significa simplemente “meter datos en un modelo”. En AIF-C01 debes entender el proceso a nivel conceptual: cómo se crean capacidades generales durante el pre-training, cómo se adaptan después con fine-tuning, cuándo conviene usar instruction tuning, qué papel tienen los datos y por qué la calidad, la representatividad, el etiquetado y el gobierno son tan importantes como la técnica elegida.
1. Por qué este tema es importante en AIF-C01
El examen no espera que sepas entrenar un modelo fundacional desde cero a nivel de ingeniería profunda, pero sí que entiendas las opciones disponibles y sus compromisos. AWS puede plantear escenarios donde una empresa quiere adaptar un modelo a su dominio, mejorar el tono de las respuestas, reducir coste, usar datos propios o mantener conocimiento actualizado. Tu trabajo es identificar si conviene usar prompt engineering, RAG, fine-tuning, continuous pre-training, distillation o un modelo existente sin personalización.
Cuando los documentos cambian con frecuencia, suele encajar mejor RAG o una base de conocimiento que reentrenar el modelo.
Si el contenido es correcto pero el tono o la estructura no encajan, primero se prueban prompts, plantillas y ejemplos.
Si existen muchos ejemplos de alta calidad, puede ser razonable usar fine-tuning para adaptar el comportamiento del modelo.
Si un modelo grande funciona bien pero es costoso, la distillation puede crear un modelo más ligero para una tarea concreta.
2. Pre-training: crear capacidades generales
El pre-training es la fase en la que un modelo aprende patrones generales a partir de enormes cantidades de datos. En modelos de lenguaje, aprende relaciones entre palabras, estructuras de frases, conceptos, razonamiento aproximado, estilos de escritura y conocimiento general. Esta fase es extremadamente costosa, requiere grandes volúmenes de datos, mucha infraestructura y controles de calidad.
Para AIF-C01, lo importante es recordar que el pre-training no suele ser la primera opción para una empresa que solo quiere adaptar un asistente a sus documentos internos. Crear o continuar el entrenamiento de un modelo fundacional implica coste, tiempo, datos, gobierno y riesgo. En la mayoría de escenarios de examen, si el objetivo es responder sobre contenido empresarial actualizado, la respuesta suele estar más cerca de RAG que de pre-training.
| Característica | Pre-training | Idea para examen |
|---|---|---|
| Objetivo | Crear capacidades generales del modelo. | No es para pequeños ajustes de estilo o respuestas sobre documentos que cambian a menudo. |
| Datos | Grandes volúmenes, normalmente muy diversos. | La calidad y gobierno de los datos son críticos. |
| Coste | Muy alto. | En AIF-C01, suele ser menos razonable que RAG o fine-tuning para casos empresariales normales. |
| Riesgos | Sesgos, datos sensibles, contenido incorrecto, problemas de propiedad intelectual. | Necesita controles de gobierno desde el inicio. |
3. Continuous pre-training: ampliar conocimiento base
El continuous pre-training continúa el entrenamiento de un modelo existente con nuevos datos, normalmente para adaptarlo a un dominio amplio o añadir exposición a un tipo de contenido específico. No es lo mismo que RAG: en RAG el conocimiento se recupera desde una fuente externa en tiempo de inferencia; en continuous pre-training se modifica el propio modelo para incorporar patrones adicionales.
4. Fine-tuning: adaptar un modelo a una tarea
El fine-tuning parte de un modelo ya entrenado y lo ajusta con ejemplos específicos. La idea no es enseñar al modelo todo el conocimiento de la empresa, sino adaptar su comportamiento a una tarea, formato, tono, dominio o patrón de respuesta. Puede ser útil cuando prompt engineering y RAG no son suficientes para conseguir consistencia.
Fine-tuning puede encajar si una empresa tiene miles de ejemplos revisados por expertos, quiere respuestas con un estilo muy concreto y la tarea es estable. No suele ser la mejor solución si el problema principal es que la documentación cambia constantemente. En ese caso, reentrenar o reajustar el modelo cada vez sería costoso y difícil de gobernar.
| Situación | ¿Fine-tuning encaja? | Motivo |
|---|---|---|
| El modelo responde bien, pero no con el formato requerido | Primero prompt engineering; fine-tuning si no basta. | Puede bastar con instrucciones, ejemplos y plantillas. |
| Hay muchos ejemplos de preguntas y respuestas aprobadas | Sí, puede encajar. | Los ejemplos ayudan a adaptar el comportamiento. |
| La documentación cambia cada día | No como primera opción. | RAG permite actualizar fuentes sin reajustar el modelo. |
| Se necesita enseñar datos privados sensibles sin control | No sin gobierno previo. | Antes hay que revisar privacidad, permisos, minimización y cumplimiento. |
5. Instruction tuning: seguir instrucciones mejor
El instruction tuning es una forma de ajuste orientada a que el modelo siga instrucciones de manera más fiable. Se entrena con pares de instrucción-respuesta para mejorar su capacidad de interpretar tareas, responder en formatos concretos, seguir restricciones y comportarse de forma más útil para usuarios finales.
En el examen puede aparecer como una opción cuando el objetivo no es añadir conocimiento nuevo, sino mejorar la forma en que el modelo responde a instrucciones. Por ejemplo, si una organización tiene un conjunto de instrucciones y respuestas ideales revisadas por expertos, instruction tuning podría ayudar a adaptar el comportamiento.
6. Transfer learning: reutilizar capacidades aprendidas
La transferencia de aprendizaje consiste en aprovechar lo que un modelo ya aprendió en una tarea o dominio y adaptarlo a otro relacionado. En lugar de empezar desde cero, se parte de capacidades existentes. Esto reduce tiempo y coste frente a entrenar un modelo completo desde el principio.
Pregunta tipo examen
Una empresa no quiere entrenar un modelo desde cero, pero tiene ejemplos propios de alta calidad para adaptar una tarea concreta. La respuesta más razonable suele apuntar a reutilizar un modelo existente y ajustarlo, no a construir un modelo fundacional nuevo.
7. Distillation: crear un modelo más pequeño
La distillation busca transferir conocimiento de un modelo grande a otro más pequeño. El objetivo suele ser mantener suficiente calidad para una tarea concreta, pero con menor coste, menor latencia o requisitos de infraestructura más bajos. Es útil cuando un modelo grande es potente, pero demasiado caro o lento para producción a gran escala.
| Ventaja | Compromiso | Cuándo puede aparecer en examen |
|---|---|---|
| Menor coste | Puede perder capacidad general. | Cuando el caso de uso es repetitivo y acotado. |
| Menor latencia | Puede responder peor fuera de la tarea objetivo. | Cuando se necesita respuesta rápida a gran volumen. |
| Más fácil de operar | Requiere evaluación para asegurar que mantiene calidad. | Cuando se quiere optimizar inferencia. |
8. RLHF: aprendizaje con feedback humano
RLHF significa Reinforcement Learning from Human Feedback. A alto nivel, consiste en usar preferencias o evaluaciones humanas para guiar el comportamiento del modelo hacia respuestas más útiles, seguras o alineadas con expectativas humanas. No debes memorizar fórmulas, pero sí entender que el feedback humano puede ayudar a mejorar la calidad percibida, seguridad y alineación de un modelo.
En el examen, RLHF puede aparecer como parte de la preparación de datos o del ajuste del comportamiento del modelo. La idea importante es que las personas revisan, comparan o valoran salidas para que el modelo aprenda qué respuestas son preferibles.
9. Preparación de datos para fine-tuning
La calidad de los datos es uno de los puntos más importantes. Un ajuste con datos pobres puede empeorar el modelo, introducir sesgos, generar respuestas inconsistentes o provocar problemas de cumplimiento. AWS incluye explícitamente conceptos como data curation, gobierno, tamaño, etiquetado, representatividad y RLHF dentro de este bloque de examen.
10. Riesgos de un ajuste mal diseñado
- Sobreajuste: el modelo aprende demasiado los ejemplos de entrenamiento y generaliza mal.
- Sesgo: si los datos no son representativos, las respuestas pueden favorecer ciertos patrones injustamente.
- Pérdida de comportamiento general: un ajuste muy agresivo puede degradar capacidades previas del modelo.
- Exposición de datos sensibles: si se usan datos privados sin control, pueden aparecer riesgos de privacidad o cumplimiento.
- Coste y complejidad: ajustar implica preparación, entrenamiento, evaluación, versionado y mantenimiento.
11. Fine-tuning frente a RAG, prompt engineering y pre-training
| Enfoque | Mejor cuando... | No es ideal cuando... |
|---|---|---|
| Prompt engineering | Necesitas mejorar instrucciones, formato, tono o estructura de salida. | Falta conocimiento interno actualizado o el comportamiento sigue siendo inconsistente. |
| RAG | Necesitas respuestas basadas en documentos, políticas o conocimiento cambiante. | El problema principal es adaptar profundamente el estilo o patrón de comportamiento del modelo. |
| Fine-tuning | Tienes ejemplos aprobados y quieres adaptar una tarea, dominio, formato o estilo. | Solo necesitas consultar documentos que cambian con frecuencia. |
| Continuous pre-training | Quieres ampliar exposición a un dominio amplio con mucho corpus especializado. | El caso es pequeño, puntual o se resuelve con RAG. |
| Pre-training desde cero | Tienes una necesidad muy avanzada, enormes datos, presupuesto y capacidades técnicas. | La mayoría de escenarios empresariales foundational. |
| Distillation | Quieres reducir coste o latencia para una tarea acotada. | Necesitas máxima capacidad general o razonamiento amplio. |
12. Evaluación después del ajuste
Después de ajustar un modelo, hay que evaluarlo. No basta con que responda bien a los ejemplos usados para entrenar. Debe probarse con preguntas nuevas, casos límite y escenarios reales. También hay que comparar contra el modelo base para comprobar si el ajuste realmente aporta valor.
Exactitud, relevancia, completitud, coherencia y cumplimiento del formato esperado.
Fugas de información, contenido no permitido, respuestas dañinas o incumplimiento de políticas.
Latencia, coste, tasa de error, estabilidad y capacidad de escalar.
Productividad, satisfacción de usuario, reducción de tiempo y tasa de finalización de tareas.
13. Servicios AWS relacionados
| Servicio | Qué debes recordar para AIF-C01 |
|---|---|
| Amazon Bedrock | Permite usar modelos fundacionales administrados y, según el modelo y capacidades disponibles, personalizar o adaptar modelos para casos concretos. |
| Amazon SageMaker AI | Servicio administrado para construir, entrenar, ajustar, desplegar y monitorizar modelos de machine learning. |
| Amazon Bedrock Model Evaluation | Ayuda a evaluar modelos y comparar rendimiento para seleccionar el modelo más adecuado. |
| Amazon Bedrock Knowledge Bases | No es fine-tuning: es patrón RAG administrado para conectar modelos con fuentes documentales. |
| Amazon S3 | Puede aparecer como almacenamiento de datasets, documentos o artefactos del ciclo de vida. |
14. Cómo razonar preguntas de examen
15. Errores frecuentes
- Usar fine-tuning para todo. No siempre es necesario; a veces basta con prompt engineering o RAG.
- Confundir RAG con fine-tuning. RAG recupera información externa; fine-tuning modifica el comportamiento del modelo.
- Entrenar desde cero sin necesidad. Es costoso, complejo y rara vez es la opción correcta en escenarios foundational.
- Ignorar preparación de datos. La calidad del ajuste depende directamente de los ejemplos usados.
- No evaluar el modelo ajustado. Un modelo puede mejorar en unos casos y empeorar en otros.
Resumen final
El entrenamiento y ajuste de modelos fundacionales es un bloque clave del Dominio 3. El pre-training crea capacidades generales, el continuous pre-training amplía exposición a un dominio, el fine-tuning adapta comportamiento, el instruction tuning mejora la capacidad de seguir instrucciones, RLHF incorpora feedback humano y la distillation permite optimizar coste o latencia creando modelos más pequeños.
Para el examen, recuerda el orden mental: primero define el problema, luego elige el enfoque menos complejo que lo resuelva. Usa prompt engineering para mejorar instrucciones y formato, RAG para conocimiento externo o cambiante, fine-tuning para adaptar comportamiento con buenos ejemplos, distillation para reducir coste o latencia, y pre-training solo en escenarios muy avanzados. La preparación y gobierno de datos siempre importan.