Dominio 3 · Aplicaciones de modelos fundacionales
El Dominio 3 es el bloque con más peso del examen AIF-C01. Aquí AWS espera que entiendas cómo se diseñan aplicaciones reales con modelos fundacionales: cómo elegir un modelo, cuándo usar RAG, cómo construir prompts efectivos, qué significa personalizar un modelo, cómo evaluar su rendimiento y qué compromisos aparecen entre calidad, coste, latencia, seguridad y gobierno.
1. Qué cubre realmente este dominio
Este dominio no se queda en definir qué es un modelo fundacional. Se centra en cómo usarlo dentro de una aplicación. El examen puede describirte un asistente documental, una aplicación de soporte, un agente que ejecuta acciones, un sistema de búsqueda semántica o un caso donde el modelo responde bien pero necesita más control. Tu objetivo es identificar qué patrón de diseño encaja mejor.
Cómo integrar un modelo fundacional en una aplicación, qué datos necesita, qué controles hay que añadir y cómo se maneja la interacción con usuarios, documentos o herramientas externas.
Cómo estructurar instrucciones, contexto, ejemplos, formato esperado y restricciones para guiar el comportamiento del modelo sin modificar sus pesos.
Cómo recuperar información externa relevante, convertir documentos en embeddings y usar una base vectorial para responder con conocimiento actualizado o privado.
Cuándo usar in-context learning, fine-tuning, distillation o entrenamiento; y cómo medir si el modelo responde con calidad, seguridad, coste y rendimiento adecuados.
2. Modelo fundacional no es lo mismo que aplicación
Un modelo fundacional es una pieza central, pero una solución de IA generativa en producción necesita mucho más: autenticación, autorización, fuentes de datos, recuperación de contexto, validación, guardrails, observabilidad, métricas, experiencia de usuario y gobierno.
| Componente | Función en la aplicación | Qué puede preguntar el examen |
|---|---|---|
| Modelo fundacional | Genera, resume, razona, clasifica o transforma contenido a partir del prompt y contexto. | Qué modelo elegir según coste, latencia, modalidad, idioma, tamaño o calidad. |
| Prompt | Define instrucciones, contexto, formato, rol, restricciones y ejemplos. | Qué técnica de prompt engineering usar: zero-shot, few-shot, plantilla o restricciones. |
| RAG | Recupera información externa relevante antes de generar la respuesta. | Qué hacer cuando el conocimiento es privado, interno o cambia con frecuencia. |
| Guardrails y seguridad | Reducen contenido no permitido, fugas, abuso, toxicidad o respuestas fuera de política. | Cómo controlar una aplicación pública o una solución con datos sensibles. |
| Evaluación | Comprueba calidad, factualidad, seguridad, latencia, coste y utilidad real. | Cómo comparar modelos antes de producción. |
3. Criterios para elegir un modelo fundacional
Una de las trampas más habituales del examen es asumir que el modelo más grande es siempre el mejor. En producción, la elección del modelo debe responder al caso de uso. Un modelo grande puede dar más calidad en tareas complejas, pero también puede aumentar coste y latencia. Un modelo más pequeño puede ser suficiente para clasificación simple, extracción estructurada o respuestas internas controladas.
Pregunta tipo examen
Una empresa necesita muchas respuestas rápidas y baratas para clasificar mensajes internos. Otra necesita análisis jurídico complejo sobre contratos largos. No tienen por qué usar el mismo modelo. En AIF-C01, la mejor respuesta suele ser “comparar modelos con criterios de calidad, coste, latencia y adecuación al caso”, no elegir el modelo más potente por defecto.
4. Parámetros de inferencia: cómo afectan a la respuesta
Los parámetros de inferencia permiten ajustar cómo responde el modelo en tiempo de ejecución. No cambian el entrenamiento del modelo, pero sí influyen en la variabilidad, longitud y comportamiento de las respuestas.
| Parámetro o criterio | Qué controla | Cómo razonarlo en el examen |
|---|---|---|
| Temperatura | Grado de aleatoriedad o creatividad de la respuesta. | Baja para cumplimiento, soporte técnico o respuestas consistentes. Más alta para ideación creativa. |
| Longitud de entrada | Cantidad de tokens que se envían al modelo. | Más contexto puede ayudar, pero también sube coste, latencia y ruido. |
| Longitud de salida | Tamaño máximo de la respuesta generada. | Más tokens de salida no garantizan mejor calidad y pueden aumentar coste. |
| Prompt caching | Reutilización de partes repetidas del prompt cuando la plataforma lo permite. | Puede reducir coste o latencia si hay instrucciones largas y repetitivas. |
5. RAG: el patrón clave para conocimiento externo o cambiante
Retrieval Augmented Generation, o RAG, combina búsqueda de información con generación. La aplicación primero recupera fragmentos relevantes de una fuente autorizada y después los entrega al modelo como contexto para generar una respuesta. Es uno de los conceptos más importantes de AIF-C01.
Flujo típico de RAG
- Ingesta de documentos: manuales, políticas, PDFs, páginas internas, tickets o documentación.
- Chunking: división de documentos en fragmentos adecuados.
- Embeddings: conversión de fragmentos en vectores numéricos que representan significado.
- Almacenamiento vectorial: persistencia de embeddings y metadatos en una base vectorial.
- Retrieval: búsqueda de fragmentos semánticamente relevantes para la pregunta.
- Generación: el modelo responde usando la pregunta y el contexto recuperado.
| Cuándo usar RAG | Por qué encaja | Riesgo a controlar |
|---|---|---|
| Documentación interna | El modelo no conoce información privada de la empresa. | Control de acceso por usuario o departamento. |
| Contenido que cambia | Actualizar documentos es más simple que reajustar el modelo. | Versionado, frescura de datos y calidad documental. |
| Necesidad de fuentes | Permite fundamentar respuestas y reducir alucinaciones. | Fragmentos irrelevantes o incompletos. |
| Soporte y knowledge bases | Responde sobre FAQs, manuales o procedimientos. | Evitar que se recupere información no autorizada. |
6. Bases vectoriales y servicios AWS relacionados
Las bases vectoriales almacenan embeddings y permiten búsquedas por similitud semántica. AIF-C01 puede preguntarte por servicios que ayudan a almacenar o consultar embeddings. En AWS pueden aparecer opciones como Amazon OpenSearch Service, Amazon Aurora, Amazon RDS for PostgreSQL y Amazon Neptune, además de patrones administrados como Knowledge Bases for Amazon Bedrock.
7. Prompt engineering: guiar sin reentrenar
Prompt engineering consiste en diseñar la entrada al modelo para obtener respuestas más útiles, consistentes y seguras. Es la primera palanca que suele probarse cuando el problema es de formato, tono, estilo, instrucciones o comportamiento simple.
| Técnica | Qué significa | Cuándo elegirla |
|---|---|---|
| Zero-shot | Dar una instrucción sin ejemplos. | Tareas sencillas o modelos que ya entienden bien la tarea. |
| Single-shot | Dar un ejemplo de entrada y salida. | Cuando un único ejemplo aclara el formato esperado. |
| Few-shot | Dar varios ejemplos. | Cuando se busca consistencia de tono, formato o patrón de respuesta. |
| Prompt template | Plantilla reutilizable con variables. | Aplicaciones donde muchas peticiones siguen el mismo patrón. |
| Negative prompt | Indicar lo que el modelo debe evitar. | Generación creativa, imágenes, estilo o restricciones de salida. |
Pista de examen
Si el contenido de la respuesta es correcto pero el formato o tono no encaja, suele ser mejor empezar por prompt engineering. Si el problema es conocimiento interno actualizado, suele encajar RAG. Si el problema es adaptar comportamiento con muchos ejemplos revisados, puede encajar fine-tuning.
8. Personalización: in-context learning, RAG, fine-tuning y entrenamiento
No todas las formas de personalización tienen el mismo coste ni el mismo objetivo. AIF-C01 espera que entiendas los compromisos de coste y complejidad entre enfoques.
| Enfoque | Qué hace | Coste/complejidad | Cuándo encaja |
|---|---|---|---|
| In-context learning | Guía al modelo con instrucciones y ejemplos dentro del prompt. | Bajo, pero consume tokens. | Formato, tono, clasificación simple o comportamiento ligero. |
| RAG | Aporta conocimiento externo recuperado en tiempo de inferencia. | Medio: requiere ingesta, embeddings, búsqueda y permisos. | Conocimiento interno, actualizado o documental. |
| Fine-tuning | Ajusta el modelo con ejemplos para modificar comportamiento o tarea. | Mayor: requiere datos de calidad, entrenamiento y evaluación. | Tarea repetitiva, estilo específico, muchos ejemplos revisados. |
| Pre-training | Entrena un modelo base desde grandes volúmenes de datos. | Muy alto. | Casos avanzados, gran escala, normalmente fuera de decisiones básicas. |
| Distillation | Crear un modelo más pequeño que imita uno mayor. | Avanzado. | Optimización de coste o latencia manteniendo calidad suficiente. |
9. Evaluación de modelos fundacionales
Evaluar un FM no consiste solo en comprobar si “suena bien”. Hay que medir si responde correctamente, si respeta el formato, si evita contenido inseguro, si se ajusta a las fuentes, si no revela información sensible y si el coste/latencia encajan con el negocio.
Exactitud factual, relevancia, completitud, coherencia, seguimiento de instrucciones y adecuación al tono esperado.
Toxicidad, contenido prohibido, fuga de datos, prompt injection, jailbreaks y cumplimiento de políticas internas.
Latencia, throughput, errores, disponibilidad, longitud de respuesta y estabilidad bajo carga.
Satisfacción de usuario, reducción de tiempo, resolución en primer contacto, productividad y coste por conversación o documento.
10. Diseño de agentes y acciones
Un agente de IA no solo responde: puede decidir qué herramienta usar, llamar APIs, consultar sistemas internos o ejecutar acciones. Esto aumenta el valor, pero también el riesgo. Un agente que crea pedidos, abre tickets o modifica datos necesita validación, permisos mínimos, confirmación explícita y auditoría.
11. Servicios AWS que suelen aparecer en este dominio
| Servicio o capacidad | Rol en el diseño | Cómo reconocerlo |
|---|---|---|
| Amazon Bedrock | Acceso gestionado a modelos fundacionales y capacidades de GenAI. | El escenario pide usar FMs mediante API sin gestionar infraestructura. |
| Knowledge Bases for Amazon Bedrock | RAG administrado sobre fuentes de conocimiento. | El escenario habla de documentación interna o respuestas fundamentadas. |
| Agents for Amazon Bedrock | Orquestación de tareas y llamadas a herramientas o APIs. | El asistente debe consultar sistemas y ejecutar acciones. |
| Guardrails for Amazon Bedrock | Controles de seguridad, filtrado y políticas. | El escenario habla de contenido dañino, temas no permitidos o aplicación pública. |
| Amazon SageMaker AI | Construcción, entrenamiento, ajuste, despliegue y operación de modelos ML/AI. | El caso requiere más control del ciclo de vida del modelo o desarrollo ML avanzado. |
| OpenSearch, Aurora, RDS PostgreSQL, Neptune | Almacenamiento o búsqueda de embeddings/vector stores según arquitectura. | El caso menciona búsqueda semántica, vectores o recuperación documental. |
12. Cómo resolver preguntas del Dominio 3
13. Errores frecuentes en el examen
- Elegir siempre el modelo más grande. Puede ser caro y lento sin aportar mejora suficiente.
- Usar fine-tuning para documentos que cambian a menudo. Para conocimiento cambiante suele encajar mejor RAG.
- Confiar solo en el prompt para seguridad. Los controles de acceso, guardrails y auditoría siguen siendo necesarios.
- Meter demasiados documentos en contexto. Aumenta coste, latencia y ruido; RAG debe recuperar fragmentos relevantes.
- No evaluar antes de producción. Una demo fluida no demuestra calidad, factualidad, seguridad ni valor de negocio.
Resumen final
El Dominio 3 trata de convertir modelos fundacionales en aplicaciones útiles. Para aprobar AIF-C01, debes saber elegir modelos según requisitos reales, aplicar prompt engineering, usar RAG cuando el conocimiento sea externo o cambiante, entender cuándo tendría sentido fine-tuning y evaluar modelos con criterios técnicos, de seguridad y de negocio.
Recuerda la regla práctica: prompt engineering guía el comportamiento inmediato, RAG aporta conocimiento actualizado, fine-tuning adapta comportamiento con ejemplos, y evaluación valida si la solución es suficientemente buena para producción.