Dominio 3 · Aplicaciones de modelos fundacionales AIF-C01

Dominio 3 · Modelos fundacionales

Dominio 3 · Aplicaciones de modelos fundacionales

◷ 35 min

El Dominio 3 es el bloque con más peso del examen AIF-C01. Aquí AWS espera que entiendas cómo se diseñan aplicaciones reales con modelos fundacionales: cómo elegir un modelo, cuándo usar RAG, cómo construir prompts efectivos, qué significa personalizar un modelo, cómo evaluar su rendimiento y qué compromisos aparecen entre calidad, coste, latencia, seguridad y gobierno.

Selección de modelos RAG Bases vectoriales Prompt engineering Fine-tuning Evaluación de FMs

Pista de examen: en este dominio casi siempre gana la respuesta que mejor equilibra el requisito de negocio con coste, latencia, calidad, seguridad y mantenibilidad. Evita respuestas absolutas como “usar siempre el modelo más grande” o “entrenar desde cero”.

1. Qué cubre realmente este dominio

Este dominio no se queda en definir qué es un modelo fundacional. Se centra en cómo usarlo dentro de una aplicación. El examen puede describirte un asistente documental, una aplicación de soporte, un agente que ejecuta acciones, un sistema de búsqueda semántica o un caso donde el modelo responde bien pero necesita más control. Tu objetivo es identificar qué patrón de diseño encaja mejor.

Diseño de aplicaciones con FMs

Cómo integrar un modelo fundacional en una aplicación, qué datos necesita, qué controles hay que añadir y cómo se maneja la interacción con usuarios, documentos o herramientas externas.

Prompt engineering

Cómo estructurar instrucciones, contexto, ejemplos, formato esperado y restricciones para guiar el comportamiento del modelo sin modificar sus pesos.

RAG y bases vectoriales

Cómo recuperar información externa relevante, convertir documentos en embeddings y usar una base vectorial para responder con conocimiento actualizado o privado.

Personalización y evaluación

Cuándo usar in-context learning, fine-tuning, distillation o entrenamiento; y cómo medir si el modelo responde con calidad, seguridad, coste y rendimiento adecuados.

2. Modelo fundacional no es lo mismo que aplicación

Un modelo fundacional es una pieza central, pero una solución de IA generativa en producción necesita mucho más: autenticación, autorización, fuentes de datos, recuperación de contexto, validación, guardrails, observabilidad, métricas, experiencia de usuario y gobierno.

Componente	Función en la aplicación	Qué puede preguntar el examen
Modelo fundacional	Genera, resume, razona, clasifica o transforma contenido a partir del prompt y contexto.	Qué modelo elegir según coste, latencia, modalidad, idioma, tamaño o calidad.
Prompt	Define instrucciones, contexto, formato, rol, restricciones y ejemplos.	Qué técnica de prompt engineering usar: zero-shot, few-shot, plantilla o restricciones.
RAG	Recupera información externa relevante antes de generar la respuesta.	Qué hacer cuando el conocimiento es privado, interno o cambia con frecuencia.
Guardrails y seguridad	Reducen contenido no permitido, fugas, abuso, toxicidad o respuestas fuera de política.	Cómo controlar una aplicación pública o una solución con datos sensibles.
Evaluación	Comprueba calidad, factualidad, seguridad, latencia, coste y utilidad real.	Cómo comparar modelos antes de producción.

3. Criterios para elegir un modelo fundacional

Una de las trampas más habituales del examen es asumir que el modelo más grande es siempre el mejor. En producción, la elección del modelo debe responder al caso de uso. Un modelo grande puede dar más calidad en tareas complejas, pero también puede aumentar coste y latencia. Un modelo más pequeño puede ser suficiente para clasificación simple, extracción estructurada o respuestas internas controladas.

1Calidad esperada. ¿El caso requiere razonamiento complejo, redacción avanzada, análisis documental o una respuesta simple y estructurada?

2Modalidad. ¿El modelo debe trabajar con texto, imagen, audio, vídeo o varias modalidades a la vez?

3Latencia. ¿El usuario necesita respuesta interactiva en segundos o puede esperar un proceso batch?

4Coste. ¿Cuántos usuarios, tokens de entrada, tokens de salida e invocaciones tendrá la solución?

5Ventana de contexto. ¿La aplicación necesita manejar documentos largos o conversaciones extensas?

6Personalización. ¿Basta con prompting, hace falta RAG o se requiere fine-tuning?

Pregunta tipo examen

Una empresa necesita muchas respuestas rápidas y baratas para clasificar mensajes internos. Otra necesita análisis jurídico complejo sobre contratos largos. No tienen por qué usar el mismo modelo. En AIF-C01, la mejor respuesta suele ser “comparar modelos con criterios de calidad, coste, latencia y adecuación al caso”, no elegir el modelo más potente por defecto.

4. Parámetros de inferencia: cómo afectan a la respuesta

Los parámetros de inferencia permiten ajustar cómo responde el modelo en tiempo de ejecución. No cambian el entrenamiento del modelo, pero sí influyen en la variabilidad, longitud y comportamiento de las respuestas.

Parámetro o criterio	Qué controla	Cómo razonarlo en el examen
Temperatura	Grado de aleatoriedad o creatividad de la respuesta.	Baja para cumplimiento, soporte técnico o respuestas consistentes. Más alta para ideación creativa.
Longitud de entrada	Cantidad de tokens que se envían al modelo.	Más contexto puede ayudar, pero también sube coste, latencia y ruido.
Longitud de salida	Tamaño máximo de la respuesta generada.	Más tokens de salida no garantizan mejor calidad y pueden aumentar coste.
Prompt caching	Reutilización de partes repetidas del prompt cuando la plataforma lo permite.	Puede reducir coste o latencia si hay instrucciones largas y repetitivas.

5. RAG: el patrón clave para conocimiento externo o cambiante

Retrieval Augmented Generation, o RAG, combina búsqueda de información con generación. La aplicación primero recupera fragmentos relevantes de una fuente autorizada y después los entrega al modelo como contexto para generar una respuesta. Es uno de los conceptos más importantes de AIF-C01.

Escenario típico: una empresa quiere que un asistente responda preguntas sobre políticas internas que cambian cada semana. El modelo base no conoce esos documentos. La respuesta más razonable suele ser usar RAG con una base de conocimiento actualizada, no entrenar un modelo desde cero cada vez que cambie una política.

Flujo típico de RAG

Ingesta de documentos: manuales, políticas, PDFs, páginas internas, tickets o documentación.
Chunking: división de documentos en fragmentos adecuados.
Embeddings: conversión de fragmentos en vectores numéricos que representan significado.
Almacenamiento vectorial: persistencia de embeddings y metadatos en una base vectorial.
Retrieval: búsqueda de fragmentos semánticamente relevantes para la pregunta.
Generación: el modelo responde usando la pregunta y el contexto recuperado.

Cuándo usar RAG	Por qué encaja	Riesgo a controlar
Documentación interna	El modelo no conoce información privada de la empresa.	Control de acceso por usuario o departamento.
Contenido que cambia	Actualizar documentos es más simple que reajustar el modelo.	Versionado, frescura de datos y calidad documental.
Necesidad de fuentes	Permite fundamentar respuestas y reducir alucinaciones.	Fragmentos irrelevantes o incompletos.
Soporte y knowledge bases	Responde sobre FAQs, manuales o procedimientos.	Evitar que se recupere información no autorizada.

6. Bases vectoriales y servicios AWS relacionados

Las bases vectoriales almacenan embeddings y permiten búsquedas por similitud semántica. AIF-C01 puede preguntarte por servicios que ayudan a almacenar o consultar embeddings. En AWS pueden aparecer opciones como Amazon OpenSearch Service, Amazon Aurora, Amazon RDS for PostgreSQL y Amazon Neptune, además de patrones administrados como Knowledge Bases for Amazon Bedrock.

Importante: una base vectorial no “entiende” documentos como una persona. Almacena representaciones numéricas para buscar fragmentos cercanos semánticamente. La calidad depende del chunking, embeddings, metadatos, filtros, permisos y evaluación.

7. Prompt engineering: guiar sin reentrenar

Prompt engineering consiste en diseñar la entrada al modelo para obtener respuestas más útiles, consistentes y seguras. Es la primera palanca que suele probarse cuando el problema es de formato, tono, estilo, instrucciones o comportamiento simple.

Técnica	Qué significa	Cuándo elegirla
Zero-shot	Dar una instrucción sin ejemplos.	Tareas sencillas o modelos que ya entienden bien la tarea.
Single-shot	Dar un ejemplo de entrada y salida.	Cuando un único ejemplo aclara el formato esperado.
Few-shot	Dar varios ejemplos.	Cuando se busca consistencia de tono, formato o patrón de respuesta.
Prompt template	Plantilla reutilizable con variables.	Aplicaciones donde muchas peticiones siguen el mismo patrón.
Negative prompt	Indicar lo que el modelo debe evitar.	Generación creativa, imágenes, estilo o restricciones de salida.

Pista de examen

Si el contenido de la respuesta es correcto pero el formato o tono no encaja, suele ser mejor empezar por prompt engineering. Si el problema es conocimiento interno actualizado, suele encajar RAG. Si el problema es adaptar comportamiento con muchos ejemplos revisados, puede encajar fine-tuning.

8. Personalización: in-context learning, RAG, fine-tuning y entrenamiento

No todas las formas de personalización tienen el mismo coste ni el mismo objetivo. AIF-C01 espera que entiendas los compromisos de coste y complejidad entre enfoques.

Enfoque	Qué hace	Coste/complejidad	Cuándo encaja
In-context learning	Guía al modelo con instrucciones y ejemplos dentro del prompt.	Bajo, pero consume tokens.	Formato, tono, clasificación simple o comportamiento ligero.
RAG	Aporta conocimiento externo recuperado en tiempo de inferencia.	Medio: requiere ingesta, embeddings, búsqueda y permisos.	Conocimiento interno, actualizado o documental.
Fine-tuning	Ajusta el modelo con ejemplos para modificar comportamiento o tarea.	Mayor: requiere datos de calidad, entrenamiento y evaluación.	Tarea repetitiva, estilo específico, muchos ejemplos revisados.
Pre-training	Entrena un modelo base desde grandes volúmenes de datos.	Muy alto.	Casos avanzados, gran escala, normalmente fuera de decisiones básicas.
Distillation	Crear un modelo más pequeño que imita uno mayor.	Avanzado.	Optimización de coste o latencia manteniendo calidad suficiente.

9. Evaluación de modelos fundacionales

Evaluar un FM no consiste solo en comprobar si “suena bien”. Hay que medir si responde correctamente, si respeta el formato, si evita contenido inseguro, si se ajusta a las fuentes, si no revela información sensible y si el coste/latencia encajan con el negocio.

Calidad

Exactitud factual, relevancia, completitud, coherencia, seguimiento de instrucciones y adecuación al tono esperado.

Seguridad

Toxicidad, contenido prohibido, fuga de datos, prompt injection, jailbreaks y cumplimiento de políticas internas.

Rendimiento

Latencia, throughput, errores, disponibilidad, longitud de respuesta y estabilidad bajo carga.

Negocio

Satisfacción de usuario, reducción de tiempo, resolución en primer contacto, productividad y coste por conversación o documento.

10. Diseño de agentes y acciones

Un agente de IA no solo responde: puede decidir qué herramienta usar, llamar APIs, consultar sistemas internos o ejecutar acciones. Esto aumenta el valor, pero también el riesgo. Un agente que crea pedidos, abre tickets o modifica datos necesita validación, permisos mínimos, confirmación explícita y auditoría.

Regla práctica: cuanto más impacto tenga la acción, más controles necesita. Para respuestas informativas puede bastar una revisión ligera. Para acciones reales sobre sistemas, añade confirmación, validaciones, límites de permisos, logs y rollback si procede.

11. Servicios AWS que suelen aparecer en este dominio

Servicio o capacidad	Rol en el diseño	Cómo reconocerlo
Amazon Bedrock	Acceso gestionado a modelos fundacionales y capacidades de GenAI.	El escenario pide usar FMs mediante API sin gestionar infraestructura.
Knowledge Bases for Amazon Bedrock	RAG administrado sobre fuentes de conocimiento.	El escenario habla de documentación interna o respuestas fundamentadas.
Agents for Amazon Bedrock	Orquestación de tareas y llamadas a herramientas o APIs.	El asistente debe consultar sistemas y ejecutar acciones.
Guardrails for Amazon Bedrock	Controles de seguridad, filtrado y políticas.	El escenario habla de contenido dañino, temas no permitidos o aplicación pública.
Amazon SageMaker AI	Construcción, entrenamiento, ajuste, despliegue y operación de modelos ML/AI.	El caso requiere más control del ciclo de vida del modelo o desarrollo ML avanzado.
OpenSearch, Aurora, RDS PostgreSQL, Neptune	Almacenamiento o búsqueda de embeddings/vector stores según arquitectura.	El caso menciona búsqueda semántica, vectores o recuperación documental.

12. Cómo resolver preguntas del Dominio 3

1Identifica el problema real. ¿Falta conocimiento, formato, seguridad, coste, latencia, evaluación o capacidad de ejecutar acciones?

2Elige el patrón correcto. Prompt para guiar, RAG para conocimiento, fine-tuning para comportamiento estable con ejemplos, agentes para acciones.

3Revisa restricciones. Datos sensibles, permisos, cumplimiento, ventana de contexto, coste por tokens y respuesta esperada.

4Piensa en producción. Monitorización, evaluación, logs, feedback, guardrails y actualización de fuentes.

13. Errores frecuentes en el examen

Elegir siempre el modelo más grande. Puede ser caro y lento sin aportar mejora suficiente.
Usar fine-tuning para documentos que cambian a menudo. Para conocimiento cambiante suele encajar mejor RAG.
Confiar solo en el prompt para seguridad. Los controles de acceso, guardrails y auditoría siguen siendo necesarios.
Meter demasiados documentos en contexto. Aumenta coste, latencia y ruido; RAG debe recuperar fragmentos relevantes.
No evaluar antes de producción. Una demo fluida no demuestra calidad, factualidad, seguridad ni valor de negocio.

Resumen final

El Dominio 3 trata de convertir modelos fundacionales en aplicaciones útiles. Para aprobar AIF-C01, debes saber elegir modelos según requisitos reales, aplicar prompt engineering, usar RAG cuando el conocimiento sea externo o cambiante, entender cuándo tendría sentido fine-tuning y evaluar modelos con criterios técnicos, de seguridad y de negocio.

Recuerda la regla práctica: prompt engineering guía el comportamiento inmediato, RAG aporta conocimiento actualizado, fine-tuning adapta comportamiento con ejemplos, y evaluación valida si la solución es suficientemente buena para producción.

← Anterior Diseño con FM →