Ruta AIF-C01Dominio 3 · Modelos fundacionalesDiseño de aplicaciones con modelos fundacionales

Diseño de aplicaciones con modelos fundacionales

Selección de modelos, arquitectura de aplicación, parámetros de inferencia, RAG, agentes, seguridad, coste, latencia y evaluación.

Preparación1
Dominio 12
Dominio 23
Dominio 34
Dominio 45
Dominio 56
Selector de módulo
Dominio 3 · Modelos fundacionales

Diseño de aplicaciones con modelos fundacionales

◷ 36 min

Diseñar una aplicación con modelos fundacionales no consiste únicamente en elegir un modelo y enviarle un prompt. En un escenario real hay que decidir qué modelo usar, cómo se le entrega el contexto, qué datos puede consultar, qué acciones puede ejecutar, cómo se controla el coste, cómo se mide la calidad y qué mecanismos de seguridad y gobierno se aplican antes de producción.

Selección de modelo Coste y latencia Ventana de contexto RAG Agentes Guardrails Evaluación
Pista de examen: en AIF-C01, las preguntas de este tema suelen presentar una necesidad de negocio y varias opciones técnicas. La respuesta correcta suele ser la que resuelve el problema con el menor nivel de complejidad necesario, manteniendo control de coste, seguridad, latencia y calidad.

1. Qué significa diseñar una aplicación con modelos fundacionales

Un modelo fundacional es una pieza central de la solución, pero no es toda la solución. La aplicación completa suele incluir una interfaz de usuario, autenticación, control de acceso, prompts, recuperación de contexto, almacenamiento de conversaciones, monitorización, validaciones, guardrails, integración con APIs y mecanismos de evaluación.

Modelo

Es el componente que genera, resume, clasifica, razona o transforma información. Puede ser de texto, imagen, embeddings o multimodal.

Contexto

Es la información que se entrega al modelo para responder mejor: instrucciones, documentos recuperados, historial de conversación, datos de usuario o ejemplos.

Controles

Incluyen seguridad, permisos, validación de entradas y salidas, filtrado de contenido, trazabilidad, auditoría y límites de uso.

Evaluación

Mide si la aplicación responde con calidad suficiente, cumple requisitos de negocio y se comporta de forma segura en producción.

2. El modelo más grande no siempre es el mejor

Una de las ideas más importantes para el examen es que no siempre se debe escoger el modelo más potente. Un modelo más grande puede mejorar la calidad en tareas complejas, pero también puede aumentar coste, latencia y consumo de tokens. En producción, normalmente se elige el modelo que cumple el requisito con el equilibrio adecuado.

CriterioQué significaCómo razonar en el examen
CalidadCapacidad del modelo para responder de forma correcta, útil, coherente y alineada al caso de uso.No se mide solo por fluidez. Una respuesta puede sonar bien y ser incorrecta.
LatenciaTiempo que tarda la aplicación en devolver una respuesta.Para chat interactivo importa mucho; para procesos batch puede ser menos crítico.
CosteNormalmente depende del modelo, tokens de entrada, tokens de salida, volumen de uso y modalidad de inferencia.Si el caso habla de costes elevados, piensa en reducir contexto, salida o modelo.
ModalidadTipo de entrada/salida: texto, imagen, audio, documentos, embeddings o multimodal.No elijas un modelo de texto si el requisito principal es interpretar imágenes.
Ventana de contextoCantidad de información que el modelo puede recibir en una petición.Es clave para documentos largos, conversaciones extensas y RAG.
CumplimientoRequisitos de privacidad, auditoría, residencia de datos, gobierno y control de acceso.En escenarios sensibles, la arquitectura debe incluir controles, no solo prompts.
Error frecuente: escoger el modelo más avanzado “por si acaso”. En examen, si una tarea es sencilla, repetitiva y de bajo riesgo, puede ser más correcto seleccionar un modelo más pequeño, barato y rápido que cumpla el objetivo.

3. Diseño básico: prompt directo

El diseño más simple consiste en enviar una instrucción al modelo y recibir una respuesta. Puede ser suficiente para tareas generales como resumir un texto proporcionado por el usuario, reescribir contenido, clasificar una entrada sencilla o generar un borrador.

Cuándo encaja: el usuario proporciona toda la información necesaria en la petición, no se requiere consultar documentación privada, el riesgo es bajo y la respuesta puede validarse fácilmente.

Este patrón deja de ser suficiente cuando la aplicación necesita conocimiento interno actualizado, permisos por usuario, trazabilidad documental o acciones sobre sistemas externos.

4. Diseño con contexto: prompt engineering y plantillas

El prompt engineering mejora cómo se comunica la aplicación con el modelo. Una plantilla de prompt puede incluir instrucciones del sistema, rol esperado, formato de salida, restricciones, ejemplos y criterios de calidad. Para AIF-C01 debes recordar que muchas mejoras pueden resolverse con prompt engineering antes de pasar a técnicas más costosas.

1Instrucciones claras. Define qué debe hacer el modelo, qué no debe hacer y qué formato debe devolver.
2Ejemplos. Few-shot prompting ayuda cuando el modelo debe seguir un estilo, una estructura o una clasificación concreta.
3Restricciones. En casos sensibles, indica que responda solo con el contexto proporcionado o que reconozca falta de información.
4Separación de contexto. Diferencia instrucciones del sistema, datos recuperados y entrada del usuario para reducir ambigüedad.

5. Diseño con RAG: cuando hace falta conocimiento externo o actualizado

RAG, o generación aumentada por recuperación, es un patrón clave. La aplicación busca información relevante en una fuente externa, normalmente una base de conocimiento o una base vectorial, y entrega esos fragmentos al modelo para que genere una respuesta fundamentada.

RAG es muy importante cuando el modelo debe responder sobre documentación privada, políticas internas, manuales técnicos, contratos, procedimientos o información que cambia con frecuencia.

ProblemaPor qué RAG encajaQué vigilar
Documentación internaPermite usar fuentes de la empresa sin entrenar de nuevo el modelo.Control de acceso por usuario y permisos sobre documentos.
Contenido actualizadoSe actualiza la base de conocimiento sin tener que hacer fine-tuning.Calidad de ingesta, chunking, metadatos y reindexación.
Necesidad de fuentesPuede permitir respuestas con citas o referencias documentales.El modelo debe usar solo contexto autorizado y relevante.
Reducción de alucinacionesLas respuestas se apoyan en fragmentos recuperados.RAG reduce riesgo, pero no lo elimina por completo.

Pregunta tipo examen

Una empresa quiere un asistente que responda sobre procedimientos internos que cambian cada semana. La respuesta más probable será una arquitectura con RAG o Knowledge Bases for Amazon Bedrock, no entrenamiento desde cero ni confiar únicamente en el conocimiento del modelo.

6. Diseño con agentes: cuando el modelo debe actuar

Un agente no solo responde texto. Puede interpretar una intención, decidir qué herramienta usar, consultar una API, buscar información, crear una tarea o ejecutar una acción. En AWS, este patrón se asocia con Agents for Amazon Bedrock.

Los agentes son útiles para flujos donde el usuario expresa una intención en lenguaje natural y la aplicación debe coordinar pasos. Por ejemplo: consultar disponibilidad de un producto, crear una incidencia, revisar estado de un pedido o recuperar información de varias fuentes.

Idea clave: cuanto más poder tenga un agente para ejecutar acciones reales, más importantes son la validación, confirmación explícita, permisos mínimos y auditoría.
DiseñoUso adecuadoRiesgo
Chatbot simpleResponder preguntas generales o reformular contenido.Alucinaciones o respuestas imprecisas.
RAGResponder con documentación externa o privada.Recuperar contenido no autorizado o irrelevante.
AgenteEjecutar acciones o consultar herramientas.Acciones incorrectas, permisos excesivos o falta de confirmación.

7. Parámetros de inferencia

Los parámetros de inferencia controlan cómo genera la respuesta el modelo. No todos los servicios exponen exactamente los mismos parámetros, pero el examen puede usar conceptos generales como temperatura, longitud máxima de salida o tamaño de contexto.

ParámetroQué controlaCómo aplicarlo
TemperaturaNivel de variabilidad o creatividad de la salida.Baja para respuestas consistentes; más alta para brainstorming o creatividad.
Longitud máxima de salidaCuánto puede generar el modelo.Limitarla ayuda a controlar coste, latencia y respuestas excesivas.
Context windowCantidad de entrada que puede procesar.Importante para documentos largos, RAG y conversaciones extensas.
Top-p / samplingControla la diversidad de tokens considerados durante generación.Se ajusta para equilibrar creatividad y estabilidad.
Ejemplo: para un asistente de cumplimiento interno interesa temperatura baja, respuestas basadas en fuentes y salida controlada. Para generar ideas de campaña puede aceptarse más creatividad.

8. Seguridad y gobierno en el diseño

La seguridad no se añade al final. En una aplicación con modelos fundacionales hay que decidir desde el principio qué datos pueden entrar al modelo, qué contexto se recupera, qué usuarios pueden consultar cada fuente y qué salidas se bloquean o revisan.

Mínimo privilegio. La aplicación debe tener solo los permisos necesarios para invocar modelos, leer fuentes autorizadas o ejecutar acciones concretas.
Control de acceso en RAG. No basta con controlar la respuesta final; hay que evitar que se recupere contexto no autorizado.
Guardrails. Ayudan a aplicar políticas de contenido, temas restringidos o bloqueo de respuestas no deseadas.
Auditoría. Registra uso, prompts, fuentes, versiones y acciones para análisis posterior y cumplimiento.

9. Coste y rendimiento

El coste de una aplicación GenAI puede crecer por tres motivos principales: usar modelos más caros de lo necesario, enviar demasiado contexto o generar respuestas demasiado largas. La latencia también aumenta cuando el prompt es grande, el modelo es más pesado o la aplicación recupera demasiados documentos.

Si el problema es...Revisa...Posible mejora
Coste altoModelo, tokens de entrada, tokens de salida, número de llamadas.Modelo más pequeño, prompts más breves, límites de salida o caché si aplica.
Latencia altaTamaño del modelo, contexto, retrieval, llamadas externas.Reducir contexto, optimizar retrieval o usar un modelo más rápido.
Baja calidadPrompt, datos recuperados, modelo elegido, ejemplos de evaluación.Mejor prompt, mejor RAG, otro modelo o ajuste si procede.
Riesgo de seguridadPermisos, datos sensibles, guardrails, logs, acceso a herramientas.Mínimo privilegio, filtrado, validaciones y revisión humana.

10. Cuándo usar prompt engineering, RAG, fine-tuning o entrenamiento

En el examen, muchas preguntas se resuelven identificando cuál es el problema real: formato, conocimiento, comportamiento o necesidad de crear un modelo propio.

NecesidadEnfoque recomendadoPor qué
Mejorar tono, formato o estructuraPrompt engineering y ejemplos.Es rápido, barato y no cambia el modelo.
Responder con documentación privada o cambianteRAG.Permite usar fuentes actualizadas sin reentrenar.
Adaptar comportamiento con muchos ejemplos revisadosFine-tuning o personalización.Encaja si hay datos de calidad y tarea estable.
Crear capacidades base muy específicas a gran escalaPre-training / entrenamiento desde cero.Es costoso y solo tiene sentido en casos avanzados.

11. Evaluación antes de producción

No se debe pasar a producción solo porque una demo funcione bien. La evaluación debe usar preguntas representativas, casos límite, contenido sensible y escenarios de error. También debe medir coste, latencia y satisfacción de usuario.

Calidad

Exactitud factual, relevancia, completitud, coherencia, tono, utilidad y capacidad de reconocer incertidumbre.

Seguridad

Bloqueo de temas no permitidos, prevención de fugas, resistencia a prompt injection y uso correcto de permisos.

Operación

Latencia, disponibilidad, errores, escalabilidad, coste por petición y estabilidad de respuestas.

Negocio

Tiempo ahorrado, resolución en primer contacto, reducción de tickets, adopción y satisfacción del usuario.

12. Servicios AWS que debes asociar

ServicioPara qué aparece en este temaIdea de examen
Amazon BedrockCrear aplicaciones GenAI con modelos fundacionales mediante un servicio administrado.Servicio clave cuando se quiere usar FMs sin gestionar infraestructura de ML.
Knowledge Bases for Amazon BedrockImplementar RAG administrado con fuentes documentales y recuperación de contexto.Opción fuerte para documentación interna y respuestas fundamentadas.
Agents for Amazon BedrockCrear agentes que pueden usar herramientas y ejecutar acciones.Requiere permisos, validaciones y confirmación en acciones sensibles.
Guardrails for Amazon BedrockAplicar controles de contenido, restricciones y políticas de seguridad.No sustituyen IAM, pero ayudan a controlar entradas y salidas.
Amazon SageMaker AIConstrucción, entrenamiento, despliegue y operación de modelos ML/FMs.Más orientado a equipos que necesitan control y ciclo de ML completo.
Amazon QAsistentes generativos para productividad, negocio o desarrollo.Puede encajar cuando se busca un asistente listo para usuarios o desarrolladores.

13. Errores frecuentes

  • Elegir siempre fine-tuning. Si el problema es conocimiento cambiante, RAG suele ser más adecuado.
  • Confiar solo en el prompt para seguridad. El diseño debe incluir permisos, control de acceso, guardrails y auditoría.
  • Ignorar el coste de tokens. Prompts largos y respuestas largas elevan coste y latencia.
  • Permitir agentes sin límites. Las acciones reales requieren validación, confirmación y mínimo privilegio.
  • No evaluar con casos reales. Una demo controlada no garantiza comportamiento fiable en producción.

Resumen final

Diseñar aplicaciones con modelos fundacionales requiere pensar como arquitecto: elegir el modelo adecuado, diseñar el prompt, decidir si hace falta RAG, controlar permisos, limitar coste, medir calidad y proteger datos. El modelo es solo una parte de la solución.

Para AIF-C01, recuerda el patrón mental: si el problema es estilo, empieza por prompt engineering; si es conocimiento actualizado o privado, piensa en RAG; si el modelo debe actuar, piensa en agentes con controles; si hay riesgo de contenido o seguridad, añade guardrails, permisos y auditoría; si hay coste o latencia, revisa modelo, tokens y contexto.