Diseño de aplicaciones con modelos fundacionales

Dominio 3 · Modelos fundacionales

Diseño de aplicaciones con modelos fundacionales

◷ 36 min

Diseñar una aplicación con modelos fundacionales no consiste únicamente en elegir un modelo y enviarle un prompt. En un escenario real hay que decidir qué modelo usar, cómo se le entrega el contexto, qué datos puede consultar, qué acciones puede ejecutar, cómo se controla el coste, cómo se mide la calidad y qué mecanismos de seguridad y gobierno se aplican antes de producción.

Selección de modelo Coste y latencia Ventana de contexto RAG Agentes Guardrails Evaluación

Pista de examen: en AIF-C01, las preguntas de este tema suelen presentar una necesidad de negocio y varias opciones técnicas. La respuesta correcta suele ser la que resuelve el problema con el menor nivel de complejidad necesario, manteniendo control de coste, seguridad, latencia y calidad.

1. Qué significa diseñar una aplicación con modelos fundacionales

Un modelo fundacional es una pieza central de la solución, pero no es toda la solución. La aplicación completa suele incluir una interfaz de usuario, autenticación, control de acceso, prompts, recuperación de contexto, almacenamiento de conversaciones, monitorización, validaciones, guardrails, integración con APIs y mecanismos de evaluación.

Modelo

Es el componente que genera, resume, clasifica, razona o transforma información. Puede ser de texto, imagen, embeddings o multimodal.

Contexto

Es la información que se entrega al modelo para responder mejor: instrucciones, documentos recuperados, historial de conversación, datos de usuario o ejemplos.

Controles

Incluyen seguridad, permisos, validación de entradas y salidas, filtrado de contenido, trazabilidad, auditoría y límites de uso.

Evaluación

Mide si la aplicación responde con calidad suficiente, cumple requisitos de negocio y se comporta de forma segura en producción.

2. El modelo más grande no siempre es el mejor

Una de las ideas más importantes para el examen es que no siempre se debe escoger el modelo más potente. Un modelo más grande puede mejorar la calidad en tareas complejas, pero también puede aumentar coste, latencia y consumo de tokens. En producción, normalmente se elige el modelo que cumple el requisito con el equilibrio adecuado.

Criterio	Qué significa	Cómo razonar en el examen
Calidad	Capacidad del modelo para responder de forma correcta, útil, coherente y alineada al caso de uso.	No se mide solo por fluidez. Una respuesta puede sonar bien y ser incorrecta.
Latencia	Tiempo que tarda la aplicación en devolver una respuesta.	Para chat interactivo importa mucho; para procesos batch puede ser menos crítico.
Coste	Normalmente depende del modelo, tokens de entrada, tokens de salida, volumen de uso y modalidad de inferencia.	Si el caso habla de costes elevados, piensa en reducir contexto, salida o modelo.
Modalidad	Tipo de entrada/salida: texto, imagen, audio, documentos, embeddings o multimodal.	No elijas un modelo de texto si el requisito principal es interpretar imágenes.
Ventana de contexto	Cantidad de información que el modelo puede recibir en una petición.	Es clave para documentos largos, conversaciones extensas y RAG.
Cumplimiento	Requisitos de privacidad, auditoría, residencia de datos, gobierno y control de acceso.	En escenarios sensibles, la arquitectura debe incluir controles, no solo prompts.

Error frecuente: escoger el modelo más avanzado “por si acaso”. En examen, si una tarea es sencilla, repetitiva y de bajo riesgo, puede ser más correcto seleccionar un modelo más pequeño, barato y rápido que cumpla el objetivo.

3. Diseño básico: prompt directo

El diseño más simple consiste en enviar una instrucción al modelo y recibir una respuesta. Puede ser suficiente para tareas generales como resumir un texto proporcionado por el usuario, reescribir contenido, clasificar una entrada sencilla o generar un borrador.

Cuándo encaja: el usuario proporciona toda la información necesaria en la petición, no se requiere consultar documentación privada, el riesgo es bajo y la respuesta puede validarse fácilmente.

Este patrón deja de ser suficiente cuando la aplicación necesita conocimiento interno actualizado, permisos por usuario, trazabilidad documental o acciones sobre sistemas externos.

4. Diseño con contexto: prompt engineering y plantillas

El prompt engineering mejora cómo se comunica la aplicación con el modelo. Una plantilla de prompt puede incluir instrucciones del sistema, rol esperado, formato de salida, restricciones, ejemplos y criterios de calidad. Para AIF-C01 debes recordar que muchas mejoras pueden resolverse con prompt engineering antes de pasar a técnicas más costosas.

1Instrucciones claras. Define qué debe hacer el modelo, qué no debe hacer y qué formato debe devolver.

2Ejemplos. Few-shot prompting ayuda cuando el modelo debe seguir un estilo, una estructura o una clasificación concreta.

3Restricciones. En casos sensibles, indica que responda solo con el contexto proporcionado o que reconozca falta de información.

4Separación de contexto. Diferencia instrucciones del sistema, datos recuperados y entrada del usuario para reducir ambigüedad.

5. Diseño con RAG: cuando hace falta conocimiento externo o actualizado

RAG, o generación aumentada por recuperación, es un patrón clave. La aplicación busca información relevante en una fuente externa, normalmente una base de conocimiento o una base vectorial, y entrega esos fragmentos al modelo para que genere una respuesta fundamentada.

RAG es muy importante cuando el modelo debe responder sobre documentación privada, políticas internas, manuales técnicos, contratos, procedimientos o información que cambia con frecuencia.

Problema	Por qué RAG encaja	Qué vigilar
Documentación interna	Permite usar fuentes de la empresa sin entrenar de nuevo el modelo.	Control de acceso por usuario y permisos sobre documentos.
Contenido actualizado	Se actualiza la base de conocimiento sin tener que hacer fine-tuning.	Calidad de ingesta, chunking, metadatos y reindexación.
Necesidad de fuentes	Puede permitir respuestas con citas o referencias documentales.	El modelo debe usar solo contexto autorizado y relevante.
Reducción de alucinaciones	Las respuestas se apoyan en fragmentos recuperados.	RAG reduce riesgo, pero no lo elimina por completo.

Pregunta tipo examen

Una empresa quiere un asistente que responda sobre procedimientos internos que cambian cada semana. La respuesta más probable será una arquitectura con RAG o Knowledge Bases for Amazon Bedrock, no entrenamiento desde cero ni confiar únicamente en el conocimiento del modelo.

6. Diseño con agentes: cuando el modelo debe actuar

Un agente no solo responde texto. Puede interpretar una intención, decidir qué herramienta usar, consultar una API, buscar información, crear una tarea o ejecutar una acción. En AWS, este patrón se asocia con Agents for Amazon Bedrock.

Los agentes son útiles para flujos donde el usuario expresa una intención en lenguaje natural y la aplicación debe coordinar pasos. Por ejemplo: consultar disponibilidad de un producto, crear una incidencia, revisar estado de un pedido o recuperar información de varias fuentes.

Idea clave: cuanto más poder tenga un agente para ejecutar acciones reales, más importantes son la validación, confirmación explícita, permisos mínimos y auditoría.

Diseño	Uso adecuado	Riesgo
Chatbot simple	Responder preguntas generales o reformular contenido.	Alucinaciones o respuestas imprecisas.
RAG	Responder con documentación externa o privada.	Recuperar contenido no autorizado o irrelevante.
Agente	Ejecutar acciones o consultar herramientas.	Acciones incorrectas, permisos excesivos o falta de confirmación.

7. Parámetros de inferencia

Los parámetros de inferencia controlan cómo genera la respuesta el modelo. No todos los servicios exponen exactamente los mismos parámetros, pero el examen puede usar conceptos generales como temperatura, longitud máxima de salida o tamaño de contexto.

Parámetro	Qué controla	Cómo aplicarlo
Temperatura	Nivel de variabilidad o creatividad de la salida.	Baja para respuestas consistentes; más alta para brainstorming o creatividad.
Longitud máxima de salida	Cuánto puede generar el modelo.	Limitarla ayuda a controlar coste, latencia y respuestas excesivas.
Context window	Cantidad de entrada que puede procesar.	Importante para documentos largos, RAG y conversaciones extensas.
Top-p / sampling	Controla la diversidad de tokens considerados durante generación.	Se ajusta para equilibrar creatividad y estabilidad.

Ejemplo: para un asistente de cumplimiento interno interesa temperatura baja, respuestas basadas en fuentes y salida controlada. Para generar ideas de campaña puede aceptarse más creatividad.

8. Seguridad y gobierno en el diseño

La seguridad no se añade al final. En una aplicación con modelos fundacionales hay que decidir desde el principio qué datos pueden entrar al modelo, qué contexto se recupera, qué usuarios pueden consultar cada fuente y qué salidas se bloquean o revisan.

✓Mínimo privilegio. La aplicación debe tener solo los permisos necesarios para invocar modelos, leer fuentes autorizadas o ejecutar acciones concretas.

✓Control de acceso en RAG. No basta con controlar la respuesta final; hay que evitar que se recupere contexto no autorizado.

✓Guardrails. Ayudan a aplicar políticas de contenido, temas restringidos o bloqueo de respuestas no deseadas.

✓Auditoría. Registra uso, prompts, fuentes, versiones y acciones para análisis posterior y cumplimiento.

9. Coste y rendimiento

El coste de una aplicación GenAI puede crecer por tres motivos principales: usar modelos más caros de lo necesario, enviar demasiado contexto o generar respuestas demasiado largas. La latencia también aumenta cuando el prompt es grande, el modelo es más pesado o la aplicación recupera demasiados documentos.

Si el problema es...	Revisa...	Posible mejora
Coste alto	Modelo, tokens de entrada, tokens de salida, número de llamadas.	Modelo más pequeño, prompts más breves, límites de salida o caché si aplica.
Latencia alta	Tamaño del modelo, contexto, retrieval, llamadas externas.	Reducir contexto, optimizar retrieval o usar un modelo más rápido.
Baja calidad	Prompt, datos recuperados, modelo elegido, ejemplos de evaluación.	Mejor prompt, mejor RAG, otro modelo o ajuste si procede.
Riesgo de seguridad	Permisos, datos sensibles, guardrails, logs, acceso a herramientas.	Mínimo privilegio, filtrado, validaciones y revisión humana.

10. Cuándo usar prompt engineering, RAG, fine-tuning o entrenamiento

En el examen, muchas preguntas se resuelven identificando cuál es el problema real: formato, conocimiento, comportamiento o necesidad de crear un modelo propio.

Necesidad	Enfoque recomendado	Por qué
Mejorar tono, formato o estructura	Prompt engineering y ejemplos.	Es rápido, barato y no cambia el modelo.
Responder con documentación privada o cambiante	RAG.	Permite usar fuentes actualizadas sin reentrenar.
Adaptar comportamiento con muchos ejemplos revisados	Fine-tuning o personalización.	Encaja si hay datos de calidad y tarea estable.
Crear capacidades base muy específicas a gran escala	Pre-training / entrenamiento desde cero.	Es costoso y solo tiene sentido en casos avanzados.

11. Evaluación antes de producción

No se debe pasar a producción solo porque una demo funcione bien. La evaluación debe usar preguntas representativas, casos límite, contenido sensible y escenarios de error. También debe medir coste, latencia y satisfacción de usuario.

Calidad

Exactitud factual, relevancia, completitud, coherencia, tono, utilidad y capacidad de reconocer incertidumbre.

Seguridad

Bloqueo de temas no permitidos, prevención de fugas, resistencia a prompt injection y uso correcto de permisos.

Operación

Latencia, disponibilidad, errores, escalabilidad, coste por petición y estabilidad de respuestas.

Negocio

Tiempo ahorrado, resolución en primer contacto, reducción de tickets, adopción y satisfacción del usuario.

12. Servicios AWS que debes asociar

Servicio	Para qué aparece en este tema	Idea de examen
Amazon Bedrock	Crear aplicaciones GenAI con modelos fundacionales mediante un servicio administrado.	Servicio clave cuando se quiere usar FMs sin gestionar infraestructura de ML.
Knowledge Bases for Amazon Bedrock	Implementar RAG administrado con fuentes documentales y recuperación de contexto.	Opción fuerte para documentación interna y respuestas fundamentadas.
Agents for Amazon Bedrock	Crear agentes que pueden usar herramientas y ejecutar acciones.	Requiere permisos, validaciones y confirmación en acciones sensibles.
Guardrails for Amazon Bedrock	Aplicar controles de contenido, restricciones y políticas de seguridad.	No sustituyen IAM, pero ayudan a controlar entradas y salidas.
Amazon SageMaker AI	Construcción, entrenamiento, despliegue y operación de modelos ML/FMs.	Más orientado a equipos que necesitan control y ciclo de ML completo.
Amazon Q	Asistentes generativos para productividad, negocio o desarrollo.	Puede encajar cuando se busca un asistente listo para usuarios o desarrolladores.

13. Errores frecuentes

Elegir siempre fine-tuning. Si el problema es conocimiento cambiante, RAG suele ser más adecuado.
Confiar solo en el prompt para seguridad. El diseño debe incluir permisos, control de acceso, guardrails y auditoría.
Ignorar el coste de tokens. Prompts largos y respuestas largas elevan coste y latencia.
Permitir agentes sin límites. Las acciones reales requieren validación, confirmación y mínimo privilegio.
No evaluar con casos reales. Una demo controlada no garantiza comportamiento fiable en producción.

Resumen final

Diseñar aplicaciones con modelos fundacionales requiere pensar como arquitecto: elegir el modelo adecuado, diseñar el prompt, decidir si hace falta RAG, controlar permisos, limitar coste, medir calidad y proteger datos. El modelo es solo una parte de la solución.

Para AIF-C01, recuerda el patrón mental: si el problema es estilo, empieza por prompt engineering; si es conocimiento actualizado o privado, piensa en RAG; si el modelo debe actuar, piensa en agentes con controles; si hay riesgo de contenido o seguridad, añade guardrails, permisos y auditoría; si hay coste o latencia, revisa modelo, tokens y contexto.

← Anterior RAG y bases vectoriales →