Diseño de aplicaciones con modelos fundacionales
Diseñar una aplicación con modelos fundacionales no consiste únicamente en elegir un modelo y enviarle un prompt. En un escenario real hay que decidir qué modelo usar, cómo se le entrega el contexto, qué datos puede consultar, qué acciones puede ejecutar, cómo se controla el coste, cómo se mide la calidad y qué mecanismos de seguridad y gobierno se aplican antes de producción.
1. Qué significa diseñar una aplicación con modelos fundacionales
Un modelo fundacional es una pieza central de la solución, pero no es toda la solución. La aplicación completa suele incluir una interfaz de usuario, autenticación, control de acceso, prompts, recuperación de contexto, almacenamiento de conversaciones, monitorización, validaciones, guardrails, integración con APIs y mecanismos de evaluación.
Es el componente que genera, resume, clasifica, razona o transforma información. Puede ser de texto, imagen, embeddings o multimodal.
Es la información que se entrega al modelo para responder mejor: instrucciones, documentos recuperados, historial de conversación, datos de usuario o ejemplos.
Incluyen seguridad, permisos, validación de entradas y salidas, filtrado de contenido, trazabilidad, auditoría y límites de uso.
Mide si la aplicación responde con calidad suficiente, cumple requisitos de negocio y se comporta de forma segura en producción.
2. El modelo más grande no siempre es el mejor
Una de las ideas más importantes para el examen es que no siempre se debe escoger el modelo más potente. Un modelo más grande puede mejorar la calidad en tareas complejas, pero también puede aumentar coste, latencia y consumo de tokens. En producción, normalmente se elige el modelo que cumple el requisito con el equilibrio adecuado.
| Criterio | Qué significa | Cómo razonar en el examen |
|---|---|---|
| Calidad | Capacidad del modelo para responder de forma correcta, útil, coherente y alineada al caso de uso. | No se mide solo por fluidez. Una respuesta puede sonar bien y ser incorrecta. |
| Latencia | Tiempo que tarda la aplicación en devolver una respuesta. | Para chat interactivo importa mucho; para procesos batch puede ser menos crítico. |
| Coste | Normalmente depende del modelo, tokens de entrada, tokens de salida, volumen de uso y modalidad de inferencia. | Si el caso habla de costes elevados, piensa en reducir contexto, salida o modelo. |
| Modalidad | Tipo de entrada/salida: texto, imagen, audio, documentos, embeddings o multimodal. | No elijas un modelo de texto si el requisito principal es interpretar imágenes. |
| Ventana de contexto | Cantidad de información que el modelo puede recibir en una petición. | Es clave para documentos largos, conversaciones extensas y RAG. |
| Cumplimiento | Requisitos de privacidad, auditoría, residencia de datos, gobierno y control de acceso. | En escenarios sensibles, la arquitectura debe incluir controles, no solo prompts. |
3. Diseño básico: prompt directo
El diseño más simple consiste en enviar una instrucción al modelo y recibir una respuesta. Puede ser suficiente para tareas generales como resumir un texto proporcionado por el usuario, reescribir contenido, clasificar una entrada sencilla o generar un borrador.
Este patrón deja de ser suficiente cuando la aplicación necesita conocimiento interno actualizado, permisos por usuario, trazabilidad documental o acciones sobre sistemas externos.
4. Diseño con contexto: prompt engineering y plantillas
El prompt engineering mejora cómo se comunica la aplicación con el modelo. Una plantilla de prompt puede incluir instrucciones del sistema, rol esperado, formato de salida, restricciones, ejemplos y criterios de calidad. Para AIF-C01 debes recordar que muchas mejoras pueden resolverse con prompt engineering antes de pasar a técnicas más costosas.
5. Diseño con RAG: cuando hace falta conocimiento externo o actualizado
RAG, o generación aumentada por recuperación, es un patrón clave. La aplicación busca información relevante en una fuente externa, normalmente una base de conocimiento o una base vectorial, y entrega esos fragmentos al modelo para que genere una respuesta fundamentada.
RAG es muy importante cuando el modelo debe responder sobre documentación privada, políticas internas, manuales técnicos, contratos, procedimientos o información que cambia con frecuencia.
| Problema | Por qué RAG encaja | Qué vigilar |
|---|---|---|
| Documentación interna | Permite usar fuentes de la empresa sin entrenar de nuevo el modelo. | Control de acceso por usuario y permisos sobre documentos. |
| Contenido actualizado | Se actualiza la base de conocimiento sin tener que hacer fine-tuning. | Calidad de ingesta, chunking, metadatos y reindexación. |
| Necesidad de fuentes | Puede permitir respuestas con citas o referencias documentales. | El modelo debe usar solo contexto autorizado y relevante. |
| Reducción de alucinaciones | Las respuestas se apoyan en fragmentos recuperados. | RAG reduce riesgo, pero no lo elimina por completo. |
Pregunta tipo examen
Una empresa quiere un asistente que responda sobre procedimientos internos que cambian cada semana. La respuesta más probable será una arquitectura con RAG o Knowledge Bases for Amazon Bedrock, no entrenamiento desde cero ni confiar únicamente en el conocimiento del modelo.
6. Diseño con agentes: cuando el modelo debe actuar
Un agente no solo responde texto. Puede interpretar una intención, decidir qué herramienta usar, consultar una API, buscar información, crear una tarea o ejecutar una acción. En AWS, este patrón se asocia con Agents for Amazon Bedrock.
Los agentes son útiles para flujos donde el usuario expresa una intención en lenguaje natural y la aplicación debe coordinar pasos. Por ejemplo: consultar disponibilidad de un producto, crear una incidencia, revisar estado de un pedido o recuperar información de varias fuentes.
| Diseño | Uso adecuado | Riesgo |
|---|---|---|
| Chatbot simple | Responder preguntas generales o reformular contenido. | Alucinaciones o respuestas imprecisas. |
| RAG | Responder con documentación externa o privada. | Recuperar contenido no autorizado o irrelevante. |
| Agente | Ejecutar acciones o consultar herramientas. | Acciones incorrectas, permisos excesivos o falta de confirmación. |
7. Parámetros de inferencia
Los parámetros de inferencia controlan cómo genera la respuesta el modelo. No todos los servicios exponen exactamente los mismos parámetros, pero el examen puede usar conceptos generales como temperatura, longitud máxima de salida o tamaño de contexto.
| Parámetro | Qué controla | Cómo aplicarlo |
|---|---|---|
| Temperatura | Nivel de variabilidad o creatividad de la salida. | Baja para respuestas consistentes; más alta para brainstorming o creatividad. |
| Longitud máxima de salida | Cuánto puede generar el modelo. | Limitarla ayuda a controlar coste, latencia y respuestas excesivas. |
| Context window | Cantidad de entrada que puede procesar. | Importante para documentos largos, RAG y conversaciones extensas. |
| Top-p / sampling | Controla la diversidad de tokens considerados durante generación. | Se ajusta para equilibrar creatividad y estabilidad. |
8. Seguridad y gobierno en el diseño
La seguridad no se añade al final. En una aplicación con modelos fundacionales hay que decidir desde el principio qué datos pueden entrar al modelo, qué contexto se recupera, qué usuarios pueden consultar cada fuente y qué salidas se bloquean o revisan.
9. Coste y rendimiento
El coste de una aplicación GenAI puede crecer por tres motivos principales: usar modelos más caros de lo necesario, enviar demasiado contexto o generar respuestas demasiado largas. La latencia también aumenta cuando el prompt es grande, el modelo es más pesado o la aplicación recupera demasiados documentos.
| Si el problema es... | Revisa... | Posible mejora |
|---|---|---|
| Coste alto | Modelo, tokens de entrada, tokens de salida, número de llamadas. | Modelo más pequeño, prompts más breves, límites de salida o caché si aplica. |
| Latencia alta | Tamaño del modelo, contexto, retrieval, llamadas externas. | Reducir contexto, optimizar retrieval o usar un modelo más rápido. |
| Baja calidad | Prompt, datos recuperados, modelo elegido, ejemplos de evaluación. | Mejor prompt, mejor RAG, otro modelo o ajuste si procede. |
| Riesgo de seguridad | Permisos, datos sensibles, guardrails, logs, acceso a herramientas. | Mínimo privilegio, filtrado, validaciones y revisión humana. |
10. Cuándo usar prompt engineering, RAG, fine-tuning o entrenamiento
En el examen, muchas preguntas se resuelven identificando cuál es el problema real: formato, conocimiento, comportamiento o necesidad de crear un modelo propio.
| Necesidad | Enfoque recomendado | Por qué |
|---|---|---|
| Mejorar tono, formato o estructura | Prompt engineering y ejemplos. | Es rápido, barato y no cambia el modelo. |
| Responder con documentación privada o cambiante | RAG. | Permite usar fuentes actualizadas sin reentrenar. |
| Adaptar comportamiento con muchos ejemplos revisados | Fine-tuning o personalización. | Encaja si hay datos de calidad y tarea estable. |
| Crear capacidades base muy específicas a gran escala | Pre-training / entrenamiento desde cero. | Es costoso y solo tiene sentido en casos avanzados. |
11. Evaluación antes de producción
No se debe pasar a producción solo porque una demo funcione bien. La evaluación debe usar preguntas representativas, casos límite, contenido sensible y escenarios de error. También debe medir coste, latencia y satisfacción de usuario.
Exactitud factual, relevancia, completitud, coherencia, tono, utilidad y capacidad de reconocer incertidumbre.
Bloqueo de temas no permitidos, prevención de fugas, resistencia a prompt injection y uso correcto de permisos.
Latencia, disponibilidad, errores, escalabilidad, coste por petición y estabilidad de respuestas.
Tiempo ahorrado, resolución en primer contacto, reducción de tickets, adopción y satisfacción del usuario.
12. Servicios AWS que debes asociar
| Servicio | Para qué aparece en este tema | Idea de examen |
|---|---|---|
| Amazon Bedrock | Crear aplicaciones GenAI con modelos fundacionales mediante un servicio administrado. | Servicio clave cuando se quiere usar FMs sin gestionar infraestructura de ML. |
| Knowledge Bases for Amazon Bedrock | Implementar RAG administrado con fuentes documentales y recuperación de contexto. | Opción fuerte para documentación interna y respuestas fundamentadas. |
| Agents for Amazon Bedrock | Crear agentes que pueden usar herramientas y ejecutar acciones. | Requiere permisos, validaciones y confirmación en acciones sensibles. |
| Guardrails for Amazon Bedrock | Aplicar controles de contenido, restricciones y políticas de seguridad. | No sustituyen IAM, pero ayudan a controlar entradas y salidas. |
| Amazon SageMaker AI | Construcción, entrenamiento, despliegue y operación de modelos ML/FMs. | Más orientado a equipos que necesitan control y ciclo de ML completo. |
| Amazon Q | Asistentes generativos para productividad, negocio o desarrollo. | Puede encajar cuando se busca un asistente listo para usuarios o desarrolladores. |
13. Errores frecuentes
- Elegir siempre fine-tuning. Si el problema es conocimiento cambiante, RAG suele ser más adecuado.
- Confiar solo en el prompt para seguridad. El diseño debe incluir permisos, control de acceso, guardrails y auditoría.
- Ignorar el coste de tokens. Prompts largos y respuestas largas elevan coste y latencia.
- Permitir agentes sin límites. Las acciones reales requieren validación, confirmación y mínimo privilegio.
- No evaluar con casos reales. Una demo controlada no garantiza comportamiento fiable en producción.
Resumen final
Diseñar aplicaciones con modelos fundacionales requiere pensar como arquitecto: elegir el modelo adecuado, diseñar el prompt, decidir si hace falta RAG, controlar permisos, limitar coste, medir calidad y proteger datos. El modelo es solo una parte de la solución.
Para AIF-C01, recuerda el patrón mental: si el problema es estilo, empieza por prompt engineering; si es conocimiento actualizado o privado, piensa en RAG; si el modelo debe actuar, piensa en agentes con controles; si hay riesgo de contenido o seguridad, añade guardrails, permisos y auditoría; si hay coste o latencia, revisa modelo, tokens y contexto.