Conceptos clave de IA generativa para AIF-C01

Dominio 2 · IA generativa

Conceptos clave de IA generativa

◷ 12 min

La IA generativa es una rama de la inteligencia artificial capaz de crear contenido nuevo a partir de datos, instrucciones y contexto. Puede generar texto, código, imágenes, audio, resúmenes, respuestas conversacionales o recomendaciones. Para el examen AWS Certified AI Practitioner AIF-C01, este módulo es clave porque te ayuda a entender el vocabulario que aparece después en Amazon Bedrock, modelos fundacionales, RAG, agentes, guardrails, prompt engineering y evaluación de soluciones GenAI.

Tokens Chunking Embeddings Vectores LLM Transformers FMs Modelos multimodales Difusión

Pista de examen: en AIF-C01 debes reconocer conceptos y aplicarlos a escenarios. Si el enunciado habla de documentos internos, búsqueda semántica, coste por uso, ventana de contexto, respuestas inventadas, generación de imágenes o asistentes conversacionales, probablemente está evaluando conceptos base de IA generativa.

1. Qué significa realmente IA generativa

La IA generativa no se limita a clasificar algo como “sí” o “no”, ni solo a predecir un número. Su objetivo principal es generar una salida nueva a partir de una entrada. Esa salida puede ser un texto redactado, una explicación, una imagen, una respuesta de soporte, un fragmento de código, una traducción o una síntesis de un documento.

Esto no significa que el modelo “entienda” como una persona. El modelo aprende patrones estadísticos a gran escala y genera una salida probable según la entrada, el contexto, sus parámetros y el entrenamiento recibido. Esta diferencia es importante para entender sus ventajas y sus límites.

Tipo de problema	Qué produce	Ejemplo
Clasificación	Una categoría.	Determinar si un email es spam o no spam.
Regresión	Un valor numérico.	Predecir la demanda esperada de un producto.
Clustering	Grupos o segmentos.	Agrupar clientes con comportamiento parecido.
IA generativa	Contenido nuevo.	Redactar una respuesta, resumir un contrato o generar una imagen.

2. Modelos fundacionales

Un modelo fundacional o foundation model es un modelo de gran escala entrenado con grandes volúmenes de datos y que puede adaptarse a muchos casos de uso. A diferencia de un modelo clásico entrenado para una tarea muy concreta, un modelo fundacional puede servir como base para chatbots, resumen, extracción de información, generación de código, clasificación, razonamiento sobre documentos o creación de contenido.

Modelo clásico

Suele entrenarse para una tarea concreta: detectar fraude, predecir ventas, clasificar imágenes o estimar riesgo. Normalmente requiere datos específicos y una salida bien definida.

Modelo fundacional

Sirve como base reutilizable para diferentes tareas. Puede adaptarse con prompt engineering, RAG, fine-tuning o integración con herramientas.

LLM

Un large language model es un modelo especializado en lenguaje natural. Puede generar, resumir, traducir, clasificar o razonar sobre texto.

Modelo multimodal

Puede trabajar con más de un tipo de entrada o salida, por ejemplo texto e imagen, texto y audio, o imagen y descripción.

3. Tokens: la unidad básica de trabajo

Los modelos de lenguaje no procesan el texto exactamente como lo vemos los humanos. Lo convierten en tokens. Un token puede ser una palabra, parte de una palabra, un signo de puntuación o un fragmento de texto. Los tokens importan porque afectan al coste, la latencia, la ventana de contexto y la longitud máxima de las respuestas.

Ejemplo sencillo: si envías un documento muy largo a un modelo, no estás enviando “un documento”; estás enviando muchos tokens. Cuantos más tokens entren y salgan, más trabajo tiene que hacer el modelo y mayor puede ser el coste y la latencia.

Por qué los tokens son importantes en el examen

Coste: muchos servicios de IA generativa tienen modelos de precio relacionados con tokens de entrada y salida.
Rendimiento: prompts más largos pueden tardar más en procesarse.
Ventana de contexto: cada modelo tiene un límite de tokens que puede manejar en una interacción.
Diseño: conviene enviar solo el contexto necesario, no documentos completos si no hacen falta.

Idea para memorizar:
más tokens = más contexto posible, pero también más coste, más latencia y más riesgo de introducir ruido.

4. Ventana de contexto

La ventana de contexto es la cantidad máxima de información que un modelo puede considerar en una petición o conversación. Incluye instrucciones del sistema, pregunta del usuario, historial, fragmentos recuperados, ejemplos y cualquier otro texto enviado al modelo.

Una ventana grande permite trabajar con más información, pero no significa automáticamente mejor calidad. Si se envía demasiado contexto irrelevante, el modelo puede distraerse, aumentar coste o responder de forma menos precisa.

Situación	Problema	Diseño recomendado
Documento largo	Supera la ventana de contexto.	Dividir en fragmentos, resumir o usar RAG.
Contexto excesivo	Coste y latencia altos.	Recuperar solo la información relevante.
Conversación larga	El historial ocupa espacio.	Resumir historial o gestionar memoria.
Respuesta sensible	El contexto puede contener datos no autorizados.	Aplicar control de acceso antes de recuperar información.

5. Chunking: dividir documentos en fragmentos útiles

Chunking significa dividir documentos grandes en fragmentos más pequeños para procesarlos, indexarlos o recuperarlos. Es un concepto fundamental en arquitecturas RAG, porque el sistema no suele enviar documentos completos al modelo: recupera fragmentos relevantes.

La dificultad está en elegir bien el tamaño del fragmento. Fragmentos demasiado pequeños pueden perder contexto. Fragmentos demasiado grandes pueden traer ruido o información innecesaria.

Chunks muy pequeños

Pueden ser precisos, pero quizá no contienen suficiente contexto para responder bien. El modelo puede recibir frases sueltas sin explicación.

Chunks muy grandes

Pueden incluir contexto completo, pero también información irrelevante. Aumentan tokens, coste y riesgo de recuperar ruido.

Overlap

Solapar ligeramente fragmentos ayuda a no cortar ideas importantes entre dos chunks.

Metadatos

Etiquetas como departamento, fecha, tipo de documento o permisos ayudan a filtrar y recuperar mejor.

Pregunta típica de examen

Una empresa usa RAG, pero las respuestas son incompletas. Los fragmentos recuperados son demasiado pequeños y pierden contexto. ¿Qué revisarías? La respuesta razonable es ajustar la estrategia de chunking, tamaño de fragmentos, overlap y recuperación, no entrenar desde cero un modelo fundacional.

6. Embeddings y vectores

Un embedding es una representación numérica de información. Convierte texto, imágenes u otros datos en vectores que capturan similitud semántica. Dicho de forma sencilla: permite comparar significado, no solo palabras exactas.

Esto es clave para búsqueda semántica. Si un usuario pregunta “¿cómo puedo recuperar mi contraseña?” y un documento dice “procedimiento de restablecimiento de credenciales”, una búsqueda tradicional por palabra exacta podría fallar. Una búsqueda basada en embeddings puede encontrar relación semántica entre ambas frases.

Concepto	Qué significa	Para qué sirve
Embedding	Representación numérica de un contenido.	Comparar significado entre textos, imágenes o consultas.
Vector	Lista de números que representa el embedding.	Permite calcular cercanía o similitud.
Base vectorial	Sistema que almacena y busca vectores.	Recuperar fragmentos similares a la pregunta del usuario.
Búsqueda semántica	Búsqueda por significado.	Encontrar contenido relevante aunque use otras palabras.

7. LLM y transformers

Un LLM es un modelo de lenguaje grande entrenado para trabajar con texto. Muchos LLM modernos se basan en arquitecturas tipo transformer, que permiten al modelo analizar relaciones entre tokens y prestar atención a partes relevantes del contexto.

No necesitas conocer las matemáticas internas para AIF-C01, pero sí debes entender la idea conceptual: los transformers permiten procesar lenguaje de forma eficiente y capturar relaciones dentro de secuencias largas de texto.

Trampa de examen: no confundas LLM con cualquier modelo de IA. Un LLM trabaja principalmente con lenguaje. Un modelo de visión trabaja con imágenes. Un modelo multimodal puede trabajar con varios tipos de datos.

8. Modelos multimodales

Un modelo multimodal puede trabajar con más de una modalidad de datos. Por ejemplo, puede recibir una imagen y una pregunta, generar una descripción de una fotografía, analizar un gráfico o combinar texto e imagen para producir una respuesta.

Modalidad	Ejemplo de entrada	Ejemplo de salida
Texto a texto	Pregunta o documento.	Respuesta, resumen o traducción.
Texto a imagen	Descripción de una escena.	Imagen generada.
Imagen a texto	Fotografía o diagrama.	Descripción o análisis del contenido.
Audio a texto	Grabación de voz.	Transcripción o resumen.

9. Modelos de difusión

Los modelos de difusión se asocian habitualmente con generación de imágenes. A alto nivel, aprenden a crear una salida partiendo de ruido y refinándola progresivamente hasta obtener una imagen coherente con la instrucción del usuario.

Para el examen, no necesitas explicar ecuaciones ni arquitectura interna. Lo importante es reconocer que los modelos de difusión aparecen en generación visual, creación de imágenes, edición o síntesis de contenido visual.

10. Prompt engineering

El prompt engineering consiste en diseñar instrucciones de entrada para guiar al modelo. Un buen prompt define objetivo, contexto, formato esperado, restricciones, tono y ejemplos cuando sea necesario.

Rol. Indica qué papel debe adoptar el modelo: asistente técnico, analista, tutor, redactor, etc.

Objetivo. Explica claramente qué debe producir: resumen, tabla, respuesta breve, análisis, clasificación o explicación.

Contexto. Aporta la información necesaria para responder sin inventar.

Restricciones. Define límites: no inventes, cita fuentes, responde solo con el contexto, usa tono formal, etc.

Formato. Especifica si quieres JSON, tabla, lista, explicación paso a paso o texto para usuario final.

Ejemplo:
Actúa como asistente de soporte interno.
Responde solo con el contexto proporcionado.
Si la respuesta no aparece en el contexto, di: "No tengo información suficiente".
Devuelve la respuesta en máximo 5 líneas.

11. Context engineering

El context engineering va más allá de escribir un buen prompt. Consiste en diseñar qué información llega al modelo, en qué orden, con qué permisos, con qué formato y con qué límites. En aplicaciones reales, el contexto puede incluir instrucciones del sistema, perfil del usuario, historial, documentos recuperados, resultados de herramientas y memoria.

En AIF-C01 debes asociar este concepto con aplicaciones de modelos fundacionales: no se trata solo de “preguntar mejor”, sino de construir un sistema que proporcione al modelo el contexto correcto de forma segura y eficiente.

12. RAG: recuperación aumentada por generación

RAG combina recuperación de información con generación. Primero se busca información relevante en una base de conocimiento o repositorio documental. Después se entrega ese contexto al modelo para que genere una respuesta fundamentada.

RAG es especialmente útil cuando:

La información cambia con frecuencia.
El modelo necesita responder sobre documentación interna.
Se quiere reducir la probabilidad de alucinaciones.
Se necesitan respuestas basadas en fuentes autorizadas.
No se quiere reajustar el modelo cada vez que cambia un documento.

Escenario típico: una empresa quiere un asistente que responda sobre políticas internas que cambian cada mes. La mejor respuesta suele ser RAG o Knowledge Bases for Amazon Bedrock, no entrenar desde cero ni confiar en conocimiento preentrenado.

13. Ciclo de vida de un modelo fundacional

El ciclo de vida de un modelo fundacional puede incluir selección de datos, preentrenamiento, selección de modelo, personalización, evaluación, despliegue, monitorización y feedback. En un rol practitioner no necesitas construir un modelo fundacional desde cero, pero sí entender qué ocurre en cada fase y qué decisiones de negocio o seguridad aparecen.

Fase	Qué ocurre	Qué suele preguntar el examen
Selección de datos	Se eligen datos relevantes, representativos y adecuados.	Calidad, sesgo, privacidad y permisos.
Preentrenamiento	El modelo aprende patrones generales a gran escala.	Es costoso y reservado a casos avanzados.
Selección de modelo	Se elige un FM según coste, calidad, latencia, modalidad y contexto.	No siempre gana el modelo más grande.
Prompt / RAG / ajuste	Se adapta el comportamiento o conocimiento al caso de uso.	Elegir el enfoque adecuado según el problema.
Evaluación	Se prueba calidad, seguridad, factualidad, coste y experiencia.	No basta con una demo; hay que evaluar escenarios reales.
Despliegue y feedback	Se pone en producción y se monitoriza uso, errores y valor.	Medir y mejorar continuamente.

14. IA agéntica y uso de herramientas

La IA agéntica se refiere a sistemas que pueden planificar pasos, usar herramientas, consultar APIs, mantener memoria o coordinar varios agentes para completar tareas. Un asistente simple responde texto. Un agente puede, por ejemplo, consultar el estado de un pedido, crear un ticket o invocar una función externa.

Para AIF-C01, debes entender los conceptos base: uso de herramientas, orquestación de flujos, memoria, comunicación entre agentes, permisos y validación antes de ejecutar acciones reales.

Importante: si un agente ejecuta acciones con impacto real, como crear pedidos o modificar datos, debe haber controles: confirmación del usuario, validación de parámetros, mínimo privilegio, registro de actividad y límites claros.

15. Coste basado en tokens

En muchas soluciones de IA generativa, el coste se ve afectado por los tokens procesados. Esto incluye tokens de entrada, tokens de salida y, según el servicio o configuración, capacidad aprovisionada, rendimiento, disponibilidad, región o personalización del modelo.

La idea práctica es sencilla: no envíes todo siempre. Envía lo necesario. Un buen diseño reduce ruido, coste y latencia.

Decisión	Efecto positivo	Riesgo si se hace mal
Reducir contexto innecesario	Menos coste y menor latencia.	Quitar contexto necesario puede empeorar calidad.
Elegir modelo más pequeño	Puede ser más barato y rápido.	Puede no tener calidad suficiente para tareas complejas.
Limitar salida	Controla coste y formato.	Puede producir respuestas incompletas si el límite es demasiado bajo.
Usar RAG selectivo	Recupera solo fragmentos relevantes.	Si retrieval falla, la respuesta puede ser pobre.

16. Servicios AWS que debes asociar

Este módulo no es una lista profunda de servicios, pero conviene asociar los conceptos con tecnologías que aparecen en AIF-C01.

Amazon Bedrock

Servicio administrado para crear aplicaciones de IA generativa con modelos fundacionales de AWS y terceros mediante API.

Knowledge Bases for Amazon Bedrock

Permite implementar RAG conectando modelos con fuentes de conocimiento y recuperación de información.

Agents for Amazon Bedrock

Permite crear agentes que orquestan pasos y llaman herramientas o APIs para completar tareas.

Guardrails for Amazon Bedrock

Ayuda a aplicar límites, filtros de contenido, temas denegados y políticas de seguridad en aplicaciones GenAI.

Amazon SageMaker AI

Servicio para construir, entrenar, ajustar, evaluar y desplegar modelos de machine learning cuando necesitas más control.

Amazon Q

Asistente generativo de AWS orientado a productividad, desarrollo, negocio y consulta de información según el contexto del servicio.

17. Cómo razonar preguntas de examen

Si el escenario dice...	Piensa en...	Evita caer en...
Documento largo que no cabe	Tokens, ventana de contexto, chunking o RAG.	Aumentar tokens sin estrategia.
Búsqueda por significado	Embeddings, vectores y base vectorial.	Búsqueda exacta por palabras como única opción.
Conocimiento interno cambiante	RAG / Knowledge Bases.	Fine-tuning o entrenamiento desde cero como primera opción.
Formato o tono incorrecto	Prompt engineering, ejemplos o few-shot.	Usar RAG si el problema no es conocimiento.
Generación de imágenes	Modelos de difusión o modelos multimodales.	Confundirlo con clasificación o regresión.
Acciones externas	Agentes, herramientas, validación y permisos.	Dejar que el modelo ejecute acciones sin control.

18. Errores frecuentes

Confundir embeddings con el texto original. Un embedding es una representación numérica, no una copia legible del documento.
Pensar que RAG entrena el modelo. RAG aporta contexto en tiempo de inferencia; no cambia los pesos del modelo.
Usar fine-tuning para documentos que cambian continuamente. Para conocimiento cambiante suele encajar mejor RAG.
Creer que más contexto siempre mejora la respuesta. Más contexto puede aumentar coste, latencia y ruido.
Confundir LLM con modelo multimodal. Un LLM trabaja principalmente con lenguaje; multimodal implica varias modalidades.
Olvidar seguridad en agentes. Un agente que ejecuta acciones necesita permisos mínimos, validación y trazabilidad.

Resumen final

Los conceptos clave de IA generativa son la base para entender todo el resto del curso. Los tokens explican coste, latencia y ventana de contexto. El chunking permite dividir documentos para recuperación. Los embeddings y vectores permiten búsqueda semántica. Los LLM y transformers explican gran parte de los modelos de lenguaje modernos. Los modelos multimodales y de difusión amplían la generación a imágenes, audio y otros formatos. RAG conecta modelos con conocimiento externo y actualizado. Los agentes permiten que una aplicación no solo responda, sino que use herramientas.

Para el examen AIF-C01, recuerda esta regla práctica: si el problema es de conocimiento actualizado, piensa en RAG; si es de formato o instrucciones, piensa en prompt engineering; si es de búsqueda por significado, piensa en embeddings; si es de coste, piensa en tokens; si el modelo debe actuar sobre sistemas, piensa en agentes, herramientas y controles de seguridad.

← Anterior Capacidades y límites →