Conceptos clave de IA generativa
La IA generativa es una rama de la inteligencia artificial capaz de crear contenido nuevo a partir de datos, instrucciones y contexto. Puede generar texto, código, imágenes, audio, resúmenes, respuestas conversacionales o recomendaciones. Para el examen AWS Certified AI Practitioner AIF-C01, este módulo es clave porque te ayuda a entender el vocabulario que aparece después en Amazon Bedrock, modelos fundacionales, RAG, agentes, guardrails, prompt engineering y evaluación de soluciones GenAI.
1. Qué significa realmente IA generativa
La IA generativa no se limita a clasificar algo como “sí” o “no”, ni solo a predecir un número. Su objetivo principal es generar una salida nueva a partir de una entrada. Esa salida puede ser un texto redactado, una explicación, una imagen, una respuesta de soporte, un fragmento de código, una traducción o una síntesis de un documento.
Esto no significa que el modelo “entienda” como una persona. El modelo aprende patrones estadísticos a gran escala y genera una salida probable según la entrada, el contexto, sus parámetros y el entrenamiento recibido. Esta diferencia es importante para entender sus ventajas y sus límites.
| Tipo de problema | Qué produce | Ejemplo |
|---|---|---|
| Clasificación | Una categoría. | Determinar si un email es spam o no spam. |
| Regresión | Un valor numérico. | Predecir la demanda esperada de un producto. |
| Clustering | Grupos o segmentos. | Agrupar clientes con comportamiento parecido. |
| IA generativa | Contenido nuevo. | Redactar una respuesta, resumir un contrato o generar una imagen. |
2. Modelos fundacionales
Un modelo fundacional o foundation model es un modelo de gran escala entrenado con grandes volúmenes de datos y que puede adaptarse a muchos casos de uso. A diferencia de un modelo clásico entrenado para una tarea muy concreta, un modelo fundacional puede servir como base para chatbots, resumen, extracción de información, generación de código, clasificación, razonamiento sobre documentos o creación de contenido.
Suele entrenarse para una tarea concreta: detectar fraude, predecir ventas, clasificar imágenes o estimar riesgo. Normalmente requiere datos específicos y una salida bien definida.
Sirve como base reutilizable para diferentes tareas. Puede adaptarse con prompt engineering, RAG, fine-tuning o integración con herramientas.
Un large language model es un modelo especializado en lenguaje natural. Puede generar, resumir, traducir, clasificar o razonar sobre texto.
Puede trabajar con más de un tipo de entrada o salida, por ejemplo texto e imagen, texto y audio, o imagen y descripción.
3. Tokens: la unidad básica de trabajo
Los modelos de lenguaje no procesan el texto exactamente como lo vemos los humanos. Lo convierten en tokens. Un token puede ser una palabra, parte de una palabra, un signo de puntuación o un fragmento de texto. Los tokens importan porque afectan al coste, la latencia, la ventana de contexto y la longitud máxima de las respuestas.
Por qué los tokens son importantes en el examen
- Coste: muchos servicios de IA generativa tienen modelos de precio relacionados con tokens de entrada y salida.
- Rendimiento: prompts más largos pueden tardar más en procesarse.
- Ventana de contexto: cada modelo tiene un límite de tokens que puede manejar en una interacción.
- Diseño: conviene enviar solo el contexto necesario, no documentos completos si no hacen falta.
Idea para memorizar:
más tokens = más contexto posible, pero también más coste, más latencia y más riesgo de introducir ruido.
4. Ventana de contexto
La ventana de contexto es la cantidad máxima de información que un modelo puede considerar en una petición o conversación. Incluye instrucciones del sistema, pregunta del usuario, historial, fragmentos recuperados, ejemplos y cualquier otro texto enviado al modelo.
Una ventana grande permite trabajar con más información, pero no significa automáticamente mejor calidad. Si se envía demasiado contexto irrelevante, el modelo puede distraerse, aumentar coste o responder de forma menos precisa.
| Situación | Problema | Diseño recomendado |
|---|---|---|
| Documento largo | Supera la ventana de contexto. | Dividir en fragmentos, resumir o usar RAG. |
| Contexto excesivo | Coste y latencia altos. | Recuperar solo la información relevante. |
| Conversación larga | El historial ocupa espacio. | Resumir historial o gestionar memoria. |
| Respuesta sensible | El contexto puede contener datos no autorizados. | Aplicar control de acceso antes de recuperar información. |
5. Chunking: dividir documentos en fragmentos útiles
Chunking significa dividir documentos grandes en fragmentos más pequeños para procesarlos, indexarlos o recuperarlos. Es un concepto fundamental en arquitecturas RAG, porque el sistema no suele enviar documentos completos al modelo: recupera fragmentos relevantes.
La dificultad está en elegir bien el tamaño del fragmento. Fragmentos demasiado pequeños pueden perder contexto. Fragmentos demasiado grandes pueden traer ruido o información innecesaria.
Pueden ser precisos, pero quizá no contienen suficiente contexto para responder bien. El modelo puede recibir frases sueltas sin explicación.
Pueden incluir contexto completo, pero también información irrelevante. Aumentan tokens, coste y riesgo de recuperar ruido.
Solapar ligeramente fragmentos ayuda a no cortar ideas importantes entre dos chunks.
Etiquetas como departamento, fecha, tipo de documento o permisos ayudan a filtrar y recuperar mejor.
Pregunta típica de examen
Una empresa usa RAG, pero las respuestas son incompletas. Los fragmentos recuperados son demasiado pequeños y pierden contexto. ¿Qué revisarías? La respuesta razonable es ajustar la estrategia de chunking, tamaño de fragmentos, overlap y recuperación, no entrenar desde cero un modelo fundacional.
6. Embeddings y vectores
Un embedding es una representación numérica de información. Convierte texto, imágenes u otros datos en vectores que capturan similitud semántica. Dicho de forma sencilla: permite comparar significado, no solo palabras exactas.
Esto es clave para búsqueda semántica. Si un usuario pregunta “¿cómo puedo recuperar mi contraseña?” y un documento dice “procedimiento de restablecimiento de credenciales”, una búsqueda tradicional por palabra exacta podría fallar. Una búsqueda basada en embeddings puede encontrar relación semántica entre ambas frases.
| Concepto | Qué significa | Para qué sirve |
|---|---|---|
| Embedding | Representación numérica de un contenido. | Comparar significado entre textos, imágenes o consultas. |
| Vector | Lista de números que representa el embedding. | Permite calcular cercanía o similitud. |
| Base vectorial | Sistema que almacena y busca vectores. | Recuperar fragmentos similares a la pregunta del usuario. |
| Búsqueda semántica | Búsqueda por significado. | Encontrar contenido relevante aunque use otras palabras. |
7. LLM y transformers
Un LLM es un modelo de lenguaje grande entrenado para trabajar con texto. Muchos LLM modernos se basan en arquitecturas tipo transformer, que permiten al modelo analizar relaciones entre tokens y prestar atención a partes relevantes del contexto.
No necesitas conocer las matemáticas internas para AIF-C01, pero sí debes entender la idea conceptual: los transformers permiten procesar lenguaje de forma eficiente y capturar relaciones dentro de secuencias largas de texto.
8. Modelos multimodales
Un modelo multimodal puede trabajar con más de una modalidad de datos. Por ejemplo, puede recibir una imagen y una pregunta, generar una descripción de una fotografía, analizar un gráfico o combinar texto e imagen para producir una respuesta.
| Modalidad | Ejemplo de entrada | Ejemplo de salida |
|---|---|---|
| Texto a texto | Pregunta o documento. | Respuesta, resumen o traducción. |
| Texto a imagen | Descripción de una escena. | Imagen generada. |
| Imagen a texto | Fotografía o diagrama. | Descripción o análisis del contenido. |
| Audio a texto | Grabación de voz. | Transcripción o resumen. |
9. Modelos de difusión
Los modelos de difusión se asocian habitualmente con generación de imágenes. A alto nivel, aprenden a crear una salida partiendo de ruido y refinándola progresivamente hasta obtener una imagen coherente con la instrucción del usuario.
Para el examen, no necesitas explicar ecuaciones ni arquitectura interna. Lo importante es reconocer que los modelos de difusión aparecen en generación visual, creación de imágenes, edición o síntesis de contenido visual.
10. Prompt engineering
El prompt engineering consiste en diseñar instrucciones de entrada para guiar al modelo. Un buen prompt define objetivo, contexto, formato esperado, restricciones, tono y ejemplos cuando sea necesario.
Ejemplo:
Actúa como asistente de soporte interno.
Responde solo con el contexto proporcionado.
Si la respuesta no aparece en el contexto, di: "No tengo información suficiente".
Devuelve la respuesta en máximo 5 líneas.
11. Context engineering
El context engineering va más allá de escribir un buen prompt. Consiste en diseñar qué información llega al modelo, en qué orden, con qué permisos, con qué formato y con qué límites. En aplicaciones reales, el contexto puede incluir instrucciones del sistema, perfil del usuario, historial, documentos recuperados, resultados de herramientas y memoria.
En AIF-C01 debes asociar este concepto con aplicaciones de modelos fundacionales: no se trata solo de “preguntar mejor”, sino de construir un sistema que proporcione al modelo el contexto correcto de forma segura y eficiente.
12. RAG: recuperación aumentada por generación
RAG combina recuperación de información con generación. Primero se busca información relevante en una base de conocimiento o repositorio documental. Después se entrega ese contexto al modelo para que genere una respuesta fundamentada.
RAG es especialmente útil cuando:
- La información cambia con frecuencia.
- El modelo necesita responder sobre documentación interna.
- Se quiere reducir la probabilidad de alucinaciones.
- Se necesitan respuestas basadas en fuentes autorizadas.
- No se quiere reajustar el modelo cada vez que cambia un documento.
13. Ciclo de vida de un modelo fundacional
El ciclo de vida de un modelo fundacional puede incluir selección de datos, preentrenamiento, selección de modelo, personalización, evaluación, despliegue, monitorización y feedback. En un rol practitioner no necesitas construir un modelo fundacional desde cero, pero sí entender qué ocurre en cada fase y qué decisiones de negocio o seguridad aparecen.
| Fase | Qué ocurre | Qué suele preguntar el examen |
|---|---|---|
| Selección de datos | Se eligen datos relevantes, representativos y adecuados. | Calidad, sesgo, privacidad y permisos. |
| Preentrenamiento | El modelo aprende patrones generales a gran escala. | Es costoso y reservado a casos avanzados. |
| Selección de modelo | Se elige un FM según coste, calidad, latencia, modalidad y contexto. | No siempre gana el modelo más grande. |
| Prompt / RAG / ajuste | Se adapta el comportamiento o conocimiento al caso de uso. | Elegir el enfoque adecuado según el problema. |
| Evaluación | Se prueba calidad, seguridad, factualidad, coste y experiencia. | No basta con una demo; hay que evaluar escenarios reales. |
| Despliegue y feedback | Se pone en producción y se monitoriza uso, errores y valor. | Medir y mejorar continuamente. |
14. IA agéntica y uso de herramientas
La IA agéntica se refiere a sistemas que pueden planificar pasos, usar herramientas, consultar APIs, mantener memoria o coordinar varios agentes para completar tareas. Un asistente simple responde texto. Un agente puede, por ejemplo, consultar el estado de un pedido, crear un ticket o invocar una función externa.
Para AIF-C01, debes entender los conceptos base: uso de herramientas, orquestación de flujos, memoria, comunicación entre agentes, permisos y validación antes de ejecutar acciones reales.
15. Coste basado en tokens
En muchas soluciones de IA generativa, el coste se ve afectado por los tokens procesados. Esto incluye tokens de entrada, tokens de salida y, según el servicio o configuración, capacidad aprovisionada, rendimiento, disponibilidad, región o personalización del modelo.
La idea práctica es sencilla: no envíes todo siempre. Envía lo necesario. Un buen diseño reduce ruido, coste y latencia.
| Decisión | Efecto positivo | Riesgo si se hace mal |
|---|---|---|
| Reducir contexto innecesario | Menos coste y menor latencia. | Quitar contexto necesario puede empeorar calidad. |
| Elegir modelo más pequeño | Puede ser más barato y rápido. | Puede no tener calidad suficiente para tareas complejas. |
| Limitar salida | Controla coste y formato. | Puede producir respuestas incompletas si el límite es demasiado bajo. |
| Usar RAG selectivo | Recupera solo fragmentos relevantes. | Si retrieval falla, la respuesta puede ser pobre. |
16. Servicios AWS que debes asociar
Este módulo no es una lista profunda de servicios, pero conviene asociar los conceptos con tecnologías que aparecen en AIF-C01.
Servicio administrado para crear aplicaciones de IA generativa con modelos fundacionales de AWS y terceros mediante API.
Permite implementar RAG conectando modelos con fuentes de conocimiento y recuperación de información.
Permite crear agentes que orquestan pasos y llaman herramientas o APIs para completar tareas.
Ayuda a aplicar límites, filtros de contenido, temas denegados y políticas de seguridad en aplicaciones GenAI.
Servicio para construir, entrenar, ajustar, evaluar y desplegar modelos de machine learning cuando necesitas más control.
Asistente generativo de AWS orientado a productividad, desarrollo, negocio y consulta de información según el contexto del servicio.
17. Cómo razonar preguntas de examen
| Si el escenario dice... | Piensa en... | Evita caer en... |
|---|---|---|
| Documento largo que no cabe | Tokens, ventana de contexto, chunking o RAG. | Aumentar tokens sin estrategia. |
| Búsqueda por significado | Embeddings, vectores y base vectorial. | Búsqueda exacta por palabras como única opción. |
| Conocimiento interno cambiante | RAG / Knowledge Bases. | Fine-tuning o entrenamiento desde cero como primera opción. |
| Formato o tono incorrecto | Prompt engineering, ejemplos o few-shot. | Usar RAG si el problema no es conocimiento. |
| Generación de imágenes | Modelos de difusión o modelos multimodales. | Confundirlo con clasificación o regresión. |
| Acciones externas | Agentes, herramientas, validación y permisos. | Dejar que el modelo ejecute acciones sin control. |
18. Errores frecuentes
- Confundir embeddings con el texto original. Un embedding es una representación numérica, no una copia legible del documento.
- Pensar que RAG entrena el modelo. RAG aporta contexto en tiempo de inferencia; no cambia los pesos del modelo.
- Usar fine-tuning para documentos que cambian continuamente. Para conocimiento cambiante suele encajar mejor RAG.
- Creer que más contexto siempre mejora la respuesta. Más contexto puede aumentar coste, latencia y ruido.
- Confundir LLM con modelo multimodal. Un LLM trabaja principalmente con lenguaje; multimodal implica varias modalidades.
- Olvidar seguridad en agentes. Un agente que ejecuta acciones necesita permisos mínimos, validación y trazabilidad.
Resumen final
Los conceptos clave de IA generativa son la base para entender todo el resto del curso. Los tokens explican coste, latencia y ventana de contexto. El chunking permite dividir documentos para recuperación. Los embeddings y vectores permiten búsqueda semántica. Los LLM y transformers explican gran parte de los modelos de lenguaje modernos. Los modelos multimodales y de difusión amplían la generación a imágenes, audio y otros formatos. RAG conecta modelos con conocimiento externo y actualizado. Los agentes permiten que una aplicación no solo responda, sino que use herramientas.
Para el examen AIF-C01, recuerda esta regla práctica: si el problema es de conocimiento actualizado, piensa en RAG; si es de formato o instrucciones, piensa en prompt engineering; si es de búsqueda por significado, piensa en embeddings; si es de coste, piensa en tokens; si el modelo debe actuar sobre sistemas, piensa en agentes, herramientas y controles de seguridad.