RAG, embeddings y bases vectoriales en AWS para AIF-C01

Dominio 3 · Modelos fundacionales

RAG, embeddings y bases vectoriales en AWS

◷ 35 min

RAG significa Retrieval-Augmented Generation, o generación aumentada por recuperación. Es uno de los patrones más importantes para construir aplicaciones con modelos fundacionales cuando el modelo necesita responder usando documentación interna, información actualizada o conocimiento específico de una empresa. Para AIF-C01 debes entender el flujo completo: documentos, fragmentación, embeddings, base vectorial, recuperación, contexto y generación.

RAG Embeddings Chunking Vector store Búsqueda semántica Knowledge Bases

Pista de examen: si el escenario dice que el modelo inventa respuestas, no conoce documentos internos, necesita fuentes actualizadas o debe responder usando documentación corporativa, normalmente debes pensar en RAG antes que en entrenar un modelo desde cero.

1. El problema que resuelve RAG

Un modelo fundacional puede razonar y generar texto con fluidez, pero no conoce automáticamente los documentos privados de una organización. Tampoco está necesariamente actualizado con la última versión de una política, contrato, manual técnico o procedimiento interno. RAG resuelve este problema conectando el modelo a una fuente externa de conocimiento en el momento de la consulta.

Sin RAG

El modelo responde con su conocimiento preentrenado y con lo que aparezca en el prompt. Si no tiene la información, puede quedarse corto o alucinar.

Con RAG

La aplicación busca primero fragmentos relevantes en una base de conocimiento y se los pasa al modelo como contexto para generar una respuesta más fundamentada.

Ventaja principal

Permite usar información interna o actualizada sin reentrenar el modelo cada vez que cambia un documento.

Límite importante

RAG no garantiza automáticamente respuestas perfectas. La calidad depende de documentos, chunking, embeddings, recuperación, permisos y prompt.

2. Flujo completo de una solución RAG

Para el examen, debes ser capaz de ordenar mentalmente las fases. RAG no es solo “usar una base vectorial”; es una arquitectura completa.

1Ingesta de documentos. Se cargan documentos desde fuentes como Amazon S3, repositorios internos, wikis, manuales, PDFs o bases documentales.

2Preparación y limpieza. Se eliminan contenidos irrelevantes, duplicados, formatos problemáticos y datos que no deberían indexarse.

3Chunking o fragmentación. Los documentos se dividen en fragmentos más pequeños para facilitar la recuperación precisa.

4Embeddings. Cada fragmento se convierte en un vector numérico que representa su significado semántico.

5Almacenamiento vectorial. Los vectores y sus metadatos se guardan en una base vectorial o motor compatible.

6Consulta del usuario. La pregunta también se convierte en embedding y se compara con los vectores almacenados.

7Recuperación. Se devuelven los fragmentos más relevantes y autorizados para ese usuario.

8Generación. El modelo recibe la pregunta, los fragmentos recuperados y las instrucciones para construir la respuesta.

3. Qué son los embeddings

Un embedding es una representación numérica de un texto, imagen u otro contenido. La idea es que contenidos con significado parecido queden cerca en un espacio vectorial. Esto permite hacer búsqueda semántica: no se busca solo por palabras exactas, sino por significado.

Concepto	Explicación	Idea de examen
Token	Unidad de texto que procesa el modelo. Puede ser una palabra, parte de una palabra o símbolo.	Afecta a coste, latencia y límites de contexto.
Embedding	Vector numérico que captura significado semántico.	Clave para búsqueda semántica y RAG.
Vector	Lista de números que representa un contenido en un espacio multidimensional.	Se compara con otros vectores para encontrar similitud.
Similarity search	Búsqueda de los vectores más cercanos a la consulta.	Permite recuperar fragmentos relevantes aunque no usen las mismas palabras exactas.

Ejemplo sencillo: una pregunta como “¿cómo solicito vacaciones?” podría recuperar fragmentos de una política titulada “procedimiento de ausencias”, aunque la palabra “vacaciones” no aparezca exactamente en el título. Eso es búsqueda semántica.

4. Chunking: por qué dividir documentos es tan importante

El chunking consiste en dividir documentos en fragmentos. Si los fragmentos son demasiado pequeños, pierden contexto. Si son demasiado grandes, recuperan demasiado texto irrelevante, encarecen la petición y pueden confundir al modelo.

Estrategia	Ventaja	Riesgo
Chunks pequeños	Recuperación más precisa y menor coste por contexto.	Pueden perder información necesaria para entender el significado completo.
Chunks grandes	Conservan más contexto del documento original.	Pueden introducir ruido, subir coste y empeorar la relevancia.
Overlap	Solapa parte del texto entre fragmentos para no cortar ideas importantes.	Puede duplicar información y aumentar almacenamiento/tokens.
Metadatos	Permiten filtrar por fecha, área, idioma, confidencialidad o tipo de documento.	Si están mal definidos, la recuperación puede ser incorrecta.

Cómo puede preguntarlo AIF-C01

Si un RAG devuelve respuestas incompletas porque los fragmentos no tienen contexto, revisa el tamaño de chunk y el overlap. Si devuelve texto irrelevante, revisa chunking, metadatos y estrategia de recuperación.

5. Base vectorial: qué almacena realmente

Una base vectorial no almacena “inteligencia” por sí misma. Almacena vectores, referencias a los fragmentos originales y metadatos. Su función es permitir búsquedas rápidas por similitud.

Normalmente guarda:

El vector del fragmento.
El texto o referencia al fragmento original.
Metadatos como documento, fecha, versión, departamento, idioma o nivel de confidencialidad.
Información útil para filtrar resultados antes de entregar contexto al modelo.

6. Opciones en AWS para almacenar vectores

En AWS, las soluciones RAG pueden apoyarse en varios servicios. Para AIF-C01 no necesitas diseñar índices en detalle, pero sí reconocer qué servicio puede aparecer asociado a búsqueda vectorial o RAG.

Servicio	Uso típico	Qué recordar para el examen
Knowledge Bases for Amazon Bedrock	Patrón RAG administrado conectado a fuentes de datos y modelos de Bedrock.	Respuesta habitual cuando el escenario pide RAG gestionado sobre documentos empresariales.
Amazon OpenSearch Service / Serverless	Búsqueda vectorial, búsqueda semántica y búsqueda híbrida.	Puede actuar como almacén vectorial para recuperación.
Amazon Aurora PostgreSQL / Amazon RDS for PostgreSQL con pgvector	Aplicaciones que combinan datos relacionales con búsquedas vectoriales.	Útil si ya existe una arquitectura relacional y se necesitan vectores.
Amazon Neptune Analytics	Escenarios donde se combinan relaciones, grafos y análisis avanzado.	Puede aparecer cuando el contexto incluye relaciones complejas entre entidades.
Amazon S3	Almacenamiento de documentos originales.	S3 no es una base vectorial por sí mismo; suele ser fuente de documentos.

7. RAG administrado con Knowledge Bases for Amazon Bedrock

Knowledge Bases for Amazon Bedrock simplifica la creación de aplicaciones RAG. Permite conectar fuentes de datos, generar embeddings, sincronizar documentos, almacenar vectores en opciones compatibles y recuperar información relevante para responder con modelos fundacionales.

Qué simplifica

Ingesta, sincronización, embeddings, recuperación y conexión con modelos de Amazon Bedrock.

Cuándo elegirlo

Cuando el escenario pide una forma administrada de responder con documentación interna sin construir todo el pipeline manualmente.

Qué no elimina

No elimina la necesidad de controlar permisos, calidad de documentos, privacidad, evaluación y gobernanza.

Trampa común

No es lo mismo que fine-tuning. RAG aporta contexto externo; fine-tuning adapta comportamiento del modelo.

8. Seguridad y control de acceso en RAG

Un error grave es recuperar documentos que el usuario no está autorizado a ver y confiar en que el modelo no los mostrará. El control de acceso debe aplicarse antes de que el contexto llegue al modelo.

Idea crítica: en una arquitectura RAG segura, el usuario solo debe recuperar fragmentos para los que tiene autorización. No basta con filtrar la respuesta final.

Controles importantes:

IAM y mínimo privilegio: la aplicación solo debe acceder a fuentes y acciones necesarias.
Filtrado por metadatos: departamento, confidencialidad, idioma, región, estado del documento o fecha.
Autorización por usuario: cada usuario debe recuperar solo lo que puede consultar.
Cifrado: proteger documentos, embeddings, índices y logs.
Auditoría: registrar consultas, documentos recuperados, versiones y respuestas generadas.
Privacidad: evitar indexar datos sensibles innecesarios o aplicar enmascaramiento.

9. RAG frente a fine-tuning

Una de las preguntas más típicas del examen es decidir entre RAG y fine-tuning. La clave es distinguir si el problema es conocimiento o comportamiento.

Situación	Mejor enfoque habitual	Motivo
La empresa quiere responder con documentación interna actualizada.	RAG.	El conocimiento cambia y debe recuperarse desde fuentes autorizadas.
El modelo responde bien, pero no sigue el tono corporativo.	Prompt engineering; si no basta, fine-tuning.	El problema es estilo o comportamiento, no falta de conocimiento.
Hay miles de ejemplos revisados de una tarea estable.	Fine-tuning o personalización.	Puede adaptar el patrón de respuesta del modelo.
La documentación cambia cada semana.	RAG.	Reentrenar o ajustar cada semana sería ineficiente.
Se necesita combinar documentos internos con respuesta generativa.	RAG con controles de acceso.	El modelo genera, pero la evidencia viene de documentos recuperados.

10. Búsqueda semántica, keyword search y búsqueda híbrida

La búsqueda semántica usa embeddings para encontrar significado. La búsqueda por palabras clave busca coincidencias literales. En muchas soluciones reales, una búsqueda híbrida puede combinar ambas para mejorar resultados.

Tipo de búsqueda	Cuándo encaja	Limitación
Keyword search	Cuando importan términos exactos, códigos, IDs, nombres de producto o referencias legales.	Puede fallar si el usuario usa sinónimos o lenguaje natural.
Vector search	Cuando importa el significado aunque las palabras sean distintas.	Puede traer resultados semánticamente cercanos pero no exactos.
Hybrid search	Cuando se necesitan coincidencias exactas y comprensión semántica.	Requiere ajustar ranking y filtros.

11. Calidad de datos y gobierno documental

RAG depende muchísimo de la calidad del contenido indexado. Si los documentos son contradictorios, antiguos o duplicados, la respuesta también puede ser confusa.

✓Documentos vigentes. Evita indexar versiones antiguas si el usuario debe recibir la política actual.

✓Metadatos fiables. Permiten filtrar por área, fecha, confidencialidad o tipo de documento.

✓Fuentes autorizadas. No todas las carpetas internas deberían alimentar la base de conocimiento.

✓Proceso de actualización. La base de conocimiento debe sincronizarse cuando cambian los documentos.

12. Evaluación de una solución RAG

Una solución RAG debe evaluarse con preguntas reales y casos límite. No basta con que el chatbot parezca responder bien en una demo.

Métrica o control	Qué mide	Por qué importa
Relevancia del retrieval	Si los fragmentos recuperados son los adecuados.	Si el contexto es malo, la respuesta generada será mala.
Factualidad	Si la respuesta está respaldada por las fuentes.	Reduce alucinaciones y errores.
Citación de fuentes	Si el usuario puede ver de dónde sale la respuesta.	Mejora confianza y revisión.
Latencia	Tiempo total de recuperación y generación.	RAG añade pasos y puede impactar experiencia de usuario.
Coste	Embeddings, almacenamiento vectorial, tokens de contexto y generación.	El contexto recuperado también cuesta.
Seguridad	Si los usuarios solo recuperan información autorizada.	Evita fugas de datos internos.

13. Errores frecuentes en preguntas de examen

Confundir RAG con entrenamiento. RAG recupera contexto; no cambia los pesos del modelo.
Usar fine-tuning para documentos que cambian a menudo. Si el conocimiento cambia, suele encajar mejor RAG.
Olvidar permisos en el retrieval. El control debe aplicarse antes de pasar contexto al modelo.
Enviar documentos completos al prompt. Es caro, lento y puede introducir ruido.
Ignorar chunking y metadatos. Son claves para recuperar fragmentos útiles.
Asumir que S3 es una base vectorial. S3 puede guardar documentos, pero no realiza búsqueda vectorial por sí solo.

14. Cómo razonar escenarios AIF-C01

Patrón mental rápido

Si el problema es “el modelo no conoce mis documentos”, piensa en RAG. Si el problema es “quiero que escriba con mi estilo”, empieza por prompt engineering. Si el problema es “tengo miles de ejemplos revisados y una tarea estable”, puede tener sentido fine-tuning. Si el problema es “cada usuario ve documentos distintos”, añade control de acceso en la recuperación.

Resumen final

RAG es uno de los patrones más importantes para usar modelos fundacionales con información empresarial. Permite conectar un modelo a documentación externa sin reentrenarlo, reducir alucinaciones y responder con información más actualizada. Pero su calidad depende de todo el pipeline: documentos, chunking, embeddings, base vectorial, retrieval, permisos, prompt y evaluación.

Para aprobar AIF-C01, quédate con esta idea: RAG no es simplemente “meter documentos al modelo”. Es recuperar fragmentos relevantes y autorizados, pasarlos como contexto y generar una respuesta controlada. Si el escenario menciona documentación interna, conocimiento actualizado, citación de fuentes o reducción de alucinaciones, RAG será una de las respuestas más probables.

← Anterior Prompt engineering →