RAG, embeddings y bases vectoriales en AWS
RAG significa Retrieval-Augmented Generation, o generación aumentada por recuperación. Es uno de los patrones más importantes para construir aplicaciones con modelos fundacionales cuando el modelo necesita responder usando documentación interna, información actualizada o conocimiento específico de una empresa. Para AIF-C01 debes entender el flujo completo: documentos, fragmentación, embeddings, base vectorial, recuperación, contexto y generación.
1. El problema que resuelve RAG
Un modelo fundacional puede razonar y generar texto con fluidez, pero no conoce automáticamente los documentos privados de una organización. Tampoco está necesariamente actualizado con la última versión de una política, contrato, manual técnico o procedimiento interno. RAG resuelve este problema conectando el modelo a una fuente externa de conocimiento en el momento de la consulta.
El modelo responde con su conocimiento preentrenado y con lo que aparezca en el prompt. Si no tiene la información, puede quedarse corto o alucinar.
La aplicación busca primero fragmentos relevantes en una base de conocimiento y se los pasa al modelo como contexto para generar una respuesta más fundamentada.
Permite usar información interna o actualizada sin reentrenar el modelo cada vez que cambia un documento.
RAG no garantiza automáticamente respuestas perfectas. La calidad depende de documentos, chunking, embeddings, recuperación, permisos y prompt.
2. Flujo completo de una solución RAG
Para el examen, debes ser capaz de ordenar mentalmente las fases. RAG no es solo “usar una base vectorial”; es una arquitectura completa.
3. Qué son los embeddings
Un embedding es una representación numérica de un texto, imagen u otro contenido. La idea es que contenidos con significado parecido queden cerca en un espacio vectorial. Esto permite hacer búsqueda semántica: no se busca solo por palabras exactas, sino por significado.
| Concepto | Explicación | Idea de examen |
|---|---|---|
| Token | Unidad de texto que procesa el modelo. Puede ser una palabra, parte de una palabra o símbolo. | Afecta a coste, latencia y límites de contexto. |
| Embedding | Vector numérico que captura significado semántico. | Clave para búsqueda semántica y RAG. |
| Vector | Lista de números que representa un contenido en un espacio multidimensional. | Se compara con otros vectores para encontrar similitud. |
| Similarity search | Búsqueda de los vectores más cercanos a la consulta. | Permite recuperar fragmentos relevantes aunque no usen las mismas palabras exactas. |
4. Chunking: por qué dividir documentos es tan importante
El chunking consiste en dividir documentos en fragmentos. Si los fragmentos son demasiado pequeños, pierden contexto. Si son demasiado grandes, recuperan demasiado texto irrelevante, encarecen la petición y pueden confundir al modelo.
| Estrategia | Ventaja | Riesgo |
|---|---|---|
| Chunks pequeños | Recuperación más precisa y menor coste por contexto. | Pueden perder información necesaria para entender el significado completo. |
| Chunks grandes | Conservan más contexto del documento original. | Pueden introducir ruido, subir coste y empeorar la relevancia. |
| Overlap | Solapa parte del texto entre fragmentos para no cortar ideas importantes. | Puede duplicar información y aumentar almacenamiento/tokens. |
| Metadatos | Permiten filtrar por fecha, área, idioma, confidencialidad o tipo de documento. | Si están mal definidos, la recuperación puede ser incorrecta. |
Cómo puede preguntarlo AIF-C01
Si un RAG devuelve respuestas incompletas porque los fragmentos no tienen contexto, revisa el tamaño de chunk y el overlap. Si devuelve texto irrelevante, revisa chunking, metadatos y estrategia de recuperación.
5. Base vectorial: qué almacena realmente
Una base vectorial no almacena “inteligencia” por sí misma. Almacena vectores, referencias a los fragmentos originales y metadatos. Su función es permitir búsquedas rápidas por similitud.
Normalmente guarda:
- El vector del fragmento.
- El texto o referencia al fragmento original.
- Metadatos como documento, fecha, versión, departamento, idioma o nivel de confidencialidad.
- Información útil para filtrar resultados antes de entregar contexto al modelo.
6. Opciones en AWS para almacenar vectores
En AWS, las soluciones RAG pueden apoyarse en varios servicios. Para AIF-C01 no necesitas diseñar índices en detalle, pero sí reconocer qué servicio puede aparecer asociado a búsqueda vectorial o RAG.
| Servicio | Uso típico | Qué recordar para el examen |
|---|---|---|
| Knowledge Bases for Amazon Bedrock | Patrón RAG administrado conectado a fuentes de datos y modelos de Bedrock. | Respuesta habitual cuando el escenario pide RAG gestionado sobre documentos empresariales. |
| Amazon OpenSearch Service / Serverless | Búsqueda vectorial, búsqueda semántica y búsqueda híbrida. | Puede actuar como almacén vectorial para recuperación. |
| Amazon Aurora PostgreSQL / Amazon RDS for PostgreSQL con pgvector | Aplicaciones que combinan datos relacionales con búsquedas vectoriales. | Útil si ya existe una arquitectura relacional y se necesitan vectores. |
| Amazon Neptune Analytics | Escenarios donde se combinan relaciones, grafos y análisis avanzado. | Puede aparecer cuando el contexto incluye relaciones complejas entre entidades. |
| Amazon S3 | Almacenamiento de documentos originales. | S3 no es una base vectorial por sí mismo; suele ser fuente de documentos. |
7. RAG administrado con Knowledge Bases for Amazon Bedrock
Knowledge Bases for Amazon Bedrock simplifica la creación de aplicaciones RAG. Permite conectar fuentes de datos, generar embeddings, sincronizar documentos, almacenar vectores en opciones compatibles y recuperar información relevante para responder con modelos fundacionales.
Ingesta, sincronización, embeddings, recuperación y conexión con modelos de Amazon Bedrock.
Cuando el escenario pide una forma administrada de responder con documentación interna sin construir todo el pipeline manualmente.
No elimina la necesidad de controlar permisos, calidad de documentos, privacidad, evaluación y gobernanza.
No es lo mismo que fine-tuning. RAG aporta contexto externo; fine-tuning adapta comportamiento del modelo.
8. Seguridad y control de acceso en RAG
Un error grave es recuperar documentos que el usuario no está autorizado a ver y confiar en que el modelo no los mostrará. El control de acceso debe aplicarse antes de que el contexto llegue al modelo.
Controles importantes:
- IAM y mínimo privilegio: la aplicación solo debe acceder a fuentes y acciones necesarias.
- Filtrado por metadatos: departamento, confidencialidad, idioma, región, estado del documento o fecha.
- Autorización por usuario: cada usuario debe recuperar solo lo que puede consultar.
- Cifrado: proteger documentos, embeddings, índices y logs.
- Auditoría: registrar consultas, documentos recuperados, versiones y respuestas generadas.
- Privacidad: evitar indexar datos sensibles innecesarios o aplicar enmascaramiento.
9. RAG frente a fine-tuning
Una de las preguntas más típicas del examen es decidir entre RAG y fine-tuning. La clave es distinguir si el problema es conocimiento o comportamiento.
| Situación | Mejor enfoque habitual | Motivo |
|---|---|---|
| La empresa quiere responder con documentación interna actualizada. | RAG. | El conocimiento cambia y debe recuperarse desde fuentes autorizadas. |
| El modelo responde bien, pero no sigue el tono corporativo. | Prompt engineering; si no basta, fine-tuning. | El problema es estilo o comportamiento, no falta de conocimiento. |
| Hay miles de ejemplos revisados de una tarea estable. | Fine-tuning o personalización. | Puede adaptar el patrón de respuesta del modelo. |
| La documentación cambia cada semana. | RAG. | Reentrenar o ajustar cada semana sería ineficiente. |
| Se necesita combinar documentos internos con respuesta generativa. | RAG con controles de acceso. | El modelo genera, pero la evidencia viene de documentos recuperados. |
10. Búsqueda semántica, keyword search y búsqueda híbrida
La búsqueda semántica usa embeddings para encontrar significado. La búsqueda por palabras clave busca coincidencias literales. En muchas soluciones reales, una búsqueda híbrida puede combinar ambas para mejorar resultados.
| Tipo de búsqueda | Cuándo encaja | Limitación |
|---|---|---|
| Keyword search | Cuando importan términos exactos, códigos, IDs, nombres de producto o referencias legales. | Puede fallar si el usuario usa sinónimos o lenguaje natural. |
| Vector search | Cuando importa el significado aunque las palabras sean distintas. | Puede traer resultados semánticamente cercanos pero no exactos. |
| Hybrid search | Cuando se necesitan coincidencias exactas y comprensión semántica. | Requiere ajustar ranking y filtros. |
11. Calidad de datos y gobierno documental
RAG depende muchísimo de la calidad del contenido indexado. Si los documentos son contradictorios, antiguos o duplicados, la respuesta también puede ser confusa.
12. Evaluación de una solución RAG
Una solución RAG debe evaluarse con preguntas reales y casos límite. No basta con que el chatbot parezca responder bien en una demo.
| Métrica o control | Qué mide | Por qué importa |
|---|---|---|
| Relevancia del retrieval | Si los fragmentos recuperados son los adecuados. | Si el contexto es malo, la respuesta generada será mala. |
| Factualidad | Si la respuesta está respaldada por las fuentes. | Reduce alucinaciones y errores. |
| Citación de fuentes | Si el usuario puede ver de dónde sale la respuesta. | Mejora confianza y revisión. |
| Latencia | Tiempo total de recuperación y generación. | RAG añade pasos y puede impactar experiencia de usuario. |
| Coste | Embeddings, almacenamiento vectorial, tokens de contexto y generación. | El contexto recuperado también cuesta. |
| Seguridad | Si los usuarios solo recuperan información autorizada. | Evita fugas de datos internos. |
13. Errores frecuentes en preguntas de examen
- Confundir RAG con entrenamiento. RAG recupera contexto; no cambia los pesos del modelo.
- Usar fine-tuning para documentos que cambian a menudo. Si el conocimiento cambia, suele encajar mejor RAG.
- Olvidar permisos en el retrieval. El control debe aplicarse antes de pasar contexto al modelo.
- Enviar documentos completos al prompt. Es caro, lento y puede introducir ruido.
- Ignorar chunking y metadatos. Son claves para recuperar fragmentos útiles.
- Asumir que S3 es una base vectorial. S3 puede guardar documentos, pero no realiza búsqueda vectorial por sí solo.
14. Cómo razonar escenarios AIF-C01
Patrón mental rápido
Si el problema es “el modelo no conoce mis documentos”, piensa en RAG. Si el problema es “quiero que escriba con mi estilo”, empieza por prompt engineering. Si el problema es “tengo miles de ejemplos revisados y una tarea estable”, puede tener sentido fine-tuning. Si el problema es “cada usuario ve documentos distintos”, añade control de acceso en la recuperación.
Resumen final
RAG es uno de los patrones más importantes para usar modelos fundacionales con información empresarial. Permite conectar un modelo a documentación externa sin reentrenarlo, reducir alucinaciones y responder con información más actualizada. Pero su calidad depende de todo el pipeline: documentos, chunking, embeddings, base vectorial, retrieval, permisos, prompt y evaluación.
Para aprobar AIF-C01, quédate con esta idea: RAG no es simplemente “meter documentos al modelo”. Es recuperar fragmentos relevantes y autorizados, pasarlos como contexto y generar una respuesta controlada. Si el escenario menciona documentación interna, conocimiento actualizado, citación de fuentes o reducción de alucinaciones, RAG será una de las respuestas más probables.