Analítica e IA en AWS: Athena, Glue, QuickSight, Kinesis y SageMaker

Dominio 3 · Tecnología y servicios AWS

Analítica e IA básica en AWS

◷ 10 min

En AWS, los datos no solo se guardan: también se consultan, se transforman, se visualizan, se procesan en tiempo real y se usan para construir modelos de machine learning o soluciones de inteligencia artificial. Para CLF-C02 no necesitas ser ingeniero de datos ni científico de datos, pero sí debes reconocer qué servicio encaja con cada tipo de necesidad.

Este módulo te ayuda a ordenar los servicios más importantes de analítica e IA a nivel Cloud Practitioner: Amazon Athena, AWS Glue, Amazon QuickSight, Amazon Kinesis, Amazon EMR, Amazon Redshift y Amazon SageMaker.

Idea clave: no memorices nombres aislados. Aprende la intención de cada servicio: consultar, preparar, visualizar, procesar en streaming, hacer big data, usar data warehouse o crear modelos de machine learning.

1. El mapa mental: del dato al valor

Cuando una empresa trabaja con datos en AWS, normalmente sigue un recorrido parecido:

Capturar datos: logs, eventos, clics, sensores, aplicaciones, transacciones.
Guardar datos: muchas veces en Amazon S3 como data lake.
Catalogar y preparar: entender qué datos hay, limpiarlos y transformarlos.
Consultar o analizar: usar SQL, dashboards, BI o herramientas big data.
Procesar en tiempo real: si los datos llegan continuamente.
Aplicar ML o IA: construir modelos, detectar patrones o usar servicios inteligentes.

Cómo lo piensa el examen

Si la pregunta habla de “consultar datos en S3 con SQL”, piensa en Athena. Si habla de “ETL y catálogo”, piensa en Glue. Si habla de “dashboards”, QuickSight. Si habla de “streaming en tiempo real”, Kinesis. Si habla de “entrenar y desplegar modelos ML”, SageMaker.

2. Amazon Athena: SQL directamente sobre S3

Amazon Athena permite consultar datos almacenados en Amazon S3 usando SQL, sin tener que administrar servidores ni cargar previamente los datos en una base de datos tradicional.

Es muy típico en escenarios de data lake: una empresa guarda logs, ficheros CSV, JSON, Parquet u otros datos en S3 y quiere hacer consultas ad hoc con SQL.

Consulta datos directamente en S3.
Usa SQL.
No requiere administrar infraestructura.
Es útil para análisis ad hoc, logs y data lakes.
Suele apoyarse en Glue Data Catalog para metadatos.

Pista de examen: datos en S3 + SQL + sin servidores = Amazon Athena.

3. AWS Glue: ETL y catálogo de datos

AWS Glue es un servicio de integración de datos. Cuando veas palabras como preparar, transformar, extraer, cargar, catalogar o descubrir datos, Glue puede ser la respuesta.

Glue tiene dos ideas muy importantes para CLF-C02:

Glue Data Catalog: catálogo central de metadatos. Ayuda a saber qué datos existen, dónde están y cómo consultarlos.
ETL: procesos de extracción, transformación y carga de datos.

Ejemplo sencillo

Una empresa recibe ficheros en S3 y necesita transformarlos, limpiarlos y dejarlos preparados para análisis. Si el requisito habla de ETL o catálogo, piensa en AWS Glue.

4. Amazon QuickSight: dashboards y BI

Amazon QuickSight es el servicio de Business Intelligence de AWS. Sirve para crear dashboards, informes y visualizaciones para usuarios de negocio, analistas o equipos que necesitan entender datos de forma visual.

No lo confundas con Glue. QuickSight no es la herramienta principal para transformar datos. Su papel es visualizar, explorar y compartir información.

Dashboards.
Visualizaciones.
Informes de negocio.
Análisis BI.
Conexión a distintas fuentes de datos.

Pista de examen: si el escenario habla de cuadros de mando, visualizaciones, informes o BI, piensa en QuickSight.

5. Amazon Kinesis: datos en tiempo real

Amazon Kinesis se asocia con streaming de datos. Es decir, datos que llegan continuamente y que pueden necesitar procesamiento en tiempo real o casi real.

Ejemplos típicos: clics de usuarios, logs de aplicaciones, métricas, eventos de IoT, telemetría, actividad de una web o datos que no llegan en un fichero puntual, sino como flujo constante.

Ingesta y procesamiento de datos en streaming.
Eventos continuos.
Análisis en tiempo real.
Casos como logs, clics, IoT o telemetría.

Cómo reconocer Kinesis

Si la pregunta usa palabras como “real-time”, “streaming”, “eventos continuos”, “clics”, “logs en vivo” o “datos que llegan constantemente”, Kinesis suele ser una opción fuerte.

6. Amazon EMR: big data con Spark y Hadoop

Amazon EMR es un servicio para ejecutar frameworks de big data como Apache Spark, Hadoop, Hive o Presto de forma gestionada.

Para CLF-C02, no necesitas administrar clusters EMR, pero sí reconocer que EMR aparece cuando el escenario habla de procesamiento distribuido, big data, Spark o Hadoop.

Procesamiento big data.
Frameworks como Spark y Hadoop.
Procesamiento distribuido.
Grandes volúmenes de datos.

Pista de examen: Spark, Hadoop o procesamiento distribuido de big data = Amazon EMR.

7. Amazon Redshift: data warehouse

Amazon Redshift es el data warehouse de AWS. Se usa para analítica a gran escala, informes empresariales, BI y consultas complejas sobre grandes volúmenes de datos estructurados o semiestructurados.

No lo confundas con RDS. RDS está orientado a bases de datos relacionales transaccionales. Redshift está orientado a analítica y data warehousing.

Servicio	Cuándo pensarlo
Amazon RDS	Aplicaciones transaccionales, bases SQL operativas, datos del día a día.
Amazon Redshift	Data warehouse, analítica, BI, grandes volúmenes, reporting empresarial.
Amazon Athena	Consultas SQL directamente sobre datos en S3, sin cargar un warehouse.

8. Amazon SageMaker: machine learning gestionado

Amazon SageMaker ayuda a crear, entrenar y desplegar modelos de machine learning. En CLF-C02 basta con reconocerlo como el servicio gestionado de AWS para el ciclo de vida de modelos ML.

SageMaker no es un dashboard de BI, no es una cola, no es una base de datos y no es un servicio de DNS. Es el servicio que debes asociar con machine learning cuando el escenario habla de entrenamiento, despliegue o construcción de modelos.

Preparar datos para machine learning.
Construir modelos.
Entrenar modelos.
Desplegar modelos para inferencia.
Gestionar el ciclo de vida ML.

Pista de examen: crear, entrenar y desplegar modelos ML = Amazon SageMaker.

9. IA aplicada: reconocer servicios inteligentes

AWS también ofrece servicios de IA ya preparados para casos concretos. En CLF-C02 pueden aparecer como opciones, y conviene reconocerlos por su función principal.

Servicio	Uso principal	Pista típica
Amazon Rekognition	Análisis de imágenes y vídeo.	Detectar objetos, caras, moderación visual.
Amazon Comprehend	Procesamiento de lenguaje natural.	Sentimiento, entidades, texto, NLP.
Amazon Polly	Texto a voz.	Convertir texto en audio hablado.
Amazon Transcribe	Voz a texto.	Transcribir audio a texto.
Amazon Translate	Traducción automática.	Traducir texto entre idiomas.
Amazon Textract	Extracción de texto y datos de documentos.	Leer formularios, PDFs, documentos escaneados.
Amazon Bedrock	IA generativa con modelos fundacionales.	Foundation models, generación de texto, RAG, GenAI.

10. Comparativa rápida para examen

Concepto	Cuándo elegirlo	Pista típica en CLF-C02
Athena	SQL serverless sobre S3.	Consultar logs o data lake sin servidores.
Glue	ETL y catálogo de datos.	Preparar, transformar y catalogar datos.
QuickSight	BI y dashboards.	Visualizaciones, informes, análisis para negocio.
Kinesis	Streaming en tiempo real.	Eventos, clics, logs, datos continuos.
EMR	Big data gestionado.	Spark, Hadoop, procesamiento distribuido.
Redshift	Data warehouse.	BI empresarial, analítica a gran escala, reporting.
SageMaker	Machine learning gestionado.	Crear, entrenar y desplegar modelos ML.
Bedrock	IA generativa.	Modelos fundacionales, GenAI, RAG.

11. Diferencias que suelen confundir

Athena vs Redshift: Athena consulta datos en S3 de forma serverless; Redshift es un data warehouse para analítica a gran escala.
Glue vs QuickSight: Glue prepara, transforma y cataloga datos; QuickSight visualiza y crea dashboards.
Kinesis vs SQS: Kinesis se asocia a streaming de datos; SQS se asocia a colas para desacoplar aplicaciones.
EMR vs Glue: EMR ejecuta frameworks big data como Spark/Hadoop; Glue se asocia a ETL gestionado y catálogo.
SageMaker vs QuickSight: SageMaker es machine learning; QuickSight es BI y visualización.
Rekognition vs Comprehend: Rekognition analiza imágenes/vídeo; Comprehend analiza texto.
Polly vs Transcribe: Polly convierte texto en voz; Transcribe convierte voz en texto.

12. Cómo estudiar este módulo

Te recomiendo estudiar por preguntas de negocio, no por nombres:

¿Quiero consultar datos en S3 con SQL? Athena.
¿Quiero preparar, transformar o catalogar datos? Glue.
¿Quiero dashboards para negocio? QuickSight.
¿Quiero procesar datos que llegan continuamente? Kinesis.
¿Quiero ejecutar Spark o Hadoop? EMR.
¿Quiero un data warehouse? Redshift.
¿Quiero crear, entrenar y desplegar modelos ML? SageMaker.
¿Quiero IA generativa con modelos fundacionales? Bedrock.

Escenario tipo examen

Si una empresa tiene datos en S3 y quiere consultarlos con SQL, piensa en Athena. Si quiere dashboards, QuickSight. Si recibe datos continuos en tiempo real, Kinesis. Si quiere preparar y catalogar datos, Glue. Si quiere entrenar modelos, SageMaker.

13. Errores típicos

Confundir Athena con Redshift.
Elegir QuickSight para transformar datos cuando el requisito es ETL.
Olvidar Kinesis cuando el escenario habla de streaming en tiempo real.
Pensar que SageMaker es una herramienta de dashboards.
Confundir Glue Data Catalog con una herramienta de visualización.
Elegir EMR cuando el escenario solo pide SQL sobre S3 y no big data distribuido.
Confundir Rekognition, Comprehend, Polly, Transcribe y Translate.

14. Cómo saber si dominas este módulo

Vas bien si puedes responder sin mirar apuntes:

Qué servicio usarías para SQL sobre S3.
Qué servicio usarías para ETL y catálogo de datos.
Qué servicio usarías para dashboards e informes.
Qué servicio usarías para datos en streaming.
Qué diferencia hay entre Athena y Redshift.
Qué diferencia hay entre Glue y QuickSight.
Qué servicio usarías para entrenar modelos de machine learning.
Qué servicios se asocian a imagen, texto, voz, traducción e IA generativa.

Test del módulo · preguntas de repaso

1. Una empresa tiene datos en S3 y necesita consultarlos con SQL sin administrar servidores. ¿Qué servicio usarías?

Amazon Athena
Amazon EC2
AWS Shield
Amazon EBS

Ver respuesta y explicación

Respuesta: A. Athena permite ejecutar consultas SQL directamente sobre datos almacenados en S3 sin administrar infraestructura.

2. ¿Qué servicio se asocia a dashboards, informes y Business Intelligence?

Amazon QuickSight
AWS Config
AWS CloudTrail
Amazon SQS

Ver respuesta y explicación

Respuesta: A. QuickSight se usa para crear visualizaciones, dashboards e informes de negocio.

3. ¿Qué servicio se usa para streaming de datos en tiempo real?

Amazon Kinesis
AWS Artifact
Amazon Route 53
AWS Backup

Ver respuesta y explicación

Respuesta: A. Kinesis se asocia a la ingesta y procesamiento de datos en streaming.

4. ¿Qué servicio ayuda con ETL y catálogo de datos?

AWS Glue
AWS IAM
AWS WAF
Amazon CloudFront

Ver respuesta y explicación

Respuesta: A. Glue proporciona capacidades de ETL y Glue Data Catalog para metadatos.

5. ¿Qué servicio ayuda a crear, entrenar y desplegar modelos de machine learning?

Amazon SageMaker
Amazon EFS
AWS Organizations
AWS Snowball

Ver respuesta y explicación

Respuesta: A. SageMaker es el servicio gestionado de AWS para construir, entrenar y desplegar modelos ML.

6. Una empresa necesita ejecutar procesamiento big data con Spark o Hadoop. ¿Qué servicio encaja?

Amazon EMR
Amazon Route 53
AWS Budgets
Amazon CloudFront

Ver respuesta y explicación

Respuesta: A. EMR permite ejecutar frameworks de big data como Spark y Hadoop de forma gestionada.

7. Una empresa quiere detectar objetos en imágenes. ¿Qué servicio debería considerar?

Amazon Rekognition
Amazon Comprehend
Amazon Polly
AWS Cost Explorer

Ver respuesta y explicación

Respuesta: A. Rekognition se utiliza para análisis de imágenes y vídeo.

Resumen final

La analítica y la IA en AWS pueden parecer un bloque enorme, pero para CLF-C02 lo importante es reconocer patrones. No necesitas construir un data lake completo ni entrenar modelos complejos: necesitas saber qué servicio resuelve cada tipo de problema.

Recuerda las asociaciones principales: Athena consulta S3 con SQL; Glue prepara y cataloga datos; QuickSight visualiza; Kinesis procesa streaming; EMR ejecuta big data; Redshift es data warehouse; SageMaker es machine learning; Bedrock es IA generativa.

Tu siguiente paso: continúa con el módulo de Machine Learning e IA para reforzar los servicios inteligentes que suelen aparecer como opciones en el examen.

← Herramientas de gestión y despliegue en AWS Machine Learning e IA en AWS para CLF-C02 →

Curso AWS Cloud Practitioner CLF-C02

Analítica e IA básica en AWS

1. El mapa mental: del dato al valor

Cómo lo piensa el examen

2. Amazon Athena: SQL directamente sobre S3

3. AWS Glue: ETL y catálogo de datos

Ejemplo sencillo

4. Amazon QuickSight: dashboards y BI

5. Amazon Kinesis: datos en tiempo real

Cómo reconocer Kinesis

6. Amazon EMR: big data con Spark y Hadoop

7. Amazon Redshift: data warehouse

8. Amazon SageMaker: machine learning gestionado

9. IA aplicada: reconocer servicios inteligentes

10. Comparativa rápida para examen

11. Diferencias que suelen confundir

12. Cómo estudiar este módulo

Escenario tipo examen

13. Errores típicos

14. Cómo saber si dominas este módulo

Test del módulo · preguntas de repaso

Resumen final