Analítica e IA básica en AWS
En AWS, los datos no solo se guardan: también se consultan, se transforman, se visualizan, se procesan en tiempo real y se usan para construir modelos de machine learning o soluciones de inteligencia artificial. Para CLF-C02 no necesitas ser ingeniero de datos ni científico de datos, pero sí debes reconocer qué servicio encaja con cada tipo de necesidad.
Este módulo te ayuda a ordenar los servicios más importantes de analítica e IA a nivel Cloud Practitioner: Amazon Athena, AWS Glue, Amazon QuickSight, Amazon Kinesis, Amazon EMR, Amazon Redshift y Amazon SageMaker.
1. El mapa mental: del dato al valor
Cuando una empresa trabaja con datos en AWS, normalmente sigue un recorrido parecido:
- Capturar datos: logs, eventos, clics, sensores, aplicaciones, transacciones.
- Guardar datos: muchas veces en Amazon S3 como data lake.
- Catalogar y preparar: entender qué datos hay, limpiarlos y transformarlos.
- Consultar o analizar: usar SQL, dashboards, BI o herramientas big data.
- Procesar en tiempo real: si los datos llegan continuamente.
- Aplicar ML o IA: construir modelos, detectar patrones o usar servicios inteligentes.
Cómo lo piensa el examen
Si la pregunta habla de “consultar datos en S3 con SQL”, piensa en Athena. Si habla de “ETL y catálogo”, piensa en Glue. Si habla de “dashboards”, QuickSight. Si habla de “streaming en tiempo real”, Kinesis. Si habla de “entrenar y desplegar modelos ML”, SageMaker.
2. Amazon Athena: SQL directamente sobre S3
Amazon Athena permite consultar datos almacenados en Amazon S3 usando SQL, sin tener que administrar servidores ni cargar previamente los datos en una base de datos tradicional.
Es muy típico en escenarios de data lake: una empresa guarda logs, ficheros CSV, JSON, Parquet u otros datos en S3 y quiere hacer consultas ad hoc con SQL.
- Consulta datos directamente en S3.
- Usa SQL.
- No requiere administrar infraestructura.
- Es útil para análisis ad hoc, logs y data lakes.
- Suele apoyarse en Glue Data Catalog para metadatos.
3. AWS Glue: ETL y catálogo de datos
AWS Glue es un servicio de integración de datos. Cuando veas palabras como preparar, transformar, extraer, cargar, catalogar o descubrir datos, Glue puede ser la respuesta.
Glue tiene dos ideas muy importantes para CLF-C02:
- Glue Data Catalog: catálogo central de metadatos. Ayuda a saber qué datos existen, dónde están y cómo consultarlos.
- ETL: procesos de extracción, transformación y carga de datos.
Ejemplo sencillo
Una empresa recibe ficheros en S3 y necesita transformarlos, limpiarlos y dejarlos preparados para análisis. Si el requisito habla de ETL o catálogo, piensa en AWS Glue.
4. Amazon QuickSight: dashboards y BI
Amazon QuickSight es el servicio de Business Intelligence de AWS. Sirve para crear dashboards, informes y visualizaciones para usuarios de negocio, analistas o equipos que necesitan entender datos de forma visual.
No lo confundas con Glue. QuickSight no es la herramienta principal para transformar datos. Su papel es visualizar, explorar y compartir información.
- Dashboards.
- Visualizaciones.
- Informes de negocio.
- Análisis BI.
- Conexión a distintas fuentes de datos.
5. Amazon Kinesis: datos en tiempo real
Amazon Kinesis se asocia con streaming de datos. Es decir, datos que llegan continuamente y que pueden necesitar procesamiento en tiempo real o casi real.
Ejemplos típicos: clics de usuarios, logs de aplicaciones, métricas, eventos de IoT, telemetría, actividad de una web o datos que no llegan en un fichero puntual, sino como flujo constante.
- Ingesta y procesamiento de datos en streaming.
- Eventos continuos.
- Análisis en tiempo real.
- Casos como logs, clics, IoT o telemetría.
Cómo reconocer Kinesis
Si la pregunta usa palabras como “real-time”, “streaming”, “eventos continuos”, “clics”, “logs en vivo” o “datos que llegan constantemente”, Kinesis suele ser una opción fuerte.
6. Amazon EMR: big data con Spark y Hadoop
Amazon EMR es un servicio para ejecutar frameworks de big data como Apache Spark, Hadoop, Hive o Presto de forma gestionada.
Para CLF-C02, no necesitas administrar clusters EMR, pero sí reconocer que EMR aparece cuando el escenario habla de procesamiento distribuido, big data, Spark o Hadoop.
- Procesamiento big data.
- Frameworks como Spark y Hadoop.
- Procesamiento distribuido.
- Grandes volúmenes de datos.
7. Amazon Redshift: data warehouse
Amazon Redshift es el data warehouse de AWS. Se usa para analítica a gran escala, informes empresariales, BI y consultas complejas sobre grandes volúmenes de datos estructurados o semiestructurados.
No lo confundas con RDS. RDS está orientado a bases de datos relacionales transaccionales. Redshift está orientado a analítica y data warehousing.
| Servicio | Cuándo pensarlo |
|---|---|
| Amazon RDS | Aplicaciones transaccionales, bases SQL operativas, datos del día a día. |
| Amazon Redshift | Data warehouse, analítica, BI, grandes volúmenes, reporting empresarial. |
| Amazon Athena | Consultas SQL directamente sobre datos en S3, sin cargar un warehouse. |
8. Amazon SageMaker: machine learning gestionado
Amazon SageMaker ayuda a crear, entrenar y desplegar modelos de machine learning. En CLF-C02 basta con reconocerlo como el servicio gestionado de AWS para el ciclo de vida de modelos ML.
SageMaker no es un dashboard de BI, no es una cola, no es una base de datos y no es un servicio de DNS. Es el servicio que debes asociar con machine learning cuando el escenario habla de entrenamiento, despliegue o construcción de modelos.
- Preparar datos para machine learning.
- Construir modelos.
- Entrenar modelos.
- Desplegar modelos para inferencia.
- Gestionar el ciclo de vida ML.
9. IA aplicada: reconocer servicios inteligentes
AWS también ofrece servicios de IA ya preparados para casos concretos. En CLF-C02 pueden aparecer como opciones, y conviene reconocerlos por su función principal.
| Servicio | Uso principal | Pista típica |
|---|---|---|
| Amazon Rekognition | Análisis de imágenes y vídeo. | Detectar objetos, caras, moderación visual. |
| Amazon Comprehend | Procesamiento de lenguaje natural. | Sentimiento, entidades, texto, NLP. |
| Amazon Polly | Texto a voz. | Convertir texto en audio hablado. |
| Amazon Transcribe | Voz a texto. | Transcribir audio a texto. |
| Amazon Translate | Traducción automática. | Traducir texto entre idiomas. |
| Amazon Textract | Extracción de texto y datos de documentos. | Leer formularios, PDFs, documentos escaneados. |
| Amazon Bedrock | IA generativa con modelos fundacionales. | Foundation models, generación de texto, RAG, GenAI. |
10. Comparativa rápida para examen
| Concepto | Cuándo elegirlo | Pista típica en CLF-C02 |
|---|---|---|
| Athena | SQL serverless sobre S3. | Consultar logs o data lake sin servidores. |
| Glue | ETL y catálogo de datos. | Preparar, transformar y catalogar datos. |
| QuickSight | BI y dashboards. | Visualizaciones, informes, análisis para negocio. |
| Kinesis | Streaming en tiempo real. | Eventos, clics, logs, datos continuos. |
| EMR | Big data gestionado. | Spark, Hadoop, procesamiento distribuido. |
| Redshift | Data warehouse. | BI empresarial, analítica a gran escala, reporting. |
| SageMaker | Machine learning gestionado. | Crear, entrenar y desplegar modelos ML. |
| Bedrock | IA generativa. | Modelos fundacionales, GenAI, RAG. |
11. Diferencias que suelen confundir
- Athena vs Redshift: Athena consulta datos en S3 de forma serverless; Redshift es un data warehouse para analítica a gran escala.
- Glue vs QuickSight: Glue prepara, transforma y cataloga datos; QuickSight visualiza y crea dashboards.
- Kinesis vs SQS: Kinesis se asocia a streaming de datos; SQS se asocia a colas para desacoplar aplicaciones.
- EMR vs Glue: EMR ejecuta frameworks big data como Spark/Hadoop; Glue se asocia a ETL gestionado y catálogo.
- SageMaker vs QuickSight: SageMaker es machine learning; QuickSight es BI y visualización.
- Rekognition vs Comprehend: Rekognition analiza imágenes/vídeo; Comprehend analiza texto.
- Polly vs Transcribe: Polly convierte texto en voz; Transcribe convierte voz en texto.
12. Cómo estudiar este módulo
Te recomiendo estudiar por preguntas de negocio, no por nombres:
- ¿Quiero consultar datos en S3 con SQL? Athena.
- ¿Quiero preparar, transformar o catalogar datos? Glue.
- ¿Quiero dashboards para negocio? QuickSight.
- ¿Quiero procesar datos que llegan continuamente? Kinesis.
- ¿Quiero ejecutar Spark o Hadoop? EMR.
- ¿Quiero un data warehouse? Redshift.
- ¿Quiero crear, entrenar y desplegar modelos ML? SageMaker.
- ¿Quiero IA generativa con modelos fundacionales? Bedrock.
Escenario tipo examen
Si una empresa tiene datos en S3 y quiere consultarlos con SQL, piensa en Athena. Si quiere dashboards, QuickSight. Si recibe datos continuos en tiempo real, Kinesis. Si quiere preparar y catalogar datos, Glue. Si quiere entrenar modelos, SageMaker.
13. Errores típicos
- Confundir Athena con Redshift.
- Elegir QuickSight para transformar datos cuando el requisito es ETL.
- Olvidar Kinesis cuando el escenario habla de streaming en tiempo real.
- Pensar que SageMaker es una herramienta de dashboards.
- Confundir Glue Data Catalog con una herramienta de visualización.
- Elegir EMR cuando el escenario solo pide SQL sobre S3 y no big data distribuido.
- Confundir Rekognition, Comprehend, Polly, Transcribe y Translate.
14. Cómo saber si dominas este módulo
Vas bien si puedes responder sin mirar apuntes:
- Qué servicio usarías para SQL sobre S3.
- Qué servicio usarías para ETL y catálogo de datos.
- Qué servicio usarías para dashboards e informes.
- Qué servicio usarías para datos en streaming.
- Qué diferencia hay entre Athena y Redshift.
- Qué diferencia hay entre Glue y QuickSight.
- Qué servicio usarías para entrenar modelos de machine learning.
- Qué servicios se asocian a imagen, texto, voz, traducción e IA generativa.
Test del módulo · preguntas de repaso
- Amazon Athena
- Amazon EC2
- AWS Shield
- Amazon EBS
Ver respuesta y explicación
Respuesta: A. Athena permite ejecutar consultas SQL directamente sobre datos almacenados en S3 sin administrar infraestructura.
- Amazon QuickSight
- AWS Config
- AWS CloudTrail
- Amazon SQS
Ver respuesta y explicación
Respuesta: A. QuickSight se usa para crear visualizaciones, dashboards e informes de negocio.
- Amazon Kinesis
- AWS Artifact
- Amazon Route 53
- AWS Backup
Ver respuesta y explicación
Respuesta: A. Kinesis se asocia a la ingesta y procesamiento de datos en streaming.
- AWS Glue
- AWS IAM
- AWS WAF
- Amazon CloudFront
Ver respuesta y explicación
Respuesta: A. Glue proporciona capacidades de ETL y Glue Data Catalog para metadatos.
- Amazon SageMaker
- Amazon EFS
- AWS Organizations
- AWS Snowball
Ver respuesta y explicación
Respuesta: A. SageMaker es el servicio gestionado de AWS para construir, entrenar y desplegar modelos ML.
- Amazon EMR
- Amazon Route 53
- AWS Budgets
- Amazon CloudFront
Ver respuesta y explicación
Respuesta: A. EMR permite ejecutar frameworks de big data como Spark y Hadoop de forma gestionada.
- Amazon Rekognition
- Amazon Comprehend
- Amazon Polly
- AWS Cost Explorer
Ver respuesta y explicación
Respuesta: A. Rekognition se utiliza para análisis de imágenes y vídeo.
Resumen final
La analítica y la IA en AWS pueden parecer un bloque enorme, pero para CLF-C02 lo importante es reconocer patrones. No necesitas construir un data lake completo ni entrenar modelos complejos: necesitas saber qué servicio resuelve cada tipo de problema.
Recuerda las asociaciones principales: Athena consulta S3 con SQL; Glue prepara y cataloga datos; QuickSight visualiza; Kinesis procesa streaming; EMR ejecuta big data; Redshift es data warehouse; SageMaker es machine learning; Bedrock es IA generativa.