Ruta CLF-C02Dominio 3 · Tecnología y servicios AWSAnalítica e IA básica en AWS

Curso AWS Cloud Practitioner CLF-C02

31 módulos4 dominios
Preparación1
Dominio 12
Dominio 23
Dominio 34
Dominio 45
Estás en:
Preparación
Resumen del curso Estrategia de examen AWS CLF-C02
Dominio 1 · Conceptos cloud
Dominio 1 · Conceptos cloud Beneficios de cloud: agilidad, elasticidad, pago por uso y economía de escala Infraestructura global AWS: regiones, zonas de disponibilidad y edge locations AWS Well-Architected Framework: los pilares que debes dominar Migración a AWS: CAF, estrategias 7R, DMS, MGN y Snow Family
Dominio 2 · Seguridad y cumplimiento
Dominio 2 · Seguridad y cumplimiento Modelo de responsabilidad compartida IAM en AWS: identidades, permisos, roles, políticas y MFA Cifrado y protección de datos en AWS Servicios de seguridad AWS para CLF-C02 Monitorización, auditoría y gobierno: CloudWatch, CloudTrail y AWS Config AWS Organizations, cuentas y SCP para CLF-C02 Compliance, AWS Artifact y gobierno en AWS
Dominio 3 · Tecnología y servicios AWS
Dominio 3 · Tecnología y servicios AWS Amazon EC2, Auto Scaling y Elastic Load Balancing Amazon VPC: redes básicas en AWS para CLF-C02 Amazon S3: almacenamiento de objetos, clases, versioning, lifecycle y Glacier EBS, EFS, AWS Backup y Storage Gateway para CLF-C02 CloudFront, Route 53 y servicios edge para CLF-C02 Bases de datos AWS: RDS, Aurora, DynamoDB, Redshift y más Serverless y contenedores: Lambda, ECS, EKS y Fargate Integración de aplicaciones: SQS, SNS, EventBridge, API Gateway y Step Functions Herramientas de gestión y despliegue en AWS Analítica e IA básica en AWS: Athena, Glue, QuickSight, Kinesis y SageMaker Machine Learning e IA en AWS para CLF-C02
Dominio 4 · Facturación, precios y soporte
Dominio 4 · Facturación, precios y soporte Facturación, precios y soporte en AWS Optimización de costes en AWS para CLF-C02 Soporte, documentación y recursos de aprendizaje AWS para CLF-C02
Dominio 3 · Tecnología y servicios AWS

Analítica e IA básica en AWS

◷ 10 min

En AWS, los datos no solo se guardan: también se consultan, se transforman, se visualizan, se procesan en tiempo real y se usan para construir modelos de machine learning o soluciones de inteligencia artificial. Para CLF-C02 no necesitas ser ingeniero de datos ni científico de datos, pero sí debes reconocer qué servicio encaja con cada tipo de necesidad.

Este módulo te ayuda a ordenar los servicios más importantes de analítica e IA a nivel Cloud Practitioner: Amazon Athena, AWS Glue, Amazon QuickSight, Amazon Kinesis, Amazon EMR, Amazon Redshift y Amazon SageMaker.

Idea clave: no memorices nombres aislados. Aprende la intención de cada servicio: consultar, preparar, visualizar, procesar en streaming, hacer big data, usar data warehouse o crear modelos de machine learning.

1. El mapa mental: del dato al valor

Cuando una empresa trabaja con datos en AWS, normalmente sigue un recorrido parecido:

  1. Capturar datos: logs, eventos, clics, sensores, aplicaciones, transacciones.
  2. Guardar datos: muchas veces en Amazon S3 como data lake.
  3. Catalogar y preparar: entender qué datos hay, limpiarlos y transformarlos.
  4. Consultar o analizar: usar SQL, dashboards, BI o herramientas big data.
  5. Procesar en tiempo real: si los datos llegan continuamente.
  6. Aplicar ML o IA: construir modelos, detectar patrones o usar servicios inteligentes.

Cómo lo piensa el examen

Si la pregunta habla de “consultar datos en S3 con SQL”, piensa en Athena. Si habla de “ETL y catálogo”, piensa en Glue. Si habla de “dashboards”, QuickSight. Si habla de “streaming en tiempo real”, Kinesis. Si habla de “entrenar y desplegar modelos ML”, SageMaker.

2. Amazon Athena: SQL directamente sobre S3

Amazon Athena permite consultar datos almacenados en Amazon S3 usando SQL, sin tener que administrar servidores ni cargar previamente los datos en una base de datos tradicional.

Es muy típico en escenarios de data lake: una empresa guarda logs, ficheros CSV, JSON, Parquet u otros datos en S3 y quiere hacer consultas ad hoc con SQL.

  • Consulta datos directamente en S3.
  • Usa SQL.
  • No requiere administrar infraestructura.
  • Es útil para análisis ad hoc, logs y data lakes.
  • Suele apoyarse en Glue Data Catalog para metadatos.
Pista de examen: datos en S3 + SQL + sin servidores = Amazon Athena.

3. AWS Glue: ETL y catálogo de datos

AWS Glue es un servicio de integración de datos. Cuando veas palabras como preparar, transformar, extraer, cargar, catalogar o descubrir datos, Glue puede ser la respuesta.

Glue tiene dos ideas muy importantes para CLF-C02:

  • Glue Data Catalog: catálogo central de metadatos. Ayuda a saber qué datos existen, dónde están y cómo consultarlos.
  • ETL: procesos de extracción, transformación y carga de datos.

Ejemplo sencillo

Una empresa recibe ficheros en S3 y necesita transformarlos, limpiarlos y dejarlos preparados para análisis. Si el requisito habla de ETL o catálogo, piensa en AWS Glue.

4. Amazon QuickSight: dashboards y BI

Amazon QuickSight es el servicio de Business Intelligence de AWS. Sirve para crear dashboards, informes y visualizaciones para usuarios de negocio, analistas o equipos que necesitan entender datos de forma visual.

No lo confundas con Glue. QuickSight no es la herramienta principal para transformar datos. Su papel es visualizar, explorar y compartir información.

  • Dashboards.
  • Visualizaciones.
  • Informes de negocio.
  • Análisis BI.
  • Conexión a distintas fuentes de datos.
Pista de examen: si el escenario habla de cuadros de mando, visualizaciones, informes o BI, piensa en QuickSight.

5. Amazon Kinesis: datos en tiempo real

Amazon Kinesis se asocia con streaming de datos. Es decir, datos que llegan continuamente y que pueden necesitar procesamiento en tiempo real o casi real.

Ejemplos típicos: clics de usuarios, logs de aplicaciones, métricas, eventos de IoT, telemetría, actividad de una web o datos que no llegan en un fichero puntual, sino como flujo constante.

  • Ingesta y procesamiento de datos en streaming.
  • Eventos continuos.
  • Análisis en tiempo real.
  • Casos como logs, clics, IoT o telemetría.

Cómo reconocer Kinesis

Si la pregunta usa palabras como “real-time”, “streaming”, “eventos continuos”, “clics”, “logs en vivo” o “datos que llegan constantemente”, Kinesis suele ser una opción fuerte.

6. Amazon EMR: big data con Spark y Hadoop

Amazon EMR es un servicio para ejecutar frameworks de big data como Apache Spark, Hadoop, Hive o Presto de forma gestionada.

Para CLF-C02, no necesitas administrar clusters EMR, pero sí reconocer que EMR aparece cuando el escenario habla de procesamiento distribuido, big data, Spark o Hadoop.

  • Procesamiento big data.
  • Frameworks como Spark y Hadoop.
  • Procesamiento distribuido.
  • Grandes volúmenes de datos.
Pista de examen: Spark, Hadoop o procesamiento distribuido de big data = Amazon EMR.

7. Amazon Redshift: data warehouse

Amazon Redshift es el data warehouse de AWS. Se usa para analítica a gran escala, informes empresariales, BI y consultas complejas sobre grandes volúmenes de datos estructurados o semiestructurados.

No lo confundas con RDS. RDS está orientado a bases de datos relacionales transaccionales. Redshift está orientado a analítica y data warehousing.

ServicioCuándo pensarlo
Amazon RDSAplicaciones transaccionales, bases SQL operativas, datos del día a día.
Amazon RedshiftData warehouse, analítica, BI, grandes volúmenes, reporting empresarial.
Amazon AthenaConsultas SQL directamente sobre datos en S3, sin cargar un warehouse.

8. Amazon SageMaker: machine learning gestionado

Amazon SageMaker ayuda a crear, entrenar y desplegar modelos de machine learning. En CLF-C02 basta con reconocerlo como el servicio gestionado de AWS para el ciclo de vida de modelos ML.

SageMaker no es un dashboard de BI, no es una cola, no es una base de datos y no es un servicio de DNS. Es el servicio que debes asociar con machine learning cuando el escenario habla de entrenamiento, despliegue o construcción de modelos.

  • Preparar datos para machine learning.
  • Construir modelos.
  • Entrenar modelos.
  • Desplegar modelos para inferencia.
  • Gestionar el ciclo de vida ML.
Pista de examen: crear, entrenar y desplegar modelos ML = Amazon SageMaker.

9. IA aplicada: reconocer servicios inteligentes

AWS también ofrece servicios de IA ya preparados para casos concretos. En CLF-C02 pueden aparecer como opciones, y conviene reconocerlos por su función principal.

ServicioUso principalPista típica
Amazon RekognitionAnálisis de imágenes y vídeo.Detectar objetos, caras, moderación visual.
Amazon ComprehendProcesamiento de lenguaje natural.Sentimiento, entidades, texto, NLP.
Amazon PollyTexto a voz.Convertir texto en audio hablado.
Amazon TranscribeVoz a texto.Transcribir audio a texto.
Amazon TranslateTraducción automática.Traducir texto entre idiomas.
Amazon TextractExtracción de texto y datos de documentos.Leer formularios, PDFs, documentos escaneados.
Amazon BedrockIA generativa con modelos fundacionales.Foundation models, generación de texto, RAG, GenAI.

10. Comparativa rápida para examen

ConceptoCuándo elegirloPista típica en CLF-C02
AthenaSQL serverless sobre S3.Consultar logs o data lake sin servidores.
GlueETL y catálogo de datos.Preparar, transformar y catalogar datos.
QuickSightBI y dashboards.Visualizaciones, informes, análisis para negocio.
KinesisStreaming en tiempo real.Eventos, clics, logs, datos continuos.
EMRBig data gestionado.Spark, Hadoop, procesamiento distribuido.
RedshiftData warehouse.BI empresarial, analítica a gran escala, reporting.
SageMakerMachine learning gestionado.Crear, entrenar y desplegar modelos ML.
BedrockIA generativa.Modelos fundacionales, GenAI, RAG.

11. Diferencias que suelen confundir

  • Athena vs Redshift: Athena consulta datos en S3 de forma serverless; Redshift es un data warehouse para analítica a gran escala.
  • Glue vs QuickSight: Glue prepara, transforma y cataloga datos; QuickSight visualiza y crea dashboards.
  • Kinesis vs SQS: Kinesis se asocia a streaming de datos; SQS se asocia a colas para desacoplar aplicaciones.
  • EMR vs Glue: EMR ejecuta frameworks big data como Spark/Hadoop; Glue se asocia a ETL gestionado y catálogo.
  • SageMaker vs QuickSight: SageMaker es machine learning; QuickSight es BI y visualización.
  • Rekognition vs Comprehend: Rekognition analiza imágenes/vídeo; Comprehend analiza texto.
  • Polly vs Transcribe: Polly convierte texto en voz; Transcribe convierte voz en texto.

12. Cómo estudiar este módulo

Te recomiendo estudiar por preguntas de negocio, no por nombres:

  • ¿Quiero consultar datos en S3 con SQL? Athena.
  • ¿Quiero preparar, transformar o catalogar datos? Glue.
  • ¿Quiero dashboards para negocio? QuickSight.
  • ¿Quiero procesar datos que llegan continuamente? Kinesis.
  • ¿Quiero ejecutar Spark o Hadoop? EMR.
  • ¿Quiero un data warehouse? Redshift.
  • ¿Quiero crear, entrenar y desplegar modelos ML? SageMaker.
  • ¿Quiero IA generativa con modelos fundacionales? Bedrock.

Escenario tipo examen

Si una empresa tiene datos en S3 y quiere consultarlos con SQL, piensa en Athena. Si quiere dashboards, QuickSight. Si recibe datos continuos en tiempo real, Kinesis. Si quiere preparar y catalogar datos, Glue. Si quiere entrenar modelos, SageMaker.

13. Errores típicos

  • Confundir Athena con Redshift.
  • Elegir QuickSight para transformar datos cuando el requisito es ETL.
  • Olvidar Kinesis cuando el escenario habla de streaming en tiempo real.
  • Pensar que SageMaker es una herramienta de dashboards.
  • Confundir Glue Data Catalog con una herramienta de visualización.
  • Elegir EMR cuando el escenario solo pide SQL sobre S3 y no big data distribuido.
  • Confundir Rekognition, Comprehend, Polly, Transcribe y Translate.

14. Cómo saber si dominas este módulo

Vas bien si puedes responder sin mirar apuntes:

  • Qué servicio usarías para SQL sobre S3.
  • Qué servicio usarías para ETL y catálogo de datos.
  • Qué servicio usarías para dashboards e informes.
  • Qué servicio usarías para datos en streaming.
  • Qué diferencia hay entre Athena y Redshift.
  • Qué diferencia hay entre Glue y QuickSight.
  • Qué servicio usarías para entrenar modelos de machine learning.
  • Qué servicios se asocian a imagen, texto, voz, traducción e IA generativa.

Test del módulo · preguntas de repaso

1. Una empresa tiene datos en S3 y necesita consultarlos con SQL sin administrar servidores. ¿Qué servicio usarías?
  1. Amazon Athena
  2. Amazon EC2
  3. AWS Shield
  4. Amazon EBS
Ver respuesta y explicación

Respuesta: A. Athena permite ejecutar consultas SQL directamente sobre datos almacenados en S3 sin administrar infraestructura.

2. ¿Qué servicio se asocia a dashboards, informes y Business Intelligence?
  1. Amazon QuickSight
  2. AWS Config
  3. AWS CloudTrail
  4. Amazon SQS
Ver respuesta y explicación

Respuesta: A. QuickSight se usa para crear visualizaciones, dashboards e informes de negocio.

3. ¿Qué servicio se usa para streaming de datos en tiempo real?
  1. Amazon Kinesis
  2. AWS Artifact
  3. Amazon Route 53
  4. AWS Backup
Ver respuesta y explicación

Respuesta: A. Kinesis se asocia a la ingesta y procesamiento de datos en streaming.

4. ¿Qué servicio ayuda con ETL y catálogo de datos?
  1. AWS Glue
  2. AWS IAM
  3. AWS WAF
  4. Amazon CloudFront
Ver respuesta y explicación

Respuesta: A. Glue proporciona capacidades de ETL y Glue Data Catalog para metadatos.

5. ¿Qué servicio ayuda a crear, entrenar y desplegar modelos de machine learning?
  1. Amazon SageMaker
  2. Amazon EFS
  3. AWS Organizations
  4. AWS Snowball
Ver respuesta y explicación

Respuesta: A. SageMaker es el servicio gestionado de AWS para construir, entrenar y desplegar modelos ML.

6. Una empresa necesita ejecutar procesamiento big data con Spark o Hadoop. ¿Qué servicio encaja?
  1. Amazon EMR
  2. Amazon Route 53
  3. AWS Budgets
  4. Amazon CloudFront
Ver respuesta y explicación

Respuesta: A. EMR permite ejecutar frameworks de big data como Spark y Hadoop de forma gestionada.

7. Una empresa quiere detectar objetos en imágenes. ¿Qué servicio debería considerar?
  1. Amazon Rekognition
  2. Amazon Comprehend
  3. Amazon Polly
  4. AWS Cost Explorer
Ver respuesta y explicación

Respuesta: A. Rekognition se utiliza para análisis de imágenes y vídeo.

Resumen final

La analítica y la IA en AWS pueden parecer un bloque enorme, pero para CLF-C02 lo importante es reconocer patrones. No necesitas construir un data lake completo ni entrenar modelos complejos: necesitas saber qué servicio resuelve cada tipo de problema.

Recuerda las asociaciones principales: Athena consulta S3 con SQL; Glue prepara y cataloga datos; QuickSight visualiza; Kinesis procesa streaming; EMR ejecuta big data; Redshift es data warehouse; SageMaker es machine learning; Bedrock es IA generativa.

Tu siguiente paso: continúa con el módulo de Machine Learning e IA para reforzar los servicios inteligentes que suelen aparecer como opciones en el examen.