Dominio 1 · Fundamentos de IA y ML | AWS Certified AI Practitioner AIF-C01

Dominio 1 · Fundamentos IA/ML

Dominio 1 · Fundamentos de IA y ML

◷ 25 min

Este módulo abre el Dominio 1 del examen AWS Certified AI Practitioner AIF-C01. Su objetivo es que entiendas los fundamentos de inteligencia artificial y machine learning antes de entrar en IA generativa, modelos fundacionales, seguridad o gobernanza. En el examen no se espera que programes modelos complejos, pero sí que sepas interpretar escenarios, diferenciar conceptos, reconocer tipos de aprendizaje, identificar fases de un proyecto ML y asociar servicios de AWS al problema correcto.

IA Machine Learning Deep Learning Datos Entrenamiento Inferencia MLOps

Pista de examen: el Dominio 1 representa la base conceptual. Si fallas aquí, después se vuelve más difícil entender RAG, fine-tuning, evaluación de modelos, seguridad o IA responsable. Memorizar definiciones ayuda, pero lo importante es reconocer qué técnica o fase aplica en cada escenario.

1. Qué cubre realmente este dominio

El Dominio 1 se centra en comprender qué es IA, qué es ML, qué es deep learning, qué tipos de datos se usan, cómo aprende un modelo y cómo se lleva una solución desde una idea inicial hasta una predicción en producción. También introduce conceptos de operaciones de machine learning, como experimentación, monitorización, reentrenamiento y preparación para producción.

Conceptos básicos

Diferenciar IA, machine learning, deep learning, modelos, algoritmos, entrenamiento, inferencia, características, etiquetas y predicciones.

Tipos de aprendizaje

Reconocer cuándo un escenario encaja con aprendizaje supervisado, no supervisado, por refuerzo o generativo.

Ciclo de vida ML

Entender fases como definición del problema, recopilación de datos, preparación, entrenamiento, evaluación, despliegue y monitorización.

Servicios AWS

Asociar necesidades de IA/ML con servicios como Amazon SageMaker AI, Amazon Bedrock, Amazon Q, Amazon Comprehend, Amazon Rekognition, Amazon Textract, Amazon Transcribe o Amazon Polly.

2. IA, ML y deep learning: diferencia clara

Una fuente habitual de errores en el examen es mezclar estos tres términos. Están relacionados, pero no significan lo mismo.

Concepto	Qué significa	Ejemplo sencillo
Inteligencia artificial	Campo amplio que busca crear sistemas capaces de realizar tareas que normalmente asociamos a inteligencia humana: comprender lenguaje, reconocer imágenes, razonar, recomendar o generar contenido.	Un asistente que responde preguntas, un sistema que analiza imágenes o una aplicación que recomienda productos.
Machine learning	Subcampo de la IA donde los sistemas aprenden patrones a partir de datos, en vez de estar programados únicamente con reglas fijas.	Un modelo que predice si un cliente puede abandonar un servicio usando histórico de comportamiento.
Deep learning	Subcampo de ML que usa redes neuronales con muchas capas para aprender patrones complejos, especialmente útil en imagen, voz, lenguaje natural e IA generativa.	Un modelo que identifica objetos en imágenes o un LLM que genera texto.

Cómo razonarlo en el examen

Si el escenario habla de reglas definidas manualmente, puede no ser ML. Si habla de aprender desde datos históricos, piensa en ML. Si habla de redes neuronales profundas, visión, voz, lenguaje o modelos fundacionales, probablemente entra deep learning o IA generativa.

3. Datos, características, etiquetas y predicciones

Los modelos aprenden a partir de datos. Por eso, muchos problemas de IA no empiezan eligiendo un modelo, sino entendiendo qué datos existen, qué calidad tienen y qué objetivo se quiere predecir o generar.

Término	Significado	Ejemplo
Dato	Información disponible para analizar o entrenar un modelo.	Edad del cliente, importe de compra, texto de una reseña, imagen de un producto.
Feature o característica	Variable de entrada que el modelo usa para aprender patrones.	Número de compras, días desde el último acceso, categoría del producto.
Label o etiqueta	Resultado conocido que se usa en aprendizaje supervisado.	Cliente canceló: sí/no. Importe vendido. Imagen contiene gato/perro.
Predicción	Resultado que devuelve el modelo para un dato nuevo.	Probabilidad de fraude, categoría estimada, tiempo esperado de entrega.

Idea importante: un modelo no mejora solo porque uses más datos. Los datos deben ser relevantes, representativos, consistentes, actualizados y estar gobernados correctamente. Datos con sesgos, duplicados, errores o información futura pueden producir modelos poco fiables.

4. Tipos de aprendizaje que debes reconocer

Aprendizaje supervisado

El aprendizaje supervisado usa datos etiquetados. Es decir, el histórico contiene ejemplos de entrada y el resultado correcto esperado. El modelo aprende la relación entre ambos para predecir resultados en casos nuevos.

Clasificación

La salida es una categoría. Ejemplos: fraude/no fraude, cliente premium/no premium, correo spam/no spam, imagen con defecto/sin defecto.

Regresión

La salida es un valor numérico. Ejemplos: precio estimado, demanda prevista, tiempo de entrega, consumo energético esperado.

Aprendizaje no supervisado

El aprendizaje no supervisado trabaja con datos sin etiqueta. Busca patrones, grupos o estructuras ocultas. Es frecuente en segmentación de clientes, agrupación de documentos o detección exploratoria de patrones.

Aprendizaje por refuerzo

El aprendizaje por refuerzo se basa en agentes que aprenden mediante acciones y recompensas. Es útil en problemas donde un sistema debe tomar decisiones secuenciales, como optimización de rutas, juegos, robótica o control de entornos.

IA generativa

La IA generativa usa modelos capaces de crear contenido nuevo: texto, imágenes, código, resúmenes, respuestas conversacionales o contenido multimodal. Aunque se estudia con más detalle en dominios posteriores, en este dominio debes entender que no es lo mismo predecir una categoría que generar una respuesta nueva.

5. Clasificación, regresión, clustering y generación

En el examen suelen aparecer escenarios donde tienes que elegir el tipo de problema. La clave está en mirar la salida esperada.

Salida esperada	Tipo de problema	Ejemplo de escenario
Categoría	Clasificación	Determinar si una transacción es fraudulenta o legítima.
Número	Regresión	Predecir cuántas unidades se venderán la próxima semana.
Grupos desconocidos	Clustering	Segmentar clientes según comportamiento sin etiquetas previas.
Contenido nuevo	Generación	Crear un resumen, redactar una respuesta o generar código.

Pista rápida

Si la respuesta es “sí/no” o una clase, piensa en clasificación. Si la respuesta es un número, piensa en regresión. Si no hay etiquetas y se buscan grupos, piensa en clustering. Si se crea contenido nuevo, piensa en IA generativa.

6. Entrenamiento frente a inferencia

Otro punto muy importante es distinguir entre entrenar un modelo y usarlo. El entrenamiento es el proceso en el que el modelo aprende patrones. La inferencia es el uso del modelo ya entrenado para generar predicciones o respuestas.

Fase	Qué ocurre	Ejemplo
Entrenamiento	El modelo aprende desde datos históricos. Se ajustan parámetros internos para reducir errores.	Entrenar un modelo con miles de transacciones etiquetadas como fraude/no fraude.
Evaluación	Se mide el rendimiento con datos que el modelo no ha usado para aprender.	Comprobar precisión, recall o error medio antes de pasar a producción.
Inferencia	El modelo se usa con datos nuevos para devolver una predicción, clasificación, recomendación o respuesta.	Analizar una transacción nueva y devolver una probabilidad de fraude.
Monitorización	Se observa si el modelo sigue funcionando bien después del despliegue.	Detectar si el rendimiento cae porque cambia el comportamiento de los usuarios.

7. Ciclo de vida de un proyecto de machine learning

El ciclo de vida ML ayuda a ordenar el trabajo. No se empieza por entrenar un modelo sin entender el problema, los datos y el criterio de éxito.

1Definir el problema de negocio. Qué decisión se quiere mejorar, qué resultado se espera y cómo se medirá el éxito.

2Recopilar y entender datos. Identificar fuentes, calidad, permisos, sensibilidad y representatividad de los datos.

3Preparar datos. Limpiar duplicados, tratar valores faltantes, transformar variables y evitar fuga de información.

4Entrenar y experimentar. Probar algoritmos, parámetros, features y versiones de datos.

5Evaluar. Medir rendimiento técnico y comprobar si cumple el objetivo de negocio.

6Desplegar. Publicar el modelo para inferencia, integrarlo con aplicaciones y controlar acceso.

7Monitorizar y mejorar. Revisar drift, errores, latencia, coste, uso y necesidad de reentrenamiento.

8. Métricas básicas que aparecen en escenarios

No necesitas calcular fórmulas complejas para AIF-C01, pero sí entender qué métrica responde mejor a cada necesidad.

Métrica	Qué mide	Cuándo importa
Accuracy	Porcentaje total de predicciones correctas.	Útil si las clases están equilibradas y el coste de error es similar.
Precision	De las predicciones positivas, cuántas eran realmente positivas.	Cuando quieres reducir falsas alarmas.
Recall	De los casos positivos reales, cuántos detectó el modelo.	Cuando no quieres dejar escapar positivos importantes.
F1-score	Equilibrio entre precision y recall.	Cuando necesitas balancear falsos positivos y falsos negativos.
Error medio	Diferencia entre valor predicho y valor real.	Problemas de regresión, como demanda, precio o tiempo.

Ejemplo: en fraude bancario, si el objetivo es no dejar escapar operaciones fraudulentas, puede interesar recall alto aunque aumenten revisiones manuales. Si el objetivo es evitar molestar a clientes legítimos con demasiadas alertas, precision cobra más importancia.

9. Problemas habituales en modelos ML

Overfitting

El modelo aprende demasiado bien los datos de entrenamiento, pero falla con datos nuevos. Señal típica: rendimiento excelente en entrenamiento y pobre en validación o producción.

Underfitting

El modelo es demasiado simple o no captura patrones importantes. Rinde mal tanto en entrenamiento como en evaluación.

Data leakage

El modelo usa información que no estaría disponible en el momento real de predicción. Produce métricas artificialmente buenas.

Model drift

El rendimiento cae con el tiempo porque cambian los datos, el comportamiento de usuarios o el entorno de negocio.

10. Servicios AWS que debes asociar mentalmente

El examen puede pedirte identificar qué servicio AWS encaja mejor en un caso de uso. No necesitas dominar todos los parámetros técnicos, pero sí conocer el propósito principal de cada servicio.

Servicio	Uso principal	Cómo puede aparecer en AIF-C01
Amazon SageMaker AI	Crear, entrenar, desplegar y gestionar modelos de machine learning.	Pipeline ML, entrenamiento, experimentación, despliegue y MLOps.
Amazon Bedrock	Crear aplicaciones de IA generativa con modelos fundacionales gestionados.	Acceso a FMs, RAG, agentes, guardrails y aplicaciones GenAI.
Amazon Q	Asistentes generativos para productividad, desarrollo o consulta empresarial según el producto.	Ayuda conversacional, productividad y consulta de información.
Amazon Comprehend	Procesamiento de lenguaje natural para extraer entidades, sentimiento o temas.	Analizar texto sin construir un modelo desde cero.
Amazon Rekognition	Análisis de imágenes y vídeo.	Detección de objetos, moderación de imagen o reconocimiento visual.
Amazon Textract	Extracción de texto y datos desde documentos escaneados o formularios.	Procesar documentos, facturas o formularios.
Amazon Transcribe	Convertir voz a texto.	Transcripción de llamadas o audios.
Amazon Polly	Convertir texto en voz.	Generar audio a partir de texto.
Amazon Forecast	Predicción de series temporales.	Demanda, inventario o previsiones temporales.
Amazon Personalize	Recomendaciones personalizadas.	Recomendar productos, contenidos o acciones a usuarios.

11. MLOps explicado para AIF-C01

MLOps aplica buenas prácticas de ingeniería y operación al ciclo de vida de machine learning. No se trata solo de entrenar un modelo una vez. En producción hay que versionar datos y modelos, repetir experimentos, monitorizar rendimiento, controlar despliegues y reentrenar cuando sea necesario.

✓Experimentación repetible. Poder saber qué datos, algoritmo, parámetros y versión produjeron un resultado.

✓Automatización. Pipelines para preparar datos, entrenar, evaluar y desplegar de forma controlada.

✓Monitorización. Revisar rendimiento, drift, errores, latencia y coste tras el despliegue.

✓Gobernanza. Responsables, aprobaciones, trazabilidad, seguridad y cumplimiento.

12. Cómo razonar preguntas de este dominio

Cuando leas una pregunta, no busques la palabra técnica aislada. Lee el objetivo del negocio, el tipo de datos, la salida esperada y el riesgo del caso.

Si el escenario dice...	Piensa en...
“Tenemos ejemplos históricos con resultado conocido”	Aprendizaje supervisado.
“Queremos predecir un número”	Regresión.
“Queremos asignar una categoría”	Clasificación.
“No tenemos etiquetas y queremos descubrir grupos”	Aprendizaje no supervisado / clustering.
“El modelo va peor meses después del despliegue”	Drift y monitorización.
“La métrica de prueba es perfecta pero usa datos posteriores al evento”	Data leakage.
“Necesitamos construir, entrenar y desplegar modelos ML”	Amazon SageMaker AI.
“Necesitamos usar modelos fundacionales gestionados”	Amazon Bedrock.

13. Errores frecuentes

Confundir IA con ML. ML es una forma de construir IA, pero no toda IA se explica igual ni todo sistema inteligente implica entrenamiento supervisado.
Elegir deep learning siempre. Para muchos problemas tabulares, modelos más simples pueden ser suficientes.
Mirar solo accuracy. En clases desbalanceadas puede ser una métrica engañosa.
Ignorar calidad de datos. Los datos suelen ser más importantes que el algoritmo en escenarios reales.
No distinguir entrenamiento e inferencia. Entrenar es aprender; inferir es usar el modelo entrenado.
No monitorizar tras desplegar. Un modelo puede degradarse aunque la aplicación no cambie.

Resumen final

El Dominio 1 te da el vocabulario y la forma de razonar que necesitas para el resto del examen. Debes diferenciar IA, ML y deep learning; reconocer tipos de aprendizaje; entender datos, etiquetas, características, entrenamiento e inferencia; conocer el ciclo de vida ML; identificar problemas como overfitting, data leakage o drift; y asociar servicios AWS a casos de uso concretos.

La idea principal es esta: una solución de IA no empieza por elegir un modelo, empieza por entender el problema, los datos, el objetivo, el riesgo y cómo se va a medir el éxito. Esa forma de pensar te ayudará en todo AIF-C01.

← Anterior Conceptos básicos de IA/ML →