Dominio 1 · Fundamentos de IA y ML
Este módulo abre el Dominio 1 del examen AWS Certified AI Practitioner AIF-C01. Su objetivo es que entiendas los fundamentos de inteligencia artificial y machine learning antes de entrar en IA generativa, modelos fundacionales, seguridad o gobernanza. En el examen no se espera que programes modelos complejos, pero sí que sepas interpretar escenarios, diferenciar conceptos, reconocer tipos de aprendizaje, identificar fases de un proyecto ML y asociar servicios de AWS al problema correcto.
1. Qué cubre realmente este dominio
El Dominio 1 se centra en comprender qué es IA, qué es ML, qué es deep learning, qué tipos de datos se usan, cómo aprende un modelo y cómo se lleva una solución desde una idea inicial hasta una predicción en producción. También introduce conceptos de operaciones de machine learning, como experimentación, monitorización, reentrenamiento y preparación para producción.
Diferenciar IA, machine learning, deep learning, modelos, algoritmos, entrenamiento, inferencia, características, etiquetas y predicciones.
Reconocer cuándo un escenario encaja con aprendizaje supervisado, no supervisado, por refuerzo o generativo.
Entender fases como definición del problema, recopilación de datos, preparación, entrenamiento, evaluación, despliegue y monitorización.
Asociar necesidades de IA/ML con servicios como Amazon SageMaker AI, Amazon Bedrock, Amazon Q, Amazon Comprehend, Amazon Rekognition, Amazon Textract, Amazon Transcribe o Amazon Polly.
2. IA, ML y deep learning: diferencia clara
Una fuente habitual de errores en el examen es mezclar estos tres términos. Están relacionados, pero no significan lo mismo.
| Concepto | Qué significa | Ejemplo sencillo |
|---|---|---|
| Inteligencia artificial | Campo amplio que busca crear sistemas capaces de realizar tareas que normalmente asociamos a inteligencia humana: comprender lenguaje, reconocer imágenes, razonar, recomendar o generar contenido. | Un asistente que responde preguntas, un sistema que analiza imágenes o una aplicación que recomienda productos. |
| Machine learning | Subcampo de la IA donde los sistemas aprenden patrones a partir de datos, en vez de estar programados únicamente con reglas fijas. | Un modelo que predice si un cliente puede abandonar un servicio usando histórico de comportamiento. |
| Deep learning | Subcampo de ML que usa redes neuronales con muchas capas para aprender patrones complejos, especialmente útil en imagen, voz, lenguaje natural e IA generativa. | Un modelo que identifica objetos en imágenes o un LLM que genera texto. |
Cómo razonarlo en el examen
Si el escenario habla de reglas definidas manualmente, puede no ser ML. Si habla de aprender desde datos históricos, piensa en ML. Si habla de redes neuronales profundas, visión, voz, lenguaje o modelos fundacionales, probablemente entra deep learning o IA generativa.
3. Datos, características, etiquetas y predicciones
Los modelos aprenden a partir de datos. Por eso, muchos problemas de IA no empiezan eligiendo un modelo, sino entendiendo qué datos existen, qué calidad tienen y qué objetivo se quiere predecir o generar.
| Término | Significado | Ejemplo |
|---|---|---|
| Dato | Información disponible para analizar o entrenar un modelo. | Edad del cliente, importe de compra, texto de una reseña, imagen de un producto. |
| Feature o característica | Variable de entrada que el modelo usa para aprender patrones. | Número de compras, días desde el último acceso, categoría del producto. |
| Label o etiqueta | Resultado conocido que se usa en aprendizaje supervisado. | Cliente canceló: sí/no. Importe vendido. Imagen contiene gato/perro. |
| Predicción | Resultado que devuelve el modelo para un dato nuevo. | Probabilidad de fraude, categoría estimada, tiempo esperado de entrega. |
4. Tipos de aprendizaje que debes reconocer
Aprendizaje supervisado
El aprendizaje supervisado usa datos etiquetados. Es decir, el histórico contiene ejemplos de entrada y el resultado correcto esperado. El modelo aprende la relación entre ambos para predecir resultados en casos nuevos.
La salida es una categoría. Ejemplos: fraude/no fraude, cliente premium/no premium, correo spam/no spam, imagen con defecto/sin defecto.
La salida es un valor numérico. Ejemplos: precio estimado, demanda prevista, tiempo de entrega, consumo energético esperado.
Aprendizaje no supervisado
El aprendizaje no supervisado trabaja con datos sin etiqueta. Busca patrones, grupos o estructuras ocultas. Es frecuente en segmentación de clientes, agrupación de documentos o detección exploratoria de patrones.
Aprendizaje por refuerzo
El aprendizaje por refuerzo se basa en agentes que aprenden mediante acciones y recompensas. Es útil en problemas donde un sistema debe tomar decisiones secuenciales, como optimización de rutas, juegos, robótica o control de entornos.
IA generativa
La IA generativa usa modelos capaces de crear contenido nuevo: texto, imágenes, código, resúmenes, respuestas conversacionales o contenido multimodal. Aunque se estudia con más detalle en dominios posteriores, en este dominio debes entender que no es lo mismo predecir una categoría que generar una respuesta nueva.
5. Clasificación, regresión, clustering y generación
En el examen suelen aparecer escenarios donde tienes que elegir el tipo de problema. La clave está en mirar la salida esperada.
| Salida esperada | Tipo de problema | Ejemplo de escenario |
|---|---|---|
| Categoría | Clasificación | Determinar si una transacción es fraudulenta o legítima. |
| Número | Regresión | Predecir cuántas unidades se venderán la próxima semana. |
| Grupos desconocidos | Clustering | Segmentar clientes según comportamiento sin etiquetas previas. |
| Contenido nuevo | Generación | Crear un resumen, redactar una respuesta o generar código. |
Pista rápida
Si la respuesta es “sí/no” o una clase, piensa en clasificación. Si la respuesta es un número, piensa en regresión. Si no hay etiquetas y se buscan grupos, piensa en clustering. Si se crea contenido nuevo, piensa en IA generativa.
6. Entrenamiento frente a inferencia
Otro punto muy importante es distinguir entre entrenar un modelo y usarlo. El entrenamiento es el proceso en el que el modelo aprende patrones. La inferencia es el uso del modelo ya entrenado para generar predicciones o respuestas.
| Fase | Qué ocurre | Ejemplo |
|---|---|---|
| Entrenamiento | El modelo aprende desde datos históricos. Se ajustan parámetros internos para reducir errores. | Entrenar un modelo con miles de transacciones etiquetadas como fraude/no fraude. |
| Evaluación | Se mide el rendimiento con datos que el modelo no ha usado para aprender. | Comprobar precisión, recall o error medio antes de pasar a producción. |
| Inferencia | El modelo se usa con datos nuevos para devolver una predicción, clasificación, recomendación o respuesta. | Analizar una transacción nueva y devolver una probabilidad de fraude. |
| Monitorización | Se observa si el modelo sigue funcionando bien después del despliegue. | Detectar si el rendimiento cae porque cambia el comportamiento de los usuarios. |
7. Ciclo de vida de un proyecto de machine learning
El ciclo de vida ML ayuda a ordenar el trabajo. No se empieza por entrenar un modelo sin entender el problema, los datos y el criterio de éxito.
8. Métricas básicas que aparecen en escenarios
No necesitas calcular fórmulas complejas para AIF-C01, pero sí entender qué métrica responde mejor a cada necesidad.
| Métrica | Qué mide | Cuándo importa |
|---|---|---|
| Accuracy | Porcentaje total de predicciones correctas. | Útil si las clases están equilibradas y el coste de error es similar. |
| Precision | De las predicciones positivas, cuántas eran realmente positivas. | Cuando quieres reducir falsas alarmas. |
| Recall | De los casos positivos reales, cuántos detectó el modelo. | Cuando no quieres dejar escapar positivos importantes. |
| F1-score | Equilibrio entre precision y recall. | Cuando necesitas balancear falsos positivos y falsos negativos. |
| Error medio | Diferencia entre valor predicho y valor real. | Problemas de regresión, como demanda, precio o tiempo. |
9. Problemas habituales en modelos ML
El modelo aprende demasiado bien los datos de entrenamiento, pero falla con datos nuevos. Señal típica: rendimiento excelente en entrenamiento y pobre en validación o producción.
El modelo es demasiado simple o no captura patrones importantes. Rinde mal tanto en entrenamiento como en evaluación.
El modelo usa información que no estaría disponible en el momento real de predicción. Produce métricas artificialmente buenas.
El rendimiento cae con el tiempo porque cambian los datos, el comportamiento de usuarios o el entorno de negocio.
10. Servicios AWS que debes asociar mentalmente
El examen puede pedirte identificar qué servicio AWS encaja mejor en un caso de uso. No necesitas dominar todos los parámetros técnicos, pero sí conocer el propósito principal de cada servicio.
| Servicio | Uso principal | Cómo puede aparecer en AIF-C01 |
|---|---|---|
| Amazon SageMaker AI | Crear, entrenar, desplegar y gestionar modelos de machine learning. | Pipeline ML, entrenamiento, experimentación, despliegue y MLOps. |
| Amazon Bedrock | Crear aplicaciones de IA generativa con modelos fundacionales gestionados. | Acceso a FMs, RAG, agentes, guardrails y aplicaciones GenAI. |
| Amazon Q | Asistentes generativos para productividad, desarrollo o consulta empresarial según el producto. | Ayuda conversacional, productividad y consulta de información. |
| Amazon Comprehend | Procesamiento de lenguaje natural para extraer entidades, sentimiento o temas. | Analizar texto sin construir un modelo desde cero. |
| Amazon Rekognition | Análisis de imágenes y vídeo. | Detección de objetos, moderación de imagen o reconocimiento visual. |
| Amazon Textract | Extracción de texto y datos desde documentos escaneados o formularios. | Procesar documentos, facturas o formularios. |
| Amazon Transcribe | Convertir voz a texto. | Transcripción de llamadas o audios. |
| Amazon Polly | Convertir texto en voz. | Generar audio a partir de texto. |
| Amazon Forecast | Predicción de series temporales. | Demanda, inventario o previsiones temporales. |
| Amazon Personalize | Recomendaciones personalizadas. | Recomendar productos, contenidos o acciones a usuarios. |
11. MLOps explicado para AIF-C01
MLOps aplica buenas prácticas de ingeniería y operación al ciclo de vida de machine learning. No se trata solo de entrenar un modelo una vez. En producción hay que versionar datos y modelos, repetir experimentos, monitorizar rendimiento, controlar despliegues y reentrenar cuando sea necesario.
12. Cómo razonar preguntas de este dominio
Cuando leas una pregunta, no busques la palabra técnica aislada. Lee el objetivo del negocio, el tipo de datos, la salida esperada y el riesgo del caso.
| Si el escenario dice... | Piensa en... |
|---|---|
| “Tenemos ejemplos históricos con resultado conocido” | Aprendizaje supervisado. |
| “Queremos predecir un número” | Regresión. |
| “Queremos asignar una categoría” | Clasificación. |
| “No tenemos etiquetas y queremos descubrir grupos” | Aprendizaje no supervisado / clustering. |
| “El modelo va peor meses después del despliegue” | Drift y monitorización. |
| “La métrica de prueba es perfecta pero usa datos posteriores al evento” | Data leakage. |
| “Necesitamos construir, entrenar y desplegar modelos ML” | Amazon SageMaker AI. |
| “Necesitamos usar modelos fundacionales gestionados” | Amazon Bedrock. |
13. Errores frecuentes
- Confundir IA con ML. ML es una forma de construir IA, pero no toda IA se explica igual ni todo sistema inteligente implica entrenamiento supervisado.
- Elegir deep learning siempre. Para muchos problemas tabulares, modelos más simples pueden ser suficientes.
- Mirar solo accuracy. En clases desbalanceadas puede ser una métrica engañosa.
- Ignorar calidad de datos. Los datos suelen ser más importantes que el algoritmo en escenarios reales.
- No distinguir entrenamiento e inferencia. Entrenar es aprender; inferir es usar el modelo entrenado.
- No monitorizar tras desplegar. Un modelo puede degradarse aunque la aplicación no cambie.
Resumen final
El Dominio 1 te da el vocabulario y la forma de razonar que necesitas para el resto del examen. Debes diferenciar IA, ML y deep learning; reconocer tipos de aprendizaje; entender datos, etiquetas, características, entrenamiento e inferencia; conocer el ciclo de vida ML; identificar problemas como overfitting, data leakage o drift; y asociar servicios AWS a casos de uso concretos.
La idea principal es esta: una solución de IA no empieza por elegir un modelo, empieza por entender el problema, los datos, el objetivo, el riesgo y cómo se va a medir el éxito. Esa forma de pensar te ayudará en todo AIF-C01.