Un hombre se sienta al volante de un coche moderno mientras conduce por una carretera.

Así aprenden a conducir los vehículos autónomos

  • 30 de julio de 2025
  • 8 minutos
  • Blog

Compañías como Tesla, Waymo o Mercedes nos prometen un futuro en el que no será necesario ir a la autoescuela.

Un automóvil recorre una calle del centro de la ciudad. No hay nadie al volante. Frente a un paso de cebra, detecta a un peatón que se aproxima a la calzada. Sin que nadie se lo indique, reduce la velocidad, se detiene y espera. Solo cuando el peatón ha cruzado por completo, reanuda su marcha… ante el asombro del propio peatón que acaba de ver un “fantasma”. 

Lo que hace tan solo una década representaba “el futuro”, ahora compañías como Waymo, Tesla o Mercedes-Benz lo están haciendo posible gracias a sistemas de computer vision alimentados por cámaras, sensores de profundidad, escáneres LiDAR y algoritmos capaces de analizar cada imagen, identificar patrones y actuar en consecuencia, prometiendo que nunca jamás necesitaremos volver a pisar una autoescuela. 

¿Pero qué es exactamente esta tecnología y por qué es tan importante? Como no tardan en descubrir los estudiantes del Máster en Inteligencia Artificial de UDIT, Universidad de Diseño, Innovación y Tecnología, hablamos de una rama de la inteligencia artificial que además de en coches cada vez más inteligentes, está presente en cámaras de reconocimiento facial, cadenas de producción que identifican defectos en milisegundos o en aplicaciones médicas. 

De los píxeles a la comprensión 

¿Qué es lo que captan las máquinas exactamente? Cuando afirmamos que una máquina “puede ver”…¿de qué tipo de “vista” estamos hablando? En realidad lo que hace es interpretar el mundo de una forma muy diferente a cómo lo hace un ser humano. En lugar de ver objetos o escenas, lo que recibe es una matriz de píxeles: una sucesión de valores numéricos que representan colores e intensidades. A partir de ahí, comienza un complejo proceso de interpretación visual que convierte esos datos en conocimiento. 

Toda esta fantasía comienza con una etapa llamada preprocesamiento, en la que la imagen capturada por la cámara se ajusta para facilitar su análisis. Esto puede incluir tareas como corregir la iluminación si hay zonas muy oscuras o brillantes, eliminar el ruido visual (pequeñas imperfecciones o distorsiones que pueden confundir al sistema) y resaltar los bordes de los objetos para que sean más fáciles de identificar. 

A continuación, la inteligencia artificial comienza a buscar patrones: formas, contornos o estructuras que coincidan con lo que ha aprendido en su entrenamiento. Por ejemplo, puede identificar que una forma redonda con ciertos contrastes corresponde a un rostro, o que una figura alargada y rectangular con colores específicos es una señal de tráfico. 

Una vez localizados esos elementos clave, el sistema puede aplicar modelos más sofisticados. Algunos se encargan de clasificar lo que ve (por ejemplo, distinguir entre un coche, una bicicleta o un peatón), otros realizan una segmentación semántica, dividiendo la imagen en zonas y asignando un significado a cada una (acera, carretera, cielo, persona, etc.), y en el caso de secuencias de vídeo, entran en juego algoritmos que permiten seguir el movimiento de un objeto a lo largo del tiempo, como un balón en un partido o una persona cruzando una calle. 

En un coche autónomo, todo este proceso se repite decenas de veces por segundo. Para que la conducción sea segura, cada fotograma debe analizarse en menos de 100 milisegundos (lo ideal es hacerlo entre 30 y 50 milisegundos) lo que permite que el sistema trabaje a un ritmo comparable al del vídeo en tiempo real (20–30 imágenes por segundo). 

Cuando el sistema identifica la escena (por ejemplo, un peatón cruzando, un semáforo en rojo o un obstáculo inesperado), pasa a la toma de decisiones. La IA utiliza esa información visual para activar respuestas automáticas: frenar, girar, mantener distancia o simplemente continuar avanzando. Esta fase se conecta con otros sistemas del vehículo (como el control de velocidad o la dirección) y, en algunos casos, con sistemas de predicción que anticipan lo que podría suceder en los siguientes segundos. 


Aprobando el examen de conducir

Para que un coche autónomo sepa reconocer una bicicleta, prever que un peatón va a cruzar o detectar una señal de stop parcialmente cubierta por un árbol, primero necesita aprender. 

Su entrenamiento comienza “estudiando” bases de datos gigantescas compuestas por imágenes y vídeos recogidos por otros vehículos, cámaras urbanas, simulaciones digitales o flotas de prueba. Cada imagen está etiquetada manualmente o mediante algoritmos con información sobre lo que aparece en ella: coches, personas, señales, semáforos, bordillos, etc. 

A partir de ahí, entra en juego el aprendizaje profundo: se utilizan redes neuronales que, capa a capa, aprenden a reconocer patrones visuales cada vez más complejos; desde los contornos y las formas que incorporan a su “conocimiento” en las primeras etapas, a objetos y comportamientos. 

Esas redes se concretan en modelos especializados, cada uno con un rol dentro del “sistema visual” del vehículo. Por ejemplo: 

  • YOLO (You Only Look Once) es capaz de detectar objetos en tiempo real, ideal para responder rápidamente si un petaón se cruza de forma inesperada. 
  • Faster R-CNN es más preciso y se adapta mejor a maniobras donde cada centímetro importa, como en un aparcamiento automatizado. 
  • Mask R-CNN añade el contorno exacto del objeto detectado, útil para estimar distancias reales. 
  • U-Net o SegNet segmentan la escena por zonas: carretera, acera, carril bici…etc.
  • Kalman Filter y Deep SORT permiten al coche hacer seguimiento continuo de objetos en movimiento, como una moto zigzagueando entre carriles. 
  • Y los nuevos transformers visuales como ViT o Swin Transformr permiten comprender escenas completas y anticipar posibles comportamientos futuros. 

El objetivo es que la red neuronal generalice: que si ha aprendido a detectar un perro en miles de imágenes, también lo reconozca cuando está parcialmente tapado por una valla o corriendo bajo la lluvia. Pero también que si ha aprendido que el intermitente derecho significa un próximo giro a la derecha del coche al que sigue, probablemente eso signifique que ese mismo vehículo rebajará la velocidad de la marcha. 

Una vez entrenado, el modelo se integra en el sistema del coche y se pone a prueba. En primer lugar, en todo tipo de simuladores virtuales, en los que evalúa su comportamiento ante distintas situaciones; en una segunda etapa en circuitos cerrados y controlados; finalmente si todo ha ido bien, en escenarios reales acotados. 

Este es el enfoque que han seguido empresas como Waymo, que ya opera servicios de robotaxi sin conductor en ciudades como Phoenix o San Francisco, donde los vehículos circulan de forma completamente autónoma en zonas delimitadas y bajo supervisión remota porque…

 

Un muro de realidad 

A pesar de los avances impresionantes en visión por computador, los coches autónomos que recorren nuestras ciudades aún son muy pocos ¿Por qué? Porque la realidad es compleja, caótica y, sobre todo, imprevisible. 

Uno de los principales desafíos sigue siendo el comportamiento humano. Por muy entrenado que esté un modelo, aún le cuesta anticipar decisiones erráticas: un peatón que se detiene de golpe en mitad del paso, un ciclista que se salta un semáforo o un conductor que gira sin avisar…El coche autónomo necesita algo más que visión: necesita comprender las intenciones, y esa lectura del contexto social sigue siendo uno de los terrenos más difíciles para una IA. 

Además, el estado de las infraestructuras juega un papel crítico. Marcas de carril borradas, señales tapadas por vegetación, iluminación deficiente o condiciones meteorológicas adversas (como niebla densa, lluvia intensa o reflejos solares) pueden degradar drásticamente la precisión de los sensores y modelos. Aunque los sistemas de percepción han mejorado enormemente, todavía no están preparados para operar con una seguridad total en cualquier entorno, a cualquier hora y en cualquier condición. 

Por esta razón, la mayoría de los vehículos actuales funcionan en modos híbridos o de asistencia avanzada (lo que se conoce como niveles 2 y 3 de autonomía), en los que el conductor sigue siendo necesario como respaldo ante situaciones inesperadas. La conducción completamente autónoma (nivel 5), sin intervención humana en ningún momento, sigue siendo una meta a medio y probablemente, largo plazo. 

Sin embargo, hay motivos que invitan a ser optimistas. Según datos de la propia Waymo (una evaluación sobre 7.1 millones de millas mostró solo 3 accidentes con lesiones), sus vehículos ya han recorrido millones de kilómetros sin provocar accidentes con víctimas, y diversos estudios apuntan a que los sistemas autónomos cometen menos errores por kilómetro que los conductores humanos. En un mundo donde los errores humanos están detrás de más del 90% de los accidentes de tráfico, cada avance en visión por computador y toma de decisiones automatizada representa no solo un paso tecnológico, sino una mejora potencial en la seguridad vial. 

Insights relacionados

Un portátil abierto sobre una superficie suave y de color claro.
Ciencia y Tecnología

Cinco diseñadores que han definido la tecnología del último siglo

17 de julio de 2025

Este artículo recoge cinco figuras clave que han marcado un antes y un después en la historia del diseño tecnológico: desde el rigor ético y funcionalista de Dieter Rams hasta la visión integradora de Jony Ive en Apple; pasando por el enfoque social de Yves Béhar, la elegancia minimalista de Jacob Jensen para Bang & Olufsen, o la sensibilidad japonesa de Teiyu Goto, que convirtió los productos de Sony en iconos globales.  

Dos personas analizando datos en una computadora y un monitor.
Ciencia y Tecnología

Copilot y más: cómo la IA está cambiando la forma de escribir código

9 de julio de 2025

La programación ha cambiado radicalmente en la última década, no solo por la evolución de los lenguajes o los marcos de trabajo, sino por la irrupción de nuevas formas de colaboración y automatización, a partir de la popularización de metodologías agile o el trabajo con contenedores.

Sin embargo, pocas han resultado ser más disruptivas que la aplicación de capacidades de inteligencia artificial a los editores de código. De estos, nada ha tenido más repercusión que la transformación que ha experimentado GitHub.

La imagen muestra un fondo con texto digital en un entorno tecnológico y futurista.
Ciencia y Tecnología

Doce conceptos básicos para entender la Inteligencia Artificial Generativa

27 de junio de 2025

En este contexto conviene sin embargo no olvidar que esta inteligencia ni es “magia”, ni es realmente “inteligente”. Es una tecnología que esconde conceptos técnicos que hay que comprender para utilizarla de manera crítica. En este artículo hemos recopilado doce términos imprescindibles que nos van a permitir desarrollar otra mirada la próxima vez que le hagamos una pregunta a ChatGPT.