Doce conceptos básicos para entender la Inteligencia Artificial Generativa
En los últimos años, pocas tecnologías han tenido un impacto mayor en nuestras vidas que la Inteligencia Artificial Generativa. Herramientas como ChatGPT o Google Gemini, se han “colado” en el día a día de millones de personas en todo el mundo, revolucionando la forma en la que trabajan, estudian, se comunican o buscan información en Internet.
Así, desde asistentes que facilitan la redacción de un correo electrónico, hasta herramientas que agilizan la generación de código, o ayudan en la toma de decisiones, la IA Generativa está cambiando tal vez para siempre, nuestra relación con la tecnología.
En este contexto conviene sin embargo no olvidar que esta inteligencia ni es “magia”, ni es realmente “inteligente”. Es una tecnología que esconde conceptos técnicos que hay que comprender para utilizarla de manera crítica. En este artículo hemos recopilado doce términos imprescindibles que nos van a permitir desarrollar otra mirada la próxima vez que le hagamos una pregunta a ChatGPT.
LLM (Large Language Model) o Modelo Grande de Lenguaje
Un LLM (Large Language Model) es un modelo de Inteligencia Artificial diseñado para procesar y generar lenguaje natural. Está entrenado con enormes cantidades de datos (libros, artículos, webs, etc.) para aprender patrones lingüísticos, significados y estructuras del lenguaje.
Gracias a este entrenamiento, un LLM es capaz de responder a preguntas, redactar textos, traducir idiomas, resumir contenidos o incluso mantener conversaciones coherentes.
Estos modelos suelen basarse en grandes arquitecturas de redes neuronales que analizan las relaciones existentes entre palabras considerando el contexto completo de una frase de un párrafo desde el inicio. Los LLM son la base de muchas de las herramientas de la IA generativa actuales, como ChatGPT, Google Gemini o Claude.
Es importante destacar que los LLM no piensan ni comprenden como un ser humano. Sus respuestas no provienen de una intención consciente, sino del cálculo estadístico de qué palabra o frase es más probable que siga a otra en función del contexto.
Prompt
Un prompt es la instrucción, pregunta o texto que se le proporciona a un modelo de lenguaje con el objetivo de obtener una respuesta. Es, en esencia, el punto de partida de la conversación o la tarea que se desea que realice el modelo. Puede ser tan simple como una palabra (“resumen”) o tan complejo como un párrafo que describe un escenario, un rol, un estilo de respuesta y un formato deseado.
La calidad y claridad del prompt influyen directamente en la calidad de la respuesta generada. Por ello, saber redactar buenos prompts es una habilidad clave en el uso de la IA generativa. Esta práctica se conoce como prompt engineering (ingeniería de prompts) y consiste en diseñar las entradas óptimas para obtener resultados específicos y útiles del modelo.
Parámetro
En un modelo de IA, el parámetro es un valor numérico que forma parte de las redes neuronales y se “encarga” de identificar patrones en los datos, como el significado de una palabra, la relación entre frases o el tono de una conversación.
En un LLM puede haber miles de millones de parámetros. Cuantos más parámetros tiene un modelo, mayor es su capacidad para captar matices del lenguaje y generar respuestas más precisas. GPT‑4o el modelo más popular en ChatGPT cuenta aproximadamente con 1,8 billones de parámetros, mientras que Llama-4, desarrollado por Meta, llega ya hasta los 2 billones.
Sin embargo, más parámetros también implican mayor necesidad de recursos computacionales y datos de entrenamiento.
Token
Un token es la unidad mínima de texto que el modelo utiliza para procesar y generar lenguaje. Lo curioso es que un token no siempre corresponde a una palabra completa: puede ser una sílaba, una raíz de palabra, una letra o incluso un signo de puntuación, dependiendo del idioma y del sistema de codificación del modelo.
Los LLM no leen ni escriben texto directamente como los humanos, sino que convierten el texto en secuencias de tokens para poder operar con ellos, lo que a su vez determina la forma en la que podemos interactuar con el modelo. Por ejemplo, el equivalente tokenizado a la frase “"Los estudiantes de UDIT diseñan proyectos increíbles" podría ser: ["Los", " estudiantes", " de", " U", "DIT", " dise", "ñan", " proyectos", " increíbles", "."]
Hay que tener en cuenta en este sentido, que los límites de uso o capacidad de cada modelo se miden en tokens (por ejemplo, 4.000 o 100.000 tokens máximos por entrada) y que cada token ocupa memoria y determina tanto el tiempo de respuesta como el coste computacional.
Las empresas que utilizan las APIs de estos grandes modelos suelen pagar una tarifa basada tanto en la cantidad de tokens que envían en su petición (input), como los que reciben como respuesta (output).
Alucinación
En el terreno de la IA Generativa, una alucinación se refiere a una respuesta que parece coherente y creíble pero que, en realidad, es incorrecta, inventada o no tiene respaldo en datos reales.
Los LLM no verifican hechos: simplemente predicen la siguiente palabra más probable en función del contexto. Esto significa que, si no tienen la información precisa o si se les pide algo ambiguo, pueden generar una respuesta que “suena bien” pero no es verdadera.
Pese a los esfuerzos que se hacen para limitar su impacto, las alucinaciones siguen siendo uno de los principales desafíos a los que enfrenta la aplicación profesional de la IA generativa, especialmente en contextos como medicina, derecho o educación, donde la veracidad es crítica.
Sesgo
El sesgo se refiere a la tendencia que puede presentar un modelo de Inteligencia Artificial a la hora se reflejar (y a veces amplificar) las desigualdades, estereotipos o desequilibrios presentes en los datos con los que ha sido entrenado.
Estos sesgos pueden surgir de forma involuntaria si los datos de entrenamiento contienen patrones de discriminación, lenguaje excluyente o una representación desproporcionada de ciertos grupos o ideologías dominantes. Identificar y combatir estos sesgos es uno de los grandes retos existentes para el desarrollo de una IA responsable.
SML (Small Language Model)
Un SML o Small Language Model es un modelo de lenguaje natural similar a un LLM, pero con una arquitectura mucho más reducida en tamaño y número de parámetros.
Está diseñado para ofrecer capacidades de comprensión y generación de texto con menor consumo de recursos y resulta más fácil de entrenar o ajustar para desarrollar tareas específicas o ajustarse a las necesidades de un sector o empresa concreta.
Entre sus ventajas destaca el hecho de que puede ejecutarse localmente (en dispositivos locales o en servidores propios) sin depender de grandes infraestructuras en la nube, por lo que, además, resultan más apropiados a la hora de salvaguardar la privacidad de los datos.
Agente
Un agente es un sistema basado en un modelo de lenguaje que no solo genera texto, sino que también puede tomar decisiones y ejecutar acciones para cumplir una tarea específica.
A diferencia de un chatbot que responde de forma aislada, un agente tiene objetivos definidos y puede planificar los pasos necesarios para alcanzarlos, interactuando con otras herramientas, servicios o fuentes de información externas. Esto le permite, por ejemplo, buscar datos, ejecutar comandos o mantener un seguimiento de las acciones realizadas.
Gracias a esta capacidad de acción autónoma, los agentes se están utilizando cada vez más en tareas como atención al cliente, asistencia técnica, gestión de agendas, análisis de datos…etc. Para ello integran modelos de lenguaje con lógica de programación, acceso a APIs y, en algunos casos, memoria contextual.
Entrenamiento
Proceso mediante el cual el modelo aprende a generar lenguaje coherente y contextual a partir de grandes volúmenes de datos. Durante esta fase, el modelo ajusta miles de millones de parámetros internos para reconocer patrones, relaciones entre palabras y estructuras gramaticales, con el objetivo de predecir con precisión qué palabra (o token) debería aparecer a continuación en una secuencia determinada.
Este proceso se lleva a cabo utilizando potentes infraestructuras (a menudo empleando miles de GPUs) y puede durar semanas o meses, dependiendo del tamaño del modelo y de los datos disponibles para “alimentarlo”.
A lo largo del entrenamiento, el sistema no memoriza datos exactos, sino que extrae representaciones estadísticas del lenguaje. En este proceso existen dos etapas clave: el pre-entrenamiento (en el que se entrena el modelo de forma general con datos diversos) y el fine-tuning o ajuste fino, donde se refina el modelo con datos específicos o en tareas concretas para mejorar su rendimiento en contextos determinados.
Inferencia
La inferencia es el proceso mediante el cual un modelo ya entrenado genera una respuesta o realiza una predicción a partir de una entrada proporcionada por el usuario. En el caso de un modelo de lenguaje, la inferencia ocurre cuando tras escribir una pregunta, el modelo analiza los tokens necesarios para generar la secuencia de texto más probable como respuesta.
A diferencia del entrenamiento, que es costoso y largo, la inferencia ocurre en tiempo real y es lo que experimenta el usuario al interactuar con una IA. Este proceso puede realizarse en la nube, en servidores especializados, o localmente si se trata de modelos más pequeños.
Destilado
El destilado es una técnica que permite transferir el conocimiento de un modelo grande y complejo a otro modelo más pequeño, rápido y eficiente, sin perder demasiada precisión.
Este proceso funciona entrenando el modelo pequeño (llamado student) a imitar las salidas del modelo grande (el teacher), en lugar de entrenarlo directamente con los datos originales.
De esta forma, el modelo destilado aprende a replicar el comportamiento del original, pero con un menor uso de recursos, lo que lo hace más adecuado para su implementación en dispositivos móviles, entornos con restricciones de hardware o aplicaciones en tiempo real.
AGI (Artificial General Intelligence)
La AGI, o Inteligencia Artificial General, es una forma hipotética de Inteligencia Artificial capaz de realizar cualquier tarea cognitiva que pueda hacer un ser humano. A diferencia de los sistemas actuales que están diseñados para tareas específicas (por ejemplo, generar texto, traducir idiomas o responder preguntas), una AGI tendría capacidad de razonamiento general, similar (o tal vez superior) al de un ser humano.
Una AGI no solo procesaría información, sino que podría entender, aprender de la experiencia, trasladar conocimientos entre distintas áreas de conocimiento y actuar con autonomía en una variedad de entornos.
Aunque aún no existe (y es improbable que algún día se llegue a materializar) es el horizonte hacia el que apuntan muchos esfuerzos de investigación en IA.
Más información
Tesla y Optimus: la visión de Elon Musk
¿Qué diferencia hay entre la robótica centrada en las personas y la robótica industrial?