Los Modelos de Lenguaje de Gran Escala, también conocidos como LLMs (por sus siglas en inglés), se utilizan principalmente en el desarrollo de inteligencias artificiales generativas.
Así, pueden caracterizarse como un tipo de machine learning que acelera el aprendizaje de las IAs, como Chat GPT. Es gracias a la inmensidad de datos presentes en un LLM que una IA de este tipo puede generar imágenes, videos y textos según el input proporcionado por el usuario.
¿Qué son los LLMs?
Los LLMs pueden definirse como la fuerza impulsora de la inteligencia artificial generativa. Básicamente, son lo que hace que IAs como Gemini y Midjourney, por ejemplo, sean tan especiales. Al fin y al cabo, son inteligencias artificiales que responden y “crean” productos a partir de comandos provenientes de un prompt. Sin embargo, esta creación solo es posible gracias al volumen masivo de datos con los que cuenta la IA – que son generados a través de un LLM y transformados en el producto final.
Para no quedarnos en lo subjetivo, vamos a ejemplificar. Supongamos que accedes a GPT y le pides que cree 5 imágenes diferentes de un perrito sentado en el suelo, mirando el atardecer en una playa. El resultado de esa solicitud (las 5 imágenes generadas) solo ocurre porque la IA está alimentada con una gran cantidad de datos e información sobre imágenes de playas, perros y atardeceres.
Claro está, un buen prompt también es fundamental para que el output sea satisfactorio. Funciona como un conjunto de palabras clave que actúan como disparador para que la IA busque correctamente la información necesaria en su base de datos. Además, vale destacar que los LLMs pueden comprender y responder preguntas en lenguaje natural porque han sido entrenados con enormes cantidades de datos textuales.
De esta manera, con los datos adecuados disponibles, existen muchas formas en que las empresas pueden utilizar los LLMs – por ejemplo, permitir que el equipo de ventas use IA para tareas como generar propuestas comerciales, todo con base en datos relevantes de clientes que reflejan sus necesidades y preferencias.
¿Cómo funcionan los LLMs?
Los LLMs funcionan a través de modelos de aprendizaje de deep learning y machine learning. Además, podemos comparar los modelos de lenguaje con cerebros artificiales: compuestos por múltiples capas de redes neuronales interconectadas, capaces de ajustar sus propios parámetros durante el proceso de aprendizaje.
Uno de los componentes más poderosos de estos sistemas es el mecanismo de atención, que permite al modelo identificar y priorizar las partes más relevantes de la información procesada (inputs), como si supiera exactamente dónde enfocar su “atención” en medio de grandes volúmenes de texto.
De esta manera, el proceso de aprendizaje de los LLMs se basa en la anticipación: son entrenados para predecir cuál será la siguiente palabra en una secuencia, teniendo en cuenta todo lo que vino antes. Esto se hace transformando las palabras en tokens — pequeñas unidades de texto — que luego se convierten en vectores numéricos llamados embeddings. Estos vectores funcionan como un tipo de mapa que representa el significado contextual de las palabras dentro de un determinado enunciado.
Para que ese nivel de comprensión sea posible, los modelos deben ser expuestos a conjuntos de datos enormemente vastos, que suelen incluir miles de millones de páginas de texto. A partir de esa exposición, los LLMs logran captar patrones lingüísticos, comprender estructuras sintácticas e incluso inferir relaciones conceptuales abstractas. Técnicas como el aprendizaje autosupervisado y las capacidades de generalización sin ejemplos directos (zero-shot learning) hacen posible este avance.
Una vez entrenados, los modelos pueden generar textos de forma autónoma y contextualizada, reproduciendo el lenguaje humano con fluidez y coherencia. Esta habilidad los convierte en herramientas versátiles para una amplia gama de aplicaciones, desde asistentes virtuales hasta la generación automatizada de informes, resúmenes o códigos.
¿Por qué tener muchos datos no significa tener buenos datos?
En general, cuando se trata de inteligencia artificial y sus aplicaciones, nos encontramos con una idea bastante común: que tener una cantidad masiva de datos es la solución a todos los problemas de una empresa, y que, de esa forma, podrá crear o manejar una IA de manera efectiva. Sin embargo, esto está lejos de ser verdad.
Esto se debe a que de nada sirve contar con una base de datos enorme si esos datos no están armonizados y unificados. Para ello, es fundamental asegurarse de que los datos, aunque provengan de diferentes fuentes, no estén duplicados y que, al combinarse, se transformen en información relevante sobre los usuarios, leads y prospectos.
En este sentido, la armonización se convierte en el proceso de estandarización e integración de información proveniente de diferentes fuentes, formatos o estructuras, con el objetivo de hacerla compatible y comparable dentro de un entorno unificado. Este proceso implica identificar y resolver inconsistencias semánticas, estructurales y de formato entre los datos.
En el contexto de arquitecturas de datos modernas – como data lakes, data warehouses y sistemas de business intelligence –, la armonización es un paso crítico para garantizar la calidad e interoperabilidad de los datos antes de realizar análisis más avanzados. Cuando se lleva a cabo correctamente, permite que los algoritmos de machine learning, los análisis estadísticos y las visualizaciones operen sobre datos consistentes y confiables, reduciendo errores, sesgos y ruido.
¿Cómo entrenar los LLMs?
El entrenamiento de LLMs implica tres fases principales:
- Pre entrenamiento
- Ajuste fino (fine-tuning)
- Refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés)
En la fase de pre entrenamiento, el modelo se expone a un gran volumen de datos no etiquetados, como textos extraídos de la web, libros, artículos y otras fuentes públicas. El objetivo es enseñar al modelo a predecir la siguiente palabra en una secuencia de texto, utilizando técnicas de aprendizaje autosupervisado. Esto permite que el LLM aprenda estructuras lingüísticas, patrones semánticos y asociaciones contextuales a gran escala, utilizando arquitecturas como Transformer.
La segunda fase, el fine-tuning, se realiza sobre conjuntos de datos más específicos y cuidadosamente seleccionados, generalmente relacionados con el dominio de aplicación deseado. Esta etapa permite adaptar el modelo a las necesidades de un sector, empresa o tarea específica – como atención al cliente, soporte técnico, análisis jurídico o financiero. En esta fase también es común utilizar validación cruzada, control de overfitting y métricas específicas de rendimiento, como perplejidad o F1-score, dependiendo del tipo de tarea.
Las empresas que desean entrenar o adaptar LLMs a sus propios contextos pueden seguir dos enfoques:
- Entrenar modelos desde cero, lo cual requiere recursos computacionales masivos (generalmente clusters con miles de GPUs), o
- Aplicar técnicas de adaptación más accesibles, como fine-tuning, prompt tuning o LoRA (Low-Rank Adaptation), sobre modelos ya pre entrenados y disponibles públicamente (por ejemplo, LLaMA, Falcon, Mistral).
Este segundo enfoque es el más común en el entorno corporativo, ya que ofrece flexibilidad y eficiencia sin el costo extremo del pre entrenamiento. Al personalizar LLMs con datos específicos de la empresa, es posible generar soluciones más inteligentes, responsivas y alineadas con los objetivos del negocio —desde la automatización de procesos hasta el apoyo a la toma de decisiones estratégicas.
Ejemplo del uso de IA en el día a día de las empresas
Caso Fórmula 1 y Agentforce
La Fórmula 1 está experimentando un crecimiento global impulsado por su base de fanáticos jóvenes y diversos, alcanzando los 750 millones de personas en 2023. Para acompañar esta expansión y personalizar la experiencia de los aficionados (la mayoría de los cuales siguen el deporte de forma digital), la F1 adoptó soluciones de Salesforce, como Agentforce, Service Cloud, Marketing Cloud y Data Cloud.
De este modo, con datos integrados de más de 100 fuentes, la F1 ofrece soporte un 80% más rápido y resuelve el 95% de los casos en el primer contacto. Además, la inteligencia artificial personalizada aumentó en un 22% la tasa de clics en campañas de marketing. Por último, el ecosistema de Salesforce se completa con el uso de Tableau y Sales Cloud, que apoyan al equipo comercial, transformando datos de los fans en insights valiosos para nuevas asociaciones.
Caso interno de Salesforce
El sitio de Ayuda de Salesforce recibe más de 60 millones de visitas al año, y la creciente demanda de soporte llevó a la creación de Agentforce, una capa inteligente que ofrece atención 24/7 basada en inteligencia artificial y lenguaje natural. Integrado con Data Cloud y Service Cloud, Agentforce accede a datos en tiempo real, como historial de casos, compras y uso de productos, para responder de forma personalizada e instantánea a hasta el 85% de las solicitudes de los clientes, sin intervención humana.
En tan solo seis meses, Salesforce redujo el tiempo de respuesta en un 65% y ya ha realizado más de 1 millón de interacciones. A diferencia de los antiguos chatbots basados en palabras clave, Agentforce comprende preguntas complejas en el contexto del cliente y realiza tareas como restablecer contraseñas, informar límites de API y escalar los casos más críticos directamente a representantes humanos, con todo el contexto ya resumido. Salesforce demuestra cómo la combinación de automatización inteligente y un toque humano redefine la experiencia del soporte moderno.
*Nota original de Salesforce LATAM Blog.

