📢 Estrategias ProPicks IA para cuando el rally Tech pare. ¡Dobló al S&P 500 en julio!Desbloquee informe IA

Meta desata su bestia de 405B parámetros, Llama 3.1

Publicado 23.07.2024, 03:18 p.m
Meta desata su bestia de 405B parámetros, Llama 3.1

Meta lanza Llama 3.1, un modelo de IA de 405B parámetros que promete revolucionar el panorama de la inteligencia artificial de código abierto. Este gigante tecnológico podría competir con modelos propietarios líderes como GPT-4 y Claude 3.5 Sonnet.

***

  • Llama 3.1 cuenta con 405B parámetros y es multilingüe
  • El modelo permite la destilación y creación de datos sintéticos
  • Estará disponible en diversas plataformas cloud y servicios de IA
En un movimiento que ha sacudido el mundo de la inteligencia artificial, Meta ha lanzado oficialmente Llama 3.1, la versión más potente de su modelo de lenguaje de código abierto. El anuncio, realizado el 23 de julio de 2024, marca un hito en la carrera por democratizar la IA avanzada.

Llama 3.1 se presenta como un coloso de 405 mil millones de parámetros, una cifra que lo coloca en la liga de los modelos más avanzados del mercado. Esta nueva iteración no solo supera a sus predecesores en tamaño, sino que también promete un rendimiento comparable al de modelos propietarios líderes como GPT-4 y Claude 3.5 Sonnet.

La multilingüalidad es otra de las características destacadas de Llama 3.1. El modelo es capaz de procesar y generar contenido en inglés, portugués, español, italiano, alemán, francés, hindi y tailandés, ampliando así su alcance y utilidad en un contexto global.

Un modelo diseñado para enseñar y crear Una de las innovaciones más significativas de Llama 3.1 es su capacidad para actuar como un “modelo maestro”. Según Ragavan Srinivasan, vicepresidente de Gestión de Programas de IA en Meta, esta versión de 405B parámetros puede “enseñar” a modelos más pequeños y crear datos sintéticos.

“Este modelo, desde una perspectiva de rendimiento, va a ofrecer un desempeño que es vanguardista cuando se trata de modelos de código abierto, y va a ser increíblemente competitivo con muchos de los modelos propietarios, cerrados y líderes de la industria”, afirmó Srinivasan en una entrevista con VentureBeat.

La licencia de Llama 3.1 ha sido actualizada para permitir la destilación del modelo y la creación de datos sintéticos. Esto significa que los desarrolladores podrán transferir el conocimiento del modelo grande a versiones más pequeñas y eficientes, adaptadas a tareas específicas.

El concepto de destilación de modelos no es nuevo en el campo de la IA, pero su aplicación en un modelo de esta escala y con una licencia de código abierto podría acelerar significativamente la innovación en el sector.

Arquitectura y entrenamiento Contrariamente a la tendencia actual hacia arquitecturas de mezcla de expertos, Meta optó por una estructura de transformador estándar para Llama 3.1. Esta decisión se tomó con el objetivo de mejorar la escalabilidad del modelo.

El entrenamiento de Llama 3.1 requirió más de 16,000 GPUs NVIDIA (NASDAQ:NVDA) H100, lo que da una idea de la magnitud del esfuerzo computacional involucrado. Meta utilizó un “procedimiento de post-entrenamiento iterativo” para el ajuste fino supervisado y creó datos sintéticos de “la más alta calidad” para mejorar su rendimiento.

Una característica notable es la expansión de la ventana de contexto a 128,000 tokens, lo que permite al modelo procesar y generar textos equivalentes a una novela de casi 400 páginas.

Disponibilidad y acceso Fiel a su compromiso con el código abierto, Meta ha anunciado que Llama 3.1 estará disponible a través de diversas plataformas y servicios cloud, incluyendo AWS, NVIDIA, Groq, Dell, Databricks, Microsoft (NASDAQ:MSFT) Azure y Google (NASDAQ:GOOGL) Cloud.

Matt Wood, vicepresidente de IA en AWS, confirmó que Llama 3.1 estará disponible tanto en AWS Bedrock como en Sagemaker. “Los clientes pueden usar toda la bondad públicamente disponible de Llama y hacer todo tipo de cosas interesantes con estos modelos, desarmarlos y volver a armarlos con todas las herramientas disponibles en AWS“, explicó Wood.

Implicaciones para el futuro de la IA El lanzamiento de Llama 3.1 plantea interrogantes sobre el futuro de los modelos de IA propietarios. Si un modelo de código abierto puede igualar o superar el rendimiento de sus contrapartes cerradas, ¿cómo afectará esto a la industria?

Por un lado, la democratización de modelos avanzados podría acelerar la innovación y permitir aplicaciones de IA en campos que antes estaban limitados por los costos o las restricciones de acceso. Por otro lado, surgen preocupaciones sobre el uso ético y la seguridad de modelos tan potentes cuando están disponibles abiertamente.

Es importante notar que, aunque Llama 3.1 se presenta como competitivo con modelos como GPT-4, las comparaciones directas son complejas debido a las diferencias en los conjuntos de datos de entrenamiento y las metodologías de evaluación.

En última instancia, el impacto real de Llama 3.1 se medirá por las aplicaciones e innovaciones que surjan de su uso en el mundo real. Con su disponibilidad en múltiples plataformas y su capacidad para “enseñar” a modelos más pequeños, Llama 3.1 podría ser el catalizador de una nueva ola de avances en IA accesible y personalizable.

¿Qué significa realmente que Llama 3.1 tenga 405 mil millones de parámetros y cómo se compara esto con modelos anteriores? Respuesta: Los parámetros en un modelo de lenguaje son esencialmente las variables que el modelo ajusta durante el entrenamiento para hacer predicciones. Generalmente, un mayor número de parámetros permite al modelo capturar relaciones más complejas en los datos y realizar tareas más sofisticadas.

Llama 3.1 con 405B parámetros es significativamente más grande que sus predecesores (Llama 3 tenía versiones de 8B y 70B) y se acerca en tamaño a algunos de los modelos más grandes conocidos públicamente, como GPT-3 (175B) y GPT-4 (se estima que tiene alrededor de 1 billón de parámetros).

¿Cómo puede un modelo de código abierto como Llama 3.1 competir con modelos propietarios como GPT-4 o Claude 3.5 Sonnet? La competitividad de Llama 3.1 se basa en varios factores. Primero, el tamaño del modelo y la calidad de los datos de entrenamiento juegan un papel crucial.

Meta ha invertido recursos significativos en el desarrollo de Llama 3.1.

Además, el enfoque de código abierto permite una mayor colaboración y mejora continua por parte de la comunidad.

Sin embargo, es importante notar que la verdadera competitividad solo se podrá determinar a través de evaluaciones exhaustivas y aplicaciones del mundo real.

¿Qué implicaciones tiene la capacidad de “destilación del modelo” mencionada en el artículo? La destilación del modelo permite transferir el conocimiento de un modelo grande (como Llama 3.1) a modelos más pequeños y eficientes.

Esto es significativo porque permite crear versiones más ligeras del modelo que pueden funcionar en dispositivos con menos recursos computacionales, ampliando así el alcance y la aplicabilidad de la tecnología.

También facilita la creación de modelos especializados para tareas específicas, potencialmente mejorando el rendimiento en esas áreas.

¿Cómo afectará esto al mercado laboral y a las industrias que dependen de la IA? El lanzamiento de Llama 3.1 podría acelerar la adopción de IA avanzada en diversas industrias, potencialmente automatizando más tareas y creando nuevas oportunidades de innovación.

Esto podría llevar a cambios significativos en el mercado laboral, con una mayor demanda de habilidades relacionadas con la IA y la necesidad de readaptación en algunos sectores.

Al mismo tiempo, la disponibilidad de un modelo tan potente de código abierto podría democratizar el acceso a la IA avanzada, permitiendo a empresas más pequeñas y a desarrolladores individuales crear aplicaciones innovadoras

Fuente: VentureBeat

Imagen original de DiarioBitcoin, de uso libre, licenciada bajo Dominio Público

Artículo creado con asistencia de inteligencia artificial

Leer más en Diario Bitcoin

Últimos comentarios

Instala nuestra app
Aviso legal: Las operaciones con instrumentos financieros o criptomonedas implican un elevado riesgo, incluyendo la pérdida parcial o total del capital invertido, y pueden no ser adecuadas para todos los inversores. Los precios de las criptomonedas son extremadamente volátiles y pueden verse afectados por factores externos de tipo financiero, regulatorio o político. Operar sobre márgenes aumenta los riesgos financieros.
Antes de lanzarse a invertir en un instrumento financiero o criptomoneda, infórmese debidamente de los riesgos y costes asociados a este tipo operaciones en los mercados financieros. Fije unos objetivos de inversión adecuados a su nivel de experiencia y su apetito por el riesgo y, siempre que sea necesario, busque asesoramiento profesional.
Fusion Media quiere recordarle que la información contenida en este sitio web no se ofrece necesariamente ni en tiempo real ni de forma exacta. Los datos y precios de la web no siempre proceden de operadores de mercado o bolsas, por lo que los precios podrían diferir del precio real de cualquier mercado. Son precios orientativos que en ningún caso deben utilizarse con fines bursátiles. Ni Fusion Media ni ninguno de los proveedores de los datos de esta web asumen responsabilidad alguna por las pérdidas o resultados perniciosos de sus operaciones basados en su confianza en la información contenida en la web.
Queda prohibida la total reproducción, modificación, transmisión o distribución de los datos publicados en este sitio web sin la autorización previa por escrito de Fusion Media y/o del proveedor de los mismos. Todos los derechos de propiedad intelectual están reservados a los proveedores y/o bolsa responsable de dichos los datos.
Fusion Media puede recibir contraprestación económica de las empresas que se anuncian en la página según su interacción con éstas o con los anuncios que aquí se publican.
Este aviso legal está traducido de su texto original en inglés, versión que prevalecerá en caso de conflicto entre el texto original en inglés y su traducción al español.
© 2007-2024 - Fusion Media Ltd. Todos los Derechos Reservados.