¿Cómo se creó el modelo de gran tamaño Qingliu Cohere?

Fuente: Shidao

Fuente de la imagen: Generada por IA ilimitada

Resumen del contenido de este número:

1 joven de 20 años participó en importantes ponencias que marcaron el comienzo de la era de la IA generativa 2 Un emprendedor chino al que le gusta jugar con la tecnología y un chico talentoso fundaron conjuntamente Cohere 3 ¿Qué riesgos traerá la IA y cuáles son sus mayores oportunidades en el futuro?

La competencia mundial en el campo de los grandes modelos básicos continúa. OpenAI, que ha recaudado decenas de miles de millones de dólares, es sin duda uno de los pioneros. Su aplicación estrella ChatGPT tiene cientos de millones de usuarios activos. Sin duda, es difícil competir frontalmente con él.

Un unicornio de IA con una valoración de 2.000 millones de dólares ha encontrado una ruta diferenciada en la competencia de los grandes modelos básicos, convirtiéndose en un soplo de aire fresco en el tumulto del emprendimiento de los grandes modelos.

Este unicornio es Cohere, que fue cofundada por Aidan Gómez, el autor más joven del innovador artículo "La atención es todo lo que necesitas", y dos de sus ex alumnos de la Universidad de Toronto, Ivan Zhang y Nick Frosst.

Cohere recibió recientemente 270 millones de dólares en financiación Serie C, lo que eleva el monto de financiación acumulada a más de 430 millones de dólares y una valoración de más de 2.100 millones de dólares. Su lista de inversores incluye gigantes corporativos como Salesforce, NVIDIA y Oracle, importantes instituciones de inversión como Tiger Global e Index Ventures, así como conocidos expertos en IA como Geoffrey Hinton (los tres gigantes del aprendizaje profundo y ganador del Premio Turing Premio) y Li Feifei. Entre sus socios también se incluyen Amazon, McKinsey, etc.

¿Por qué Cohere es un soplo de aire fresco en el tumulto del emprendimiento de grandes modelos?

En términos de productos, se centra en atender a clientes de nivel empresarial. Basado en el potente modelo grande Command, proporciona procesamiento de textos de nivel empresarial, preguntas y respuestas sobre conocimientos y otras funciones, y el modelo se puede ajustar y personalizar. Además, lanzó Coral, un asistente de conocimiento a nivel empresarial.

En términos de seguridad, para disipar las dudas de los clientes empresariales, sus productos se pueden implementar en múltiples nubes y en las instalaciones, y tienen un alto grado de privacidad de datos.

En términos de estrategia de financiación, prefiere tomar dinero de grandes empresas relacionadas con su propia cadena industrial y utilizar el poder de los gigantes para desarrollarse, pero no está atado a los gigantes (consulte la relación entre OpenAI y Microsoft).

Como conocido unicornio de IA, los productos de Cohere y las ventajas competitivas corporativas se han estudiado en profundidad. Intentamos abordarlos desde la perspectiva de los empresarios, utilizando múltiples entrevistas con los dos fundadores de Cohere, Aidan Gómez e Ivan Zhang, como materiales para ordenar la historia de Cohere. El proceso de desarrollo de 0 a 1, así como las numerosas ideas de los dos empresarios Aidan e Ivan sobre las empresas y la IA.

*Nota: El material de este artículo proviene de conversaciones entre el inversor de Cohere y socio de Madrona, Jon Turow, el fundador de Weights&Bias, Lukas Biewald, el conocido periodista de medios Steven Marsh y los dos cofundadores de Cohere, Aidan Gomez e Ivan Zhang. *

El joven de 20 años participó en un importante artículo que marcó el comienzo de la era de la IA generativa.

Aidan Gómez es el autor más joven del artículo fundamental "La atención es todo lo que necesitas" en el campo de los modelos de lenguaje grandes. En ese momento, fue a Google Brain de la Universidad de Toronto para hacer una pasantía, todavía tenía unos 19 o 20 años cuando era estudiante, esta fue su primera experiencia en el mundo tecnológico estadounidense.

Aidan Gómez en la Universidad de Toronto

Su mentor de prácticas en Google fue Lukasz Kaiser, uno de los principales autores de "La atención es todo lo que necesitas". En ese momento, construyeron conjuntamente Tensor, una plataforma de software para entrenar grandes redes neuronales, y también estaban entrenando un modelo de IA. La idea es entrenar un enorme modelo de IA que pueda aprender a hacer muchas cosas a partir de un conjunto de datos. Para entrenarlo es necesario utilizar conjuntos de datos en múltiples modalidades, incluidas imágenes, texto e incluso vídeos.

En ese momento, Aidan y Noam Shazeer (también autor del artículo de Transformer) eran "estudiantes". Noam también estaba estudiando modelos de lenguaje grandes, pero el algoritmo que estudió fue RNN (red neuronal recurrente). El objetivo de Noam es encontrar una nueva arquitectura que sea más simple, más refinada y más escalable que RNN.

Entonces Lukasz, Aidan y Noam se llevaron bien y planearon hacer esta investigación juntos. Luego descubrieron que Niki Parmar, Jakob Uszkoreit y Ashish Vaswani del grupo de traducción de Google Brain tenían ideas similares a las suyas. Después de que los dos grupos se fusionaron, todos trabajaron juntos. Después de una extensa investigación, nació la pieza final "La atención es todo lo que necesitas".

El documento se presentó a primera hora de la mañana, cuando sólo había dos personas en la oficina, Aidan y Ashish. Después de enviar el manuscrito, quedaron inmersos en la emoción. Ashish había previsto que este documento podría tener un gran impacto, pero el joven Aidan está presentando un documento importante por primera vez y aún no conoce la importancia de este documento. Como dijo en una entrevista con el columnista del New Yorker Steven Marsh: "No creo que nadie prevea lo que será en el futuro".

Quedó realmente impactado por el impacto práctico del modelo Transformer después de regresar a la Universidad de Toronto después de su pasantía.

"En ese momento, estaba haciendo una investigación de verano en la Universidad de Toronto, y luego recibí un correo electrónico de Lukasz con el asunto "Mira esto". El contenido del correo electrónico era una historia sobre una banda japonesa de punk rock. La historia registró cómo formaron un grupo y cómo lanzaron un álbum. Luego se arrepintió del proceso de disolución. Al final del correo electrónico, Lukasz escribió: "La única palabra que ingresé fue transformador, y el modelo generó automáticamente la historia".

Después de leer este texto generado por máquina, creo que esto iniciará una revolución en el producto. Porque, por primera vez, un sistema no humano utiliza el lenguaje de una manera tan convincente como nosotros los humanos. ”, le dijo Aidan a Steven Marsh.

Árbol evolutivo modelo grande.

Cuando nacieron "Attention is All You Need" y Transformer, este modelo innovador fue rápidamente adoptado por la comunidad de IA y se convirtió en un nuevo estándar técnico. Ha provocado una locura entre los investigadores de IA, y constantemente surgen modelos potentes basados en Transformer, como BERT y GPT. A finales de 2022, ChatGPT inició oficialmente el auge de la IA generativa.

Un emprendedor chino al que le gusta jugar con la tecnología y un chico talentoso fundaron conjuntamente Cohere

Ivan Zhang, cofundador de Cohere, es un investigador de IA atípico, pero un emprendedor típico. Él y Aidan son ex alumnos de la Universidad de Toronto y luego abandonaron la escuela para iniciar un negocio con Aidan. "Soy un creador. No me gusta sentarme en un aula y simplemente absorber mucha información. Necesito hacerlo yo mismo y aprender mientras 'juego con la tecnología'. Esta es la mejor manera de aprender para mí". Así se presenta Jon Turow, que invirtió en Cohere.

Ivan Zhang, cofundador de Cohere

De investigador a emprendedor, de ToC a ToB

En 2017, después de abandonar la Universidad de Toronto, Iván trabajó como ingeniero de back-end en una nueva empresa y fue entonces cuando conoció a Aidan Gómez. En ese momento, Aidan quería crear un grupo de investigación de IA independiente para realizar investigaciones de IA basadas en intereses y verificar sus ideas innovadoras, por lo que fundaron FOR.ai juntos. Esta organización todavía está en funcionamiento y se llama Cohere For AI. Está compuesta por varios científicos investigadores en el campo de la IA y realiza principalmente investigación básica sobre IA.

En 2019, Ivan le propuso a Aidan: "¿Por qué no hacemos algo nuevo juntos?" Así que se independizaron de FOR.ai y comenzaron un negocio más formal. En esta etapa, ya tienen experiencia empresarial, comprenden la forma correcta de administrar una organización y han conocido a muchos fundadores en el campo de la IA.

En los primeros días de Cohere, su primera idea era construir una plataforma básica de IA que permitiera a los desarrolladores cargar modelos de IA, y luego la plataforma comprimiría el tamaño del modelo para hacerlo más eficiente. Pero en ese momento, la moda por la IA generativa aún no había llegado y el mercado aún era demasiado pequeño.

Como autor del artículo, Aidan observó el floreciente desarrollo del modelo Transformer en la comunidad de IA, vio que resolvió varios problemas relacionados con el procesamiento de texto y vio a los desarrolladores mejorar esta arquitectura. En ese momento, se lanzó el GPT-2 de OpenAI y los parámetros del modelo Transformer superaron los mil millones, lo que también hizo que Aidan se diera cuenta aún más de la importancia de la escala del modelo y el potencial real de esta arquitectura modelo.

Como resultado, varios fundadores transformaron Cohere de una plataforma de compresión de modelos a modelos y servicios básicos de gran tamaño.

"Después de experimentar GPT-2, descubrimos que es genial, pero no estamos seguros de qué servicios se pueden crear utilizando modelos básicos de IA como GPT. Primero intentamos construir el primer proyecto de Cohere, que era una herramienta de finalización automática de texto. tiene la forma de una extensión del navegador Chrome. Los usuarios solo necesitan ingresar un fragmento de texto en el cuadro de texto y pueden continuar completándose automáticamente. Inicialmente planeamos usar publicidad para ganar dinero. (Nota: este es un negocio de ToC modelo). Pero obviamente subestimamos la dificultad de construir un producto de consumo. La experiencia de este producto no es buena y no ha ganado muchos usuarios. Entendemos que no tenemos ninguna ventaja competitiva en esta dirección.

Por lo tanto, decidimos desmantelar la interfaz de front-end y solo proporcionar las capacidades del modelo de back-end, pasando de ToC a ToB para brindar servicios API de nivel empresarial. En ese momento, el 99% de los casos de uso de PNL requerían incrustación de palabras y ajuste del modelo, por lo que en unos pocos meses construimos una plataforma API con capacidades de generación de IA que podía integrar y ajustar el modelo. Ivan compartió el pensamiento detrás de la transformación de Cohere con Jon Turow.

En cuanto a por qué Cohere recurrió a ToB y el núcleo de la misión de la empresa, Aidan Gómez hizo una declaración clara: "Solo queremos crear grandes modelos de IA utilizados por más personas. En ese momento, los desarrolladores y las empresas querían aprovechar las capacidades. de los grandes modelos de IA, independientemente de Hay muchos obstáculos en términos de tecnología y potencia informática. El significado de nuestra existencia es eliminar los obstáculos para que las personas utilicen grandes modelos de IA, de modo que los desarrolladores que no están familiarizados con la IA, así como los Las empresas ordinarias pueden utilizar fácilmente las capacidades de IA.

Porque la interacción conversacional exclusiva de la IA generativa es la mejor experiencia para los usuarios finales. Tomándome a mí como ejemplo, cuando quiero abrir una cuenta bancaria, si un banco puede tener una aplicación móvil que pueda interactuar conmigo las 24 horas del día y resolver problemas de manera eficiente, será mucho más atractivo para mí.

Cohere está aquí para hacer precisamente eso, ayudar a todo tipo de empresas y organizaciones a aprovechar el poder de la IA generativa para mejorar su ventaja competitiva.

Cohere permite a los clientes empresariales ajustar modelos con sus propios datos

Cuando las empresas adopten capacidades de IA, también tendrán preguntas sobre dos cuestiones: el alojamiento de modelos y la privacidad de los datos. Admitimos alojamiento en múltiples nubes. Las empresas pueden elegir el servicio en la nube que más les convenga o implementarlo en un servidor local. También damos gran importancia a la privacidad de los datos. Cuando las empresas utilizan sus propios datos para ajustar el modelo, ya sea implementado en la nube o en un servidor local, no veremos sus datos. Esta es una de nuestras características principales. "

La estrategia de talento ecléctica da forma a la alta creatividad de Cohere

La capacidad de Cohere para girar rápidamente y encontrar su posición correcta en las primeras etapas es inseparable de la perspectiva de talento y la filosofía empresarial que Ivan y Aidan han acumulado desde FOR.ai. Ivan compartió su filosofía de reclutamiento de talentos y su cultura empresarial cuando habló con Jon Turow: "Nuestro método de reclutamiento es diferente. Cuando FOR.ai inició el negocio, establecimos un principio: buscamos personas de diferentes orígenes, pero alguien que sea muy interesado en la IA y quiere tener un gran impacto.

No es necesario tener una experiencia perfecta trabajando en Meta AI, DeepMind o Google, pero debes tener un gran interés y entusiasmo en el campo en el que te enfocas. Y no sólo puedes escribir artículos, sino también tener habilidades prácticas. Llevamos este enfoque de reclutamiento a Cohere y construimos un equipo muy sólido en la etapa inicial.

En términos de cultura empresarial, nos gusta explorar mucho la tecnología, "jugar con la tecnología" y luego lograr avances. Aunque todos escribimos artículos, no somos "nerds". Tenemos una idea muy clara de lo que debemos hacer y dedicamos mucho tiempo a prácticas de ingeniería en lugar de simplemente a la exploración de algoritmos. Esto nos permite crear productos que realmente puede aportar beneficios a las personas. "

Ahora que OpenAI ocupa la posición C de IA generativa, ¿ChatGPT, que ya tiene cientos de millones de usuarios activos, ayudará a OpenAI a monopolizarla? ¿Todavía tienen oportunidades otras empresas? Aidan Gómez tiene su propia opinión: "No creo en absoluto que vaya a haber un monopolio en el sector de los modelos grandes. Creo que cada empresa tiene su propio estilo, su dirección y sus propias ventajas, y encontrará su propio lugar en el mercado. Los clientes consumidores y empresariales elegirán el mejor socio, la empresa más confiable y la plataforma que mejor pueda ayudarlos a tener éxito.

Para empresas de modelos básicos como Cohere, el estado final al que nos enfrentamos probablemente no será el de un ganador que se lo lleva todo, sino una estructura de mercado diversificada. Confiaremos en nuestras propias ventajas para ganar nuestros propios juegos. Utilizaremos varios métodos para ayudar a los clientes a que puedan utilizar las mejores capacidades de IA. Nuestro objetivo es permitir que el modelo de IA ayude a clientes específicos a obtener el máximo valor a través de varios métodos, incluidas indicaciones y ajustes. "

¿Qué riesgos trae la IA y cuáles son sus mayores oportunidades en el futuro?

La explosión de la IA generativa, si bien ha sido bien recibida, también ha causado muchas preocupaciones. A nivel público, a la gente le preocupa si la IA se desarrollará demasiado rápido y será demasiado poderosa, "robando" así oportunidades laborales humanas; en el nivel práctico, muchas personas están preocupadas por la seguridad y controlabilidad de los modelos de IA.

Aidan Gómez e Ivan Zhang también expresaron sus opiniones sobre este tema.

La IA puede “contaminar” las redes sociales

La visión de Aidan Gómez es más social: dijo que la “contaminación” de las redes sociales por el contenido generado por IA es digna de preocupación: “En lugar de preocuparnos de que la inteligencia no humana reemplace a los humanos, lo que tal vez no suceda hasta dentro de muchos años, deberíamos pagar atención a los riesgos reales actuales.

Por ejemplo, es muy posible que la IA pueda generar millones de bots que ingresen sin problemas a nuestras redes sociales y conversaciones públicas y luego impulsen un determinado punto de vista (ya sea que ese punto de vista sea útil o perjudicial). Esto puede tener consecuencias imprevistas en algunas cuestiones públicas que pueden tener un impacto significativo en la sociedad.

Por eso debemos sopesar los riesgos de este asunto, y lo mejor es tener políticas específicas para mitigar este riesgo. Por ejemplo, las personas tienen derecho a saber si el contenido de los medios o el contenido de marketing que leemos es creado por humanos o sintetizado por máquinas. "

La visión de Ivan Zhang es relativamente realista y cree que la IA se enfrenta a dos desafíos importantes: "Para los desafíos que enfrenta la IA, la información que obtenemos de los clientes es, en primer lugar, cómo evaluar la capacidad de los modelos generativos de IA. Comparar con precisión dos modelos de IA. Esta habilidad no es fácil y, en términos de generación de texto, es probable que esta comparación sea subjetiva, lo que creará ciertos obstáculos para la adopción comercial de la IA generativa.

Otro desafío es la cuestión de la privacidad de los datos: cuando se utilizan grandes modelos de código abierto o cerrado para uso comercial, a veces se utilizan algunos datos confidenciales, lo que a su vez crea problemas de cumplimiento. Por ejemplo, al utilizar IA para ayudarle a escribir un correo electrónico confidencial, ¿le preocuparía que se abuse de los datos confidenciales que ingresa en el modelo? Por supuesto, esta preocupación se convierte en una oportunidad para nosotros y estamos trabajando con Oracle para abordar este problema. "

La inteligencia incorporada es una gran oportunidad para la IA en el futuro

Aidan Gomez e Ivan Zhang son empresarios y expertos en IA, y también merecen atención sus opiniones sobre las nuevas direcciones y oportunidades de la IA en el futuro.

En primer lugar, todos mencionaron la misma tecnología en diferentes ocasiones, que es la inteligencia incorporada, es decir, inyectar las capacidades de la IA generativa en máquinas tangibles.

Aidan le dijo a Lukas Biewald: "Creo que es realmente genial aplicar la IA generativa a la robótica y la materialización, y hay una demanda muy fuerte en esta dirección. Todos imaginamos lo que harían los robots con alta inteligencia y cuerpos flexibles. ¿Qué te parece? "Definitivamente producirá un gran cambio. Pero todavía queda un largo camino por recorrer en esta dirección, y también espero poder tener un impacto en esta dirección e intentar hacer algo relacionado".

Ivan también cree que la inteligencia incorporada es definitivamente una gran oportunidad para la siguiente etapa de la IA: "Creo que la mayor oportunidad es el 'modelo de acción' que puede afectar a las entidades. Combinar la IA con productos físicos y de ingeniería será muy emocionante. Definitivamente habrá "Habrá muchas empresas interesadas en ellos. Sin embargo, para que esta tecnología se materialice, es necesario mejorar aún más la precisión del modelo".

Además, Aidan también hizo una visión a largo plazo para el desarrollo inteligente y las aplicaciones futuras de la IA: "Ahora la construcción de modelos de IA depende de los humanos. Para hacer que la IA sea más inteligente, utilizaremos diversos conocimientos humanos de alto nivel para entrenarlo. Por ejemplo, es como pedirle a una persona muy inteligente que le enseñe una IA no tan inteligente. Luego, en el futuro, si el modelo de IA se vuelve muy inteligente y todo el conocimiento humano ha sido aprendido por él, lo hará. Nos enfrentamos a un punto crítico: a los humanos no les queda nada que enseñar a la IA.

Lo que más me interesa es ¿qué sucederá si la IA supera este punto crítico? Si un grupo de IA que ha aprendido el conocimiento existente de los humanos habla, explora y aprende juntos, ¿generarán nuevos conocimientos?

Quizás cuando llegue ese momento, los humanos aprenderemos nuevos conocimientos de la IA, y la IA llevará a los humanos a nadar en el nuevo océano de conocimiento. "

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)