AI Agent se está haciendo cargo del modelo de lenguaje grande LLM y se ha convertido en el tema más candente en el círculo de la IA.
En la actualidad, la situación en el círculo de capital de riesgo de IA es aproximadamente la siguiente:
Big Factory Club: los empleados internos de OpenAI afirman que AI Agent es la nueva dirección de OpenAI; Microsoft está tratando de promover el copiloto y dejar que AI desempeñe el papel de asistente, que es un escenario típico de AI Agent; NVIDIA ha lanzado Voyager, este AI Agent puede sea autónomo Escriba código para dominar el juego "Minecraft"; SenseTime nacional también lanzó un agente de IA generalista; Alibaba lanzó un empleado digital...
Círculo académico: en abril de este año, Stanford creó una ciudad de Westworld, que permite a 25 agentes de IA simular humanos en el entorno sandbox de la ciudad virtual y enamorarse, festejar, colaborar, tener citas, etc. con otros agentes de IA. Además, algunos académicos han comenzado a utilizar agentes de inteligencia artificial para diseñar experimentos científicos complejos, incluida la lectura automática de artículos en línea y la investigación de medicamentos contra el cáncer... Estas exploraciones de vanguardia son alucinantes.
Círculo de emprendimiento: AI Agent no es solo un juego para los mejores científicos. Han surgido muchos proyectos como Camel, AutoGPT, BabyAGI y AgentGPT. También hay una gran cantidad de desarrolladores y emprendedores de comunidades de código abierto que utilizan estos proyectos de código abierto para crear algunas herramientas prácticas. . Por ejemplo, aomni es una aplicación AI Agent que ayuda a los usuarios a capturar información de la red y enviarla por correo electrónico.
Círculo de inversión: AI Agent se considera "el comienzo de la era de la inteligencia artificial general (AGI)", y su estallido es "férreo". Algunos empresarios de Silicon Valley dijeron que cuando hablan con inversores sobre agentes generativos, todos esperan con ansias a él y esperando que comprenda más, se acerque y responda más rápido a los arrebatos posteriores.
A partir de estos juicios, todavía es demasiado pronto para decir que "AI Agent ha abierto la segunda mitad de los modelos grandes", pero debe quedar claro que "AI Agent es el estándar comercial para los modelos grandes".
Por lo tanto, a continuación deberíamos ver a más fabricantes y empresas emergentes importantes tomando más medidas sobre AI Agent.
Entonces, ¿qué es exactamente AI Agent? ¿Por qué se dice que es una condición necesaria para la comercialización de modelos grandes?
El gran modelo es arrogante y arrogante, pero los usuarios todavía no pagan.
Aquí primero dejamos a un lado el Agente AI y echamos un vistazo a cómo es el modelo grande.
Creo que la mayoría de los lectores están de acuerdo en que los grandes modelos son algo con una gran visión, una gran inversión y un alto umbral. Desde una perspectiva sentimental, es posible realizar una inteligencia artificial general y cambiar completamente la sociedad; desde una perspectiva secular, puede reconstruir los negocios. productos y permitir que las empresas de tecnología El rendimiento aumentó.
Pero todo esto se basa en el hecho de que los modelos grandes pueden comercializarse verdaderamente, recuperar los costos de I+D y lograr un desarrollo saludable y sostenible.
En los últimos meses, dos modelos de negocio para modelos grandes se han vuelto más efectivos: uno es el despliegue local privatizado de modelos grandes por parte de gobiernos y empresas de diversas industrias; el otro es la potencia informática necesaria para vender modelos grandes a través de nubes y servidores de IA. , etc.
En la actualidad, los fabricantes nacionales han publicado los correspondientes informes comerciales y han obtenido decenas de millones de ingresos gracias a la demanda de implementación de la privatización en la industria.
Sin embargo, el negocio ToB por sí solo no puede respaldar un modelo de negocio a gran escala.
En una revolución tecnológica, la tecnología central debe fluir y ser utilizada por miles de millones de usuarios comunes para crear valor económico. Después de que las PC domésticas, Internet y los teléfonos inteligentes se hicieran populares entre las masas, el valor de mercado de muchas empresas de tecnología se disparó.
Hoy en día, los gigantes han invertido muchos recursos en entrenar modelos grandes, especialmente modelos básicos, que a menudo tienen escalas de parámetros de cientos de miles de millones o billones y deben ser utilizados por usuarios masivos.
Entonces, ¿cuál es la experiencia real de la aplicación?
Escenarios como el chat, el dibujo y la creatividad tienen una alta tasa de tolerancia a errores. Incluso si la IA responde incorrectamente a la pregunta, el usuario seguirá encontrándola "linda". Esta parte de la aplicación ya es muy complicada, como " Foto de identificación de AI". En la mayoría de los escenarios, se necesita IA para ayudarlo automáticamente a manejar tareas más serias, cooperar con otras condiciones ambientales y lidiar con negocios continuos y a largo plazo. No cometa demasiados errores, de lo contrario, la gente tendrá que participar en grandes cantidades. y Realmente no puedo aumentar la productividad.
Obviamente, este tipo de escenario no puede resolverse bien con un modelo de propósito general grande y complejo en la actualidad.
Tomemos como ejemplo a un escritor como yo. Si dejo que un modelo grande escriba mi manuscrito por mí, puede tener alucinaciones. Tengo que verificar dos veces los eventos/noticias/artículos mencionados. Esto es más problemático que buscar la información yo mismo. "Y no es lo suficientemente preciso. Cuando se me ocurre una idea, tengo que usar palabras rápidas para inspirarme durante mucho tiempo, y puede que no haya ninguna que pueda usarse. Es lento y agotador, por lo que podría También lo escribiré yo mismo.
La incapacidad de completar tareas automáticamente en un solo paso requiere la intervención de una gran cantidad de humanos en la revisión, lo que actualmente es una dificultad importante en la aplicación de modelos grandes en escenarios serios y también afecta directamente el progreso de la implementación y comercialización de modelos grandes. .
¿Cómo hacerlo? Si los modelos grandes quieren tener un buen desempeño, necesitan urgentemente un grupo de ayudantes, y esos son los agentes de IA.
Productividad realmente liberadora, ¿por qué AI Agent es tan sorprendente?
Imagínese, si un modelo grande puede funcionar solo las 24 horas del día, los 7 días del día, sin intervención humana, puede completar varias tareas por sí solo. La gente solo necesita regresar a la computadora o a la oficina de vez en cuando para ver cómo está. Esta es la forma correcta de abrir un modelo grande.
En la conferencia GPT-4, OpenAI demostró su capacidad para automatizar algunas tareas, como permitir que GPT4 reconozca bocetos para generar páginas web y corregir errores en su propio código paso a paso.
Pero, ¿cómo pueden utilizar esta capacidad los desarrolladores y los usuarios comunes? Muchos desarrolladores han respondido que si escribes código directamente usando GPT4, aún tienes que depurarlo tú mismo. No puedes mirar imágenes para generar código para uso directo. A veces es mejor no usarlo.
Los grandes fabricantes de modelos también se encuentran en un dilema. He abierto la API. Para lograr capacidades más profesionales, precisas y refinadas, alguien necesita desarrollarla más, así que le entregué el testigo al Agente de IA.
AI Agent es una entidad automatizada de IA en el entorno. Tiene cuatro características principales:
Detectar el entorno circundante a través de sensores. Este entorno puede ser virtual, como juegos sandbox, sistemas de entrenamiento por simulación, simuladores de conducción autónoma, etc., o puede ser físico, como carreteras, salas, líneas de montaje, etc.
Capaz de tomar decisiones de forma independiente.
Los actuadores/efectores trabajan juntos para actuar.
Aprendizaje y progreso basado en maximizar el rendimiento y optimizar resultados.
Desde esta perspectiva, los propios humanos son en realidad una especie de "agente inteligente" de IA: podemos sentir cambios en el entorno externo a través de nuestros ojos, oídos, piel, etc., y luego tomar decisiones a través de nuestro cerebro, hablar con la boca, y caminar con las piernas. Tomar medidas y ajustarnos continuamente al entorno externo en función de la retroalimentación de recompensa.
De hecho, Agents in AI tiene la misma lógica. Tomemos como ejemplo el Agente de IA en el escenario de conducción autónoma. Se necesitan sensores para recopilar información y detectar factores ambientales como vehículos de carretera y peatones. Luego, el sistema tomará decisiones automáticamente y accionará aceleradores, frenos y otros equipos para responder en consecuencia. .
Esto también se conoce como modelo PEAS de AI Agent. Hagamos una tabla sencilla para que te familiarices:
Entonces, específicamente en modelos grandes, ¿qué impacto puede tener AI Agent? Tiene principalmente las siguientes funciones clave:
Primero, desmantele la tarea.
Los modelos grandes deben combinarse con un campo específico, las necesidades de los usuarios que enfrentan son relativamente generales y el proceso a menudo implica varios pasos. Así como el usuario dice "tiene que haber luz", un modelo grande aislado no sabe qué lámparas hay en el entorno ni cómo controlarlas, por lo que, incluso con un modelo grande, no puede manejar esto aparentemente simple. pero en realidad una tarea compleja.
El Agente de IA tiene capacidades de planificación de tareas y puede comprender y decidir automáticamente cómo planificar pasos, asignar recursos, optimizar decisiones y luego completar instrucciones, mejorando la eficiencia y precisión de las tareas de procesamiento de modelos grandes.
En un artículo del equipo de investigación de Google Brain, se le pidió al modelo de lenguaje grande que expresara el proceso de razonamiento de descomponer los pasos de la tarea, es decir, el "monólogo interno", y luego tomara las acciones correspondientes, lo que de repente mejoró la precisión del respuestas de modelos grandes. Ha logrado resultados SOTA en múltiples conjuntos de datos, mejorando la tontería de los modelos grandes.
En segundo lugar, ejecución automática.
AI Agent está diseñado para pensar y actuar de forma independiente. Los usuarios sólo necesitan asignarle una tarea y dejar que haga su trabajo. Un ejemplo típico de AutoGPT es pedir pizza. El usuario no necesita ingresar la dirección ni elegir el sabor. El agente AI se encarga de todos los pasos del pedido y los ejecuta automáticamente. Las personas pueden observar desde un costado y corregirlos en tiempo si se comete algún error.
AI Agent no solo puede utilizar Internet, sino también trabajar en el entorno físico, controlando robots para realizar entregas urgentes, automóviles sin conductor, conducción autónoma, etc.
Con AI Agent, la interacción entre usuarios y modelos grandes será más natural, sencilla y rápida, reduciendo la participación manual y mejorando verdaderamente la calidad y la eficiencia. Por ejemplo, en el mundo del juego, AI Agent puede iniciar automáticamente un diálogo con los jugadores, proporcionar interacción abierta y diseñar infinitas historias basadas en los comentarios de los jugadores, lo que realmente hace que el juego sea más accesible para miles de personas; en el mundo físico, AI Agent Puede generar instrucciones y operar automáticamente, conducir cuerpos mecánicos, brindar servicios de limpieza a humanos y automatizar operaciones en fábricas sin depender de la guía humana.
En tercer lugar, ahorrar recursos.
Al igual que los humanos, los agentes de IA pueden utilizar herramientas, es decir, llamar a API, para manejar tareas más complejas, lo que amplía enormemente las capacidades de los modelos grandes y reduce el desperdicio y el consumo excesivo de recursos.
Por ejemplo, al escribir código para AutoGPT, necesita acceder a datos de fuentes de información patentados, recursos informáticos, etc. Durante este proceso, el Agente de IA puede encontrar automáticamente la API adecuada para llamar, evitando así desperdiciar otros tokens de API. También puede aprender de forma independiente, optimizar los resultados y volver a llamar a la API si no está satisfecho.
En términos generales, para completar verdaderamente una instrucción de usuario poco clara, como la planificación de viajes, el modelo necesita llamar a múltiples API para resolver el problema. Un agente de IA con una fuerte automatización sin duda puede ahorrar recursos, ahorrando así costos a los usuarios y permitiendo que la IA pueda ejecutar aplicaciones. más atractivo y competitivo.
Cuarto, atraer desarrolladores.
Para la comercialización de modelos grandes, el modelo API requiere la participación de tantos grupos de desarrolladores como sea posible, y el modelo industrial también requiere integradores ISV, proveedores de servicios de software, etc. Todo el mundo sabe que es difícil ganar con el modelo básico de un gran fabricante y esperamos encontrar oportunidades en aplicaciones subdivididas de nivel superior. AI Agent puede resolver problemas específicos, mejorar los efectos del modelo e impulsar sistemas digitales y entidades físicas, por lo que es muy adecuado para crear súper aplicaciones.
Si AI Agent es como la unidad más pequeña de la vida de la IA, entonces los grandes fabricantes de modelos son las fábricas que generan vida, y los desarrolladores, proveedores de software, etc., son como clases de capacitación en habilidades, enseñándoles algunas habilidades prácticas y diferenciadas para la industria. con los usuarios.
Por lo tanto, cualquier modelo grande que pueda construir mejor AI Agent atraerá un ecosistema de desarrollo más grande y será más pegajoso para los usuarios comerciales finales B, lo que generará una gran oportunidad a nivel de plataforma de AI.
En resumen, AI Agent afecta directamente el efecto del modelo, la calidad del servicio, el costo de implementación y las capacidades ecológicas de los modelos grandes, y será la clave para la competencia de varios modelos grandes en el futuro.
Si al Agente de IA le va bien, el modelo es indispensable.
Entonces te preguntarás, ¿cómo podemos generar un buen Agente de IA? ¿Qué desafíos plantea esto para los modelos grandes?
Creemos que para que se implemente AI Agent, los modelos grandes deben realizar las siguientes tareas, que también serán el foco de la competencia en el futuro:
Modelo básico.
Las capacidades y efectos de AI Agent están determinados por las capacidades del modelo básico subyacente. Es posible que el Agente de IA no pueda utilizar las capacidades del modelo básico, pero es posible que el Agente de IA no tenga las capacidades que no tiene el modelo básico.
Tomando como ejemplo las tareas de lenguaje, GPT-4 proporciona sólidas capacidades de comprensión del lenguaje natural, pero actualmente muy pocas de ellas se implementan en agentes y productos de IA. Algunos NPC en los juegos aún no tienen la capacidad de tomar decisiones autónomas.
Para otro ejemplo, aunque GPT-4 es multimodal, solo abre la API del lenguaje, por lo que los desarrolladores que quieran utilizar las capacidades multimodales de GPT4 para crear agentes de IA aún no pueden hacerlo, y otras modalidades, como imágenes y audio, están disponibles. falta Según el estado de la información, la comprensión y el efecto del entorno por parte del agente de IA aún deben mejorarse.
Por lo tanto, ya sea un modelo de código abierto o un modelo de código cerrado, si desea comercializarlo a través de la economía API, las capacidades del modelo básico estarán directamente relacionadas con la calidad del Agente de IA, y todavía queda margen de mejora.
2. Conocimiento de datos.
Para ser un buen agente de IA, la recopilación y el uso de datos es el requisito previo básico. Para los desarrolladores, la cantidad de datos necesarios para las tareas digitales ya no es un problema, pero cuando se desarrollan agentes de IA en el mundo físico, los costos de los datos son muy altos. Los datos de control del robot generalmente solo los puede recopilar usted mismo, a través de un simulador o una colección de robots físicos en el sitio. Pero después de todo, el simulador no es un entorno real y el efecto del entrenamiento puede no ser bueno. Sin embargo, comprar cientos de robots y drones para viajar y entrar a las fábricas para recopilar datos requiere una gran inversión en términos de adquisiciones. costos, restricciones de políticas, implementación real, etc. Dificultades.
En este punto, los grandes fabricantes de modelos con ventajas de datos, como las ventajas de conducción autónoma de Google y Baidu, y las ventajas de datos de Microsoft, Google, Sogou, Baidu y otras empresas de búsqueda, pueden reducir algunas barreras para que los desarrolladores exploren los agentes de IA. y también creará barreras para los modelos grandes de estos proveedores.
Soporte de producto.
Hay que admitir que las grandes oportunidades de aplicación de modelos representadas por AI Agent aún se encuentran en una etapa muy temprana, la tecnología aún no está completamente madura y la exploración comercial acaba de dar un pequeño paso. Para los desarrolladores, proveedores de servicios de software, etc., lo que es más crítico y más temprano a considerar que cómo implementar AI Agent en el código es imaginar hacia dónde debe ir un AI Agent:
¿Cómo debería verse? ¿Cómo te llamas? ¿Existe un género? ¿Qué tipo de personalidad utilizas para hablar con los usuarios? ¿Cuáles son los casos de uso? ¿Qué dificultades específicas encontrarás? ¿Cómo evaluar el éxito de un Agente de IA?
Estas son más "tierras de nadie" a nivel de producto y comercial. Para permitir a los desarrolladores dar rienda suelta a su imaginación e intentar crear agentes de IA en diversos entornos y tareas, los grandes fabricantes de modelos necesitan abrir su propio ecosistema empresarial y ofrecer servicios más ricos y Soluciones más convenientes Funciones para reducir el riesgo de prueba y error para los desarrolladores, aumentar la intensidad del acoplamiento con los usuarios comerciales y generar más opciones comerciales y casos de implementación.
Con todo, este campo es todavía muy nuevo y AI Agent aún no ha tenido un impacto claro en la industria de los grandes modelos, pero es seguro que AI Agent eliminará una gran cantidad de interacciones engorrosas entre humanos y sistemas de IA, y está sucediendo. .
Se están incorporando más agentes de IA a las comunidades y a los usuarios, quienes aprenden, cambian y evolucionan. Quizás en unos meses veamos la madurez y la explosión de los agentes de IA, lo que inevitablemente desencadenará otra reorganización en el campo de los grandes modelos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El gran modelo es arrogante y arrogante: sin agentes de IA, la vida o la muerte es difícil de predecir.
Original: Zorro Tibetano
**Fuente: **Cerebro Cuerpo Polar
AI Agent se está haciendo cargo del modelo de lenguaje grande LLM y se ha convertido en el tema más candente en el círculo de la IA.
En la actualidad, la situación en el círculo de capital de riesgo de IA es aproximadamente la siguiente:
Big Factory Club: los empleados internos de OpenAI afirman que AI Agent es la nueva dirección de OpenAI; Microsoft está tratando de promover el copiloto y dejar que AI desempeñe el papel de asistente, que es un escenario típico de AI Agent; NVIDIA ha lanzado Voyager, este AI Agent puede sea autónomo Escriba código para dominar el juego "Minecraft"; SenseTime nacional también lanzó un agente de IA generalista; Alibaba lanzó un empleado digital...
Círculo académico: en abril de este año, Stanford creó una ciudad de Westworld, que permite a 25 agentes de IA simular humanos en el entorno sandbox de la ciudad virtual y enamorarse, festejar, colaborar, tener citas, etc. con otros agentes de IA. Además, algunos académicos han comenzado a utilizar agentes de inteligencia artificial para diseñar experimentos científicos complejos, incluida la lectura automática de artículos en línea y la investigación de medicamentos contra el cáncer... Estas exploraciones de vanguardia son alucinantes.
Círculo de emprendimiento: AI Agent no es solo un juego para los mejores científicos. Han surgido muchos proyectos como Camel, AutoGPT, BabyAGI y AgentGPT. También hay una gran cantidad de desarrolladores y emprendedores de comunidades de código abierto que utilizan estos proyectos de código abierto para crear algunas herramientas prácticas. . Por ejemplo, aomni es una aplicación AI Agent que ayuda a los usuarios a capturar información de la red y enviarla por correo electrónico.
A partir de estos juicios, todavía es demasiado pronto para decir que "AI Agent ha abierto la segunda mitad de los modelos grandes", pero debe quedar claro que "AI Agent es el estándar comercial para los modelos grandes".
Por lo tanto, a continuación deberíamos ver a más fabricantes y empresas emergentes importantes tomando más medidas sobre AI Agent.
Entonces, ¿qué es exactamente AI Agent? ¿Por qué se dice que es una condición necesaria para la comercialización de modelos grandes?
El gran modelo es arrogante y arrogante, pero los usuarios todavía no pagan.
Aquí primero dejamos a un lado el Agente AI y echamos un vistazo a cómo es el modelo grande.
Creo que la mayoría de los lectores están de acuerdo en que los grandes modelos son algo con una gran visión, una gran inversión y un alto umbral. Desde una perspectiva sentimental, es posible realizar una inteligencia artificial general y cambiar completamente la sociedad; desde una perspectiva secular, puede reconstruir los negocios. productos y permitir que las empresas de tecnología El rendimiento aumentó.
Pero todo esto se basa en el hecho de que los modelos grandes pueden comercializarse verdaderamente, recuperar los costos de I+D y lograr un desarrollo saludable y sostenible.
En los últimos meses, dos modelos de negocio para modelos grandes se han vuelto más efectivos: uno es el despliegue local privatizado de modelos grandes por parte de gobiernos y empresas de diversas industrias; el otro es la potencia informática necesaria para vender modelos grandes a través de nubes y servidores de IA. , etc.
En la actualidad, los fabricantes nacionales han publicado los correspondientes informes comerciales y han obtenido decenas de millones de ingresos gracias a la demanda de implementación de la privatización en la industria.
Sin embargo, el negocio ToB por sí solo no puede respaldar un modelo de negocio a gran escala.
En una revolución tecnológica, la tecnología central debe fluir y ser utilizada por miles de millones de usuarios comunes para crear valor económico. Después de que las PC domésticas, Internet y los teléfonos inteligentes se hicieran populares entre las masas, el valor de mercado de muchas empresas de tecnología se disparó.
Entonces, ¿cuál es la experiencia real de la aplicación?
Escenarios como el chat, el dibujo y la creatividad tienen una alta tasa de tolerancia a errores. Incluso si la IA responde incorrectamente a la pregunta, el usuario seguirá encontrándola "linda". Esta parte de la aplicación ya es muy complicada, como " Foto de identificación de AI". En la mayoría de los escenarios, se necesita IA para ayudarlo automáticamente a manejar tareas más serias, cooperar con otras condiciones ambientales y lidiar con negocios continuos y a largo plazo. No cometa demasiados errores, de lo contrario, la gente tendrá que participar en grandes cantidades. y Realmente no puedo aumentar la productividad.
Obviamente, este tipo de escenario no puede resolverse bien con un modelo de propósito general grande y complejo en la actualidad.
Tomemos como ejemplo a un escritor como yo. Si dejo que un modelo grande escriba mi manuscrito por mí, puede tener alucinaciones. Tengo que verificar dos veces los eventos/noticias/artículos mencionados. Esto es más problemático que buscar la información yo mismo. "Y no es lo suficientemente preciso. Cuando se me ocurre una idea, tengo que usar palabras rápidas para inspirarme durante mucho tiempo, y puede que no haya ninguna que pueda usarse. Es lento y agotador, por lo que podría También lo escribiré yo mismo.
La incapacidad de completar tareas automáticamente en un solo paso requiere la intervención de una gran cantidad de humanos en la revisión, lo que actualmente es una dificultad importante en la aplicación de modelos grandes en escenarios serios y también afecta directamente el progreso de la implementación y comercialización de modelos grandes. .
¿Cómo hacerlo? Si los modelos grandes quieren tener un buen desempeño, necesitan urgentemente un grupo de ayudantes, y esos son los agentes de IA.
Productividad realmente liberadora, ¿por qué AI Agent es tan sorprendente?
Imagínese, si un modelo grande puede funcionar solo las 24 horas del día, los 7 días del día, sin intervención humana, puede completar varias tareas por sí solo. La gente solo necesita regresar a la computadora o a la oficina de vez en cuando para ver cómo está. Esta es la forma correcta de abrir un modelo grande.
En la conferencia GPT-4, OpenAI demostró su capacidad para automatizar algunas tareas, como permitir que GPT4 reconozca bocetos para generar páginas web y corregir errores en su propio código paso a paso.
Pero, ¿cómo pueden utilizar esta capacidad los desarrolladores y los usuarios comunes? Muchos desarrolladores han respondido que si escribes código directamente usando GPT4, aún tienes que depurarlo tú mismo. No puedes mirar imágenes para generar código para uso directo. A veces es mejor no usarlo.
Los grandes fabricantes de modelos también se encuentran en un dilema. He abierto la API. Para lograr capacidades más profesionales, precisas y refinadas, alguien necesita desarrollarla más, así que le entregué el testigo al Agente de IA.
AI Agent es una entidad automatizada de IA en el entorno. Tiene cuatro características principales:
Detectar el entorno circundante a través de sensores. Este entorno puede ser virtual, como juegos sandbox, sistemas de entrenamiento por simulación, simuladores de conducción autónoma, etc., o puede ser físico, como carreteras, salas, líneas de montaje, etc.
Capaz de tomar decisiones de forma independiente.
Los actuadores/efectores trabajan juntos para actuar.
Aprendizaje y progreso basado en maximizar el rendimiento y optimizar resultados.
De hecho, Agents in AI tiene la misma lógica. Tomemos como ejemplo el Agente de IA en el escenario de conducción autónoma. Se necesitan sensores para recopilar información y detectar factores ambientales como vehículos de carretera y peatones. Luego, el sistema tomará decisiones automáticamente y accionará aceleradores, frenos y otros equipos para responder en consecuencia. .
Esto también se conoce como modelo PEAS de AI Agent. Hagamos una tabla sencilla para que te familiarices:
Primero, desmantele la tarea.
Los modelos grandes deben combinarse con un campo específico, las necesidades de los usuarios que enfrentan son relativamente generales y el proceso a menudo implica varios pasos. Así como el usuario dice "tiene que haber luz", un modelo grande aislado no sabe qué lámparas hay en el entorno ni cómo controlarlas, por lo que, incluso con un modelo grande, no puede manejar esto aparentemente simple. pero en realidad una tarea compleja.
El Agente de IA tiene capacidades de planificación de tareas y puede comprender y decidir automáticamente cómo planificar pasos, asignar recursos, optimizar decisiones y luego completar instrucciones, mejorando la eficiencia y precisión de las tareas de procesamiento de modelos grandes.
En un artículo del equipo de investigación de Google Brain, se le pidió al modelo de lenguaje grande que expresara el proceso de razonamiento de descomponer los pasos de la tarea, es decir, el "monólogo interno", y luego tomara las acciones correspondientes, lo que de repente mejoró la precisión del respuestas de modelos grandes. Ha logrado resultados SOTA en múltiples conjuntos de datos, mejorando la tontería de los modelos grandes.
En segundo lugar, ejecución automática.
AI Agent está diseñado para pensar y actuar de forma independiente. Los usuarios sólo necesitan asignarle una tarea y dejar que haga su trabajo. Un ejemplo típico de AutoGPT es pedir pizza. El usuario no necesita ingresar la dirección ni elegir el sabor. El agente AI se encarga de todos los pasos del pedido y los ejecuta automáticamente. Las personas pueden observar desde un costado y corregirlos en tiempo si se comete algún error.
AI Agent no solo puede utilizar Internet, sino también trabajar en el entorno físico, controlando robots para realizar entregas urgentes, automóviles sin conductor, conducción autónoma, etc.
Con AI Agent, la interacción entre usuarios y modelos grandes será más natural, sencilla y rápida, reduciendo la participación manual y mejorando verdaderamente la calidad y la eficiencia. Por ejemplo, en el mundo del juego, AI Agent puede iniciar automáticamente un diálogo con los jugadores, proporcionar interacción abierta y diseñar infinitas historias basadas en los comentarios de los jugadores, lo que realmente hace que el juego sea más accesible para miles de personas; en el mundo físico, AI Agent Puede generar instrucciones y operar automáticamente, conducir cuerpos mecánicos, brindar servicios de limpieza a humanos y automatizar operaciones en fábricas sin depender de la guía humana.
En tercer lugar, ahorrar recursos.
Al igual que los humanos, los agentes de IA pueden utilizar herramientas, es decir, llamar a API, para manejar tareas más complejas, lo que amplía enormemente las capacidades de los modelos grandes y reduce el desperdicio y el consumo excesivo de recursos.
Por ejemplo, al escribir código para AutoGPT, necesita acceder a datos de fuentes de información patentados, recursos informáticos, etc. Durante este proceso, el Agente de IA puede encontrar automáticamente la API adecuada para llamar, evitando así desperdiciar otros tokens de API. También puede aprender de forma independiente, optimizar los resultados y volver a llamar a la API si no está satisfecho.
En términos generales, para completar verdaderamente una instrucción de usuario poco clara, como la planificación de viajes, el modelo necesita llamar a múltiples API para resolver el problema. Un agente de IA con una fuerte automatización sin duda puede ahorrar recursos, ahorrando así costos a los usuarios y permitiendo que la IA pueda ejecutar aplicaciones. más atractivo y competitivo.
Para la comercialización de modelos grandes, el modelo API requiere la participación de tantos grupos de desarrolladores como sea posible, y el modelo industrial también requiere integradores ISV, proveedores de servicios de software, etc. Todo el mundo sabe que es difícil ganar con el modelo básico de un gran fabricante y esperamos encontrar oportunidades en aplicaciones subdivididas de nivel superior. AI Agent puede resolver problemas específicos, mejorar los efectos del modelo e impulsar sistemas digitales y entidades físicas, por lo que es muy adecuado para crear súper aplicaciones.
Si AI Agent es como la unidad más pequeña de la vida de la IA, entonces los grandes fabricantes de modelos son las fábricas que generan vida, y los desarrolladores, proveedores de software, etc., son como clases de capacitación en habilidades, enseñándoles algunas habilidades prácticas y diferenciadas para la industria. con los usuarios.
Por lo tanto, cualquier modelo grande que pueda construir mejor AI Agent atraerá un ecosistema de desarrollo más grande y será más pegajoso para los usuarios comerciales finales B, lo que generará una gran oportunidad a nivel de plataforma de AI.
En resumen, AI Agent afecta directamente el efecto del modelo, la calidad del servicio, el costo de implementación y las capacidades ecológicas de los modelos grandes, y será la clave para la competencia de varios modelos grandes en el futuro.
Si al Agente de IA le va bien, el modelo es indispensable.
Entonces te preguntarás, ¿cómo podemos generar un buen Agente de IA? ¿Qué desafíos plantea esto para los modelos grandes?
Creemos que para que se implemente AI Agent, los modelos grandes deben realizar las siguientes tareas, que también serán el foco de la competencia en el futuro:
Las capacidades y efectos de AI Agent están determinados por las capacidades del modelo básico subyacente. Es posible que el Agente de IA no pueda utilizar las capacidades del modelo básico, pero es posible que el Agente de IA no tenga las capacidades que no tiene el modelo básico.
Tomando como ejemplo las tareas de lenguaje, GPT-4 proporciona sólidas capacidades de comprensión del lenguaje natural, pero actualmente muy pocas de ellas se implementan en agentes y productos de IA. Algunos NPC en los juegos aún no tienen la capacidad de tomar decisiones autónomas.
Para otro ejemplo, aunque GPT-4 es multimodal, solo abre la API del lenguaje, por lo que los desarrolladores que quieran utilizar las capacidades multimodales de GPT4 para crear agentes de IA aún no pueden hacerlo, y otras modalidades, como imágenes y audio, están disponibles. falta Según el estado de la información, la comprensión y el efecto del entorno por parte del agente de IA aún deben mejorarse.
Por lo tanto, ya sea un modelo de código abierto o un modelo de código cerrado, si desea comercializarlo a través de la economía API, las capacidades del modelo básico estarán directamente relacionadas con la calidad del Agente de IA, y todavía queda margen de mejora.
Para ser un buen agente de IA, la recopilación y el uso de datos es el requisito previo básico. Para los desarrolladores, la cantidad de datos necesarios para las tareas digitales ya no es un problema, pero cuando se desarrollan agentes de IA en el mundo físico, los costos de los datos son muy altos. Los datos de control del robot generalmente solo los puede recopilar usted mismo, a través de un simulador o una colección de robots físicos en el sitio. Pero después de todo, el simulador no es un entorno real y el efecto del entrenamiento puede no ser bueno. Sin embargo, comprar cientos de robots y drones para viajar y entrar a las fábricas para recopilar datos requiere una gran inversión en términos de adquisiciones. costos, restricciones de políticas, implementación real, etc. Dificultades.
En este punto, los grandes fabricantes de modelos con ventajas de datos, como las ventajas de conducción autónoma de Google y Baidu, y las ventajas de datos de Microsoft, Google, Sogou, Baidu y otras empresas de búsqueda, pueden reducir algunas barreras para que los desarrolladores exploren los agentes de IA. y también creará barreras para los modelos grandes de estos proveedores.
Hay que admitir que las grandes oportunidades de aplicación de modelos representadas por AI Agent aún se encuentran en una etapa muy temprana, la tecnología aún no está completamente madura y la exploración comercial acaba de dar un pequeño paso. Para los desarrolladores, proveedores de servicios de software, etc., lo que es más crítico y más temprano a considerar que cómo implementar AI Agent en el código es imaginar hacia dónde debe ir un AI Agent:
¿Cómo debería verse? ¿Cómo te llamas? ¿Existe un género? ¿Qué tipo de personalidad utilizas para hablar con los usuarios? ¿Cuáles son los casos de uso? ¿Qué dificultades específicas encontrarás? ¿Cómo evaluar el éxito de un Agente de IA?
Estas son más "tierras de nadie" a nivel de producto y comercial. Para permitir a los desarrolladores dar rienda suelta a su imaginación e intentar crear agentes de IA en diversos entornos y tareas, los grandes fabricantes de modelos necesitan abrir su propio ecosistema empresarial y ofrecer servicios más ricos y Soluciones más convenientes Funciones para reducir el riesgo de prueba y error para los desarrolladores, aumentar la intensidad del acoplamiento con los usuarios comerciales y generar más opciones comerciales y casos de implementación.
Con todo, este campo es todavía muy nuevo y AI Agent aún no ha tenido un impacto claro en la industria de los grandes modelos, pero es seguro que AI Agent eliminará una gran cantidad de interacciones engorrosas entre humanos y sistemas de IA, y está sucediendo. .
Se están incorporando más agentes de IA a las comunidades y a los usuarios, quienes aprenden, cambian y evolucionan. Quizás en unos meses veamos la madurez y la explosión de los agentes de IA, lo que inevitablemente desencadenará otra reorganización en el campo de los grandes modelos.