Искусственный интеллект в Крипто

Средний9/19/2024, 2:23:31 AM
Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на большую языковую модель искусственного интеллекта. Этот беспокойный динамизм проник в пространство Крипто, и данная статья направлена на знакомство с развитием искусственного интеллекта, его текущим статусом и отраслью, выросшей из сочетания ИИ+Крипто.

Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на крупную языковую модель ИИ. Эта бурная динамика проникла в криптопространство, и цель этой статьи - представить развитие искусственного интеллекта, его текущий статус и индустрию, возникшую из сочетания ИИ+Крипто.

Развитие искусственного интеллекта и его текущее состояние

Типы и архитектуры

Машинное обучение (ML) - это технология с эмпирическими обучающими способностями, которая учится различать животных, переводить язык и выполнять другие конкретные задачи, изучая большие объемы данных. Машинное обучение относится к наиболее практичным способам реализации искусственного интеллекта в настоящее время, в зависимости от того, размечены ли изученные данные и какие у них особенности, его можно разделить на обучение с учителем и обучение без учителя.

Существует множество типов моделей, которые могут осуществлять обучение с учителем, включая модели на основе деревьев, графов и недавно появившиеся нейронные сети. С быстрым развитием вычислительной мощности и данных глубокое обучение было дополнительно разработано на основе архитектуры нейронных сетей. Текущие архитектуры глубокого обучения включают, но не ограничиваются, сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и механизмы внимания.

Классификация машинного обучения, источник: HashKey Capital

Различные сети глубокого обучения имеют базовую архитектуру входного слоя, скрытого слоя и выходного слоя, входной слой обычно представляет собой текст, видео, аудио и другие данные после обработки методом "токенизации/встраивания". Скрытый слой имеет различное оформление (форму модели) в зависимости от набора данных и цели задачи, как показано в таблице.

Типы нейронных сетей, Источник: Организовано HashKey Capital

Тридцать лет развития нейронных сетей

30 лет развития нейронных сетей, источник: организовано HashKey Capital

Обучение нейронных сетей впервые появилось в середине 1980-х годов, когда Джордан обучил нейронную сеть учить последовательные шаблоны в своей статье 1986 годаПоследовательный порядок: Параллельный распределенный подход к обработке данных. На маленькой сети было всего несколько нейронов.

В 1990-х Джеффри Эрман расширил нейронную сеть до 50-нейронной сети, обнаружив, что сеть пространственно кластеризует слова на основе их значения. Например, она разделяла неодушевленные и одушевленные существительные, причем в пределах этих двух категорий одушевленные объекты были подразделены на человеческие и неживотные категории, а неодушевленные были категоризированы как разрушаемые и съедобные. Это указывает на то, что сеть способна учиться иерархическим объяснениям.

Он также отметил, что слова могут быть представлены как точки в многомерном пространстве, а затем последовательность слов или предложений можно рассматривать как путь. Этот крупный прорыв позволяет цифровизировать, векторизировать и обрабатывать текстовые наборы данных с помощью компьютеров.

Источник: http://3b1b.co/neural-networks

В 2011 году исследователи Confluence обучили более крупные сети, включающие тысячи нейронов и миллионы связей, и было обнаружено узкое место в исследовании возможности сети поддерживать согласованный контекст на протяжении длинных последовательностей.

В 2017 году OpenAI развилась на работе Кэти, обучившись на 82 миллионах отзывов Amazon, в которых были обнаружены эмоциональные нейроны. Такие нейроны идеально классифицировали эмоции текста.

Источник: Изучение генерации отзывов и обнаружение настроения

Относительно ограничений размера контекста, данная статья 2017 Attention Is All You Need представляет собой решение. В статье создается динамическая сеть слоев, которая адаптирует веса соединений на основе контекста сети. Она работает, позволяя словам ввода просматривать, сравнивать другие слова и находить наиболее релевантные. Чем ближе эти слова по смыслу, тем ближе они находятся в пространстве и могут иметь более высокие веса соединения. Однако в статье был сосредоточен только на проблеме перевода.

Таким образом исследователи OpenAI попробовали более мощную архитектуру трансформера и запустили GPT-3 в 2020 году, что привлекло широкое внимание отраслей по всему миру, на этот раз с сетью, достигшей 175 млрд параметров, 96 слоев и окном контекста из 1,000 слов.

Что такое нейронная сеть?

Возьмем в качестве примера следующее цифровое изображение размером 28x28 пикселей, нейроны соответствуют каждому пикселю входного изображения 28x28, всего 784 нейрона, числа в нейронах являются значениями активации, которые находятся в диапазоне от 0 до 1.

28x28 пиксельное цифровое изображение, Источник: http://3b1b.co/neural-networks

Эти 784 нейрона формируют входной слой сети. Финальным слоем является выходной слой, который содержит десять нейронов, представляющих числа от 0 до 9, снова с значениями активации в диапазоне от 0 до 1. Средний слой - это скрытый слой, где значение активации предыдущего слоя определяет значение активации следующего слоя при работе нейронной сети.

Глубина глубокого обучения заключается в том, что модель изучает много «уровней» преобразований, каждый из которых имеет свое представление. Как показано на рисунке ниже, например, в 9 различных слоях могут распознавать разные функции. Чем ближе входной слой к более низкому уровню детализации данных, тем ближе выходной слой к более конкретным концепциям, которые можно использовать для дифференциации.

Источник: http://3b1b.co/neural-networks

Поскольку модель становится больше, скрытые слои посередине включают сотни миллиардов весов на каждом слое, и именно эти веса и смещения действительно определяют, что сеть фактически делает. Процесс машинного обучения — это процесс нахождения правильных параметров, которые являются весами и смещениями.

Архитектура трансформера, используемая в GPT, большой модели языка, имеет промежуточный скрытый слой, состоящий из 96 слоев декодерных модулей, из которых GPT1, GPT2 и GPT3 имеют соответственно 12, 48 и 96 слоев. Декодер в свою очередь содержит компоненты внимания и обратной связи нейронных сетей.

Метод обучения

Вычислительный или обучающий процесс включает в себя определение функции стоимости (или функции потерь), которая суммирует квадраты разниц между вычисленными прогнозами выходных данных сети и фактическими значениями, и когда сумма невелика, модель работает в пределах приемлемых пределов.

Обучение начинается с случайной параметризации сети и определения параметров модели сети путем нахождения параметра, минимизирующего функцию стоимости. Сходимость функции стоимости достигается градиентным спуском, при котором изучается степень влияния каждого изменения параметра на стоимость/потери, а затем параметры корректируются в соответствии с этой степенью влияния.

Процесс вычисления градиента параметра включает в себя обратное распространение или обратное распространение, которое проходит по сети от выходного слоя к входному слою в обратном порядке согласно правилу цепи. Алгоритм также требует хранения всех промежуточных переменных (частных производных), необходимых для вычисления градиента.

Факторы развития

Существуют три основных фактора, влияющих на производительность крупных языковых моделей искусственного интеллекта во время их обучения, а именно количество параметров модели, размер набора данных и объем вычислений.

Источник: отчет OpenAI, Законы масштабирования для нейронных языковых моделей

Это соответствует развитию наборов данных и компьютеров (вычислительная мощность) в реальности, но также можно видеть из таблицы ниже, что вычислительная мощность растет быстрее доступных данных, в то время как память развивается медленнее всего.

Развитие набора данных, памяти и вычислительной мощности, Источник: https://github.com/d2l-ai

Данные

Требования к данным

Столкнувшись с большой моделью, переобучение чаще всего происходит, когда обучающих данных слишком мало, и, в общем, точность более сложной модели улучшается с увеличением объема данных. Что касается требования к данным, необходимым для большой модели, его можно определить на основе правила 10, которое предполагает, что объем данных должен быть в 10 раз больше параметра, но некоторые алгоритмы глубокого обучения применяют соотношение 1:1.

Помеченные данные

Для обучения с учителем требуется использование помеченных + отмеченных наборов данных для получения действительных результатов.

Источник: Набор данных категоризации одежды Fashion-MNIST

Синтетические данные

Несмотря на быстрый рост данных за последнее десятилетие или два и наличие открытых наборов данных, включая Kaggle, Azure, AWS, Google database и т. д., ограниченное, дефицитное и дорогостоящее количество данных постепенно становится узким местом для развития искусственного интеллекта из-за проблем конфиденциальности, увеличения параметров модели и воспроизводимости данных. Различные решения по работе с данными предлагаются с целью облегчения этой проблемы.

Техники аугментации данных могут быть эффективным решением, предоставляя недостаточные данные модели без получения новых образцов, такие как масштабирование, вращение, отражение, обрезка, трансляция, добавление гауссовского шума, смешивание и т. д.

Синтетические данные - еще один вариант. Синтетические данные - это данные, которые могут быть искусственно сгенерированы компьютерной симуляцией или алгоритмами с или без предыдущего набора данных. Что касается разработки инструментов для генерации синтетических данных, Иэн Дж. Гудфеллоу изобрел Генеративно-состязательную сеть (GAN), которая является архитектурой глубокого обучения.

Он тренирует две нейронные сети, соревнующиеся друг с другом, что может генерировать новые, более реалистичные данные из заданного набора данных для обучения. Архитектура поддерживает генерацию изображений, заполнение недостающей информации, генерацию данных для обучения других моделей, генерацию 3D-моделей на основе 2D-данных и многое другое.

Это всё ещё ранний этап развития отрасли, большинство существующих компаний, занимающихся синтетическими данными, были основаны в 2021 или 2022 году, а некоторые в 2023 году.

Состояние финансирования компаний по синтетическим данным. Источник: https://frontline.vc/blog/synthetic-data/

База данных векторов

Процесс обучения искусственного интеллекта включает в себя большое количество матричных операций, начиная с встраивания слов, матрицы трансформера QKV, заканчивая операциями softmax и так далее. Через матричные операции также передаются все параметры модели.

пример векторной базы данных, Источник : https://x.com/ProfTomYeh/status/1795076707386360227

Ресурсы аппаратного обеспечения компьютера

Большие модели вызывают огромный спрос на компьютерное оборудование, которое в основном разделяется на обучение и вывод.

Предварительное обучение, настройка и вывод

Предварительное обучение и настройка могут быть дополнительно разделены на этап обучения. Как уже упоминалось ранее, для построения модели сети сначала требуется случайная инициализация параметров, затем обучение сети и непрерывная корректировка параметров до тех пор, пока потери сети не достигнут приемлемого уровня. Разница между предварительным обучением и настройкой заключается в том, что

Предварительное обучение начинается с каждого слоя параметров с случайной инициализацией, в то время как некоторые слои донастройки могут непосредственно использовать параметры ранее обученной модели в качестве параметров инициализации для этой задачи (замораживая параметры предыдущих слоев) и действуя на конкретный набор данных.

Источник: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Предварительное обучение и настройка включают изменение параметров модели, что в конечном итоге приводит к оптимизации модели или параметров, в то время как вывод - это расчет вывода путем загрузки модели после входных данных пользователя и в конечном итоге получения обратной связи и выходных результатов.

Предварительное обучение, настройка и вывод распределены по убыванию требований к вычислительным мощностям. В следующей таблице сравниваются аппаратные требования к обучению и выводу. Требования к аппаратному обеспечению двух процессов значительно различаются по вычислительным мощностям, памяти и связи/пропускной способности из-за различий в процессе вычислений и требованиях к точности, и в то же время существует невозможное трилемматическое состояние в вычислительных мощностях, памяти и связи/пропускной способности.

Статистические измерения в этой таблице основаны на обработке одной модели одним токеном, одним параметром. \ FLOPs: операции с плавающей запятой в секунду, количество матричных вычислений. \
*DP, TP, PP: параллельные данные, тензоры, конвейеры.

Сравнение аппаратного обеспечения между обучением и выводом, Источник: Организовано HashKey Capital

Процесс обучения нейронной сети требует чередования прямого и обратного распространения, используя градиент, полученный обратным распространением, для обновления параметров модели. В то же время вывод требует только прямого распространения. Это различие становится влияющим фактором, прежде всего, различающим требования к аппаратным ресурсам компьютера для обучения и вывода.

С точки зрения вычислительной мощности, как показано в таблице, существует простое мультипликативное отношение между количеством параметров модели и потреблением вычислительной мощности, при этом для обучения требуется 6-8 операций с плавающей запятой, а для вывода - 2. Это связано с обратным распространением, включенным в обучение, которое требует вдвое больше вычислительной мощности, чем прямое распространение, и поэтому потребление вычислительной мощности для обучения намного выше, чем для вывода.

В терминах памяти, обратное распространение, используемое для обучения, повторно использует промежуточные значения, сохраненные в прямом распространении, чтобы избежать повторных вычислений. Поэтому процесс обучения должен сохранять промежуточные значения до завершения обратного распространения. Результирующее потребление памяти во время обучения в основном содержит параметры модели, промежуточные активационные значения, сгенерированные во время прямого вычисления, градиенты, сгенерированные вычислением обратного распространения, и состояния оптимизатора. Этап вывода не требует обратного распространения, состояния оптимизатора и градиента и т. д., и его потребление памяти гораздо меньше, чем у обучения.

В терминах коммуникации/пропускной способности, для улучшения производительности обучения искусственного интеллекта обычно используются три параллельные стратегии: параллельные данные, параллельные тензоры и параллельные конвейеры.

  • Параллельные данные означает репликацию нескольких модельных реплик, работающих на разных устройствах, причем каждая модельная реплика действует на различные наборы данных и синхронизирует градиентные данные во время цикла обучения.
  • Параллелизм конвейера, с другой стороны, делит промежуточные скрытые слои, и каждый вычислительный узел отвечает за несколько таких слоев трансформатора. Этот подход также известен как межслойный параллелизм.
  • Тензорная параллельность, с другой стороны, разделяет каждый из этих модулей трансформатора и также известна как параллелизм внутри слоя.

Источник: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Для этих трех стратегий прогнозируется, что частота связи TP является наибольшей, объем связи — самым высоким и связан с количеством токенов, шириной модели и количеством слоев. Объем и частота связи PP меньше, чем у TP, и связана с количеством токенов и шириной модели. Объем и частота связи DP являются наименьшими и не зависят от входных токенов.

Невозможное трилемма

Узким местом аппаратных ресурсов компьютера в больших моделях является в основном ограничение вычислительной мощности, пропускной способности/коммуникаций и памяти, и между ними существует взаимосвязь, что приводит к проблеме Невозможного трилеммена. Например, из-за коммуникационных узких мест производительность кластера не может быть улучшена просто путем оптимизации мощности одного компьютера.

Таким образом, хотя параллельные архитектуры используются для увеличения производительности кластера, большинство параллельных архитектур фактически жертвуют коммуникацией или хранилищем в пользу вычислительной мощности.

Пожертвование коммуникации и хранения в пользу вычислительной мощности:

В PP, если каждому слою трансформаторов назначается графический процессор, несмотря на увеличение вычислительной мощности в единицах времени, требования к коммуникации между слоями также возрастают, что приводит к увеличению объема данных и задержке. Кроме того, требования к хранению промежуточного состояния для прямого распространения возрастают очень быстро.

Пожертвование коммуникацией в пользу вычислительной мощности:

В TP каждый трансформатор разбирается на параллельные вычисления. Поскольку трансформатор состоит из двух компонентов (внимательной головы и нейронной сети прямого распространения), задачу можно разделить внутри слоя как для внимательной головы, так и для нейронной сети прямого распространения. Этот подход TP может смягчить проблему слишком многих иерархий PP из-за того, что графические процессоры не могут поместить модель. Однако у этого подхода все равно есть серьезные накладные расходы на коммуникацию.

Крипто+ИИ

В этой статье мы считаем, что в настоящее время в крипто-сфере существуют следующие основные категории искусственного интеллекта:

Источник: Организовано HashKey Capital

Как упоминалось ранее, три самых важных компонента в искусственном интеллекте - это данные, модели и вычислительная мощность, которые служат инфраструктурой для усиления крипто-ИИ.

Их сочетание фактически образует вычислительную сеть, в процессе вычислений появляется большое количество промежуточного программного обеспечения, чтобы быть эффективным, а также более соответствовать крипто-духу. Внизу находятся Агенты, основанные на этих проверяемых результатах, которые могут дополнительно выполнять разные роли для разных пользовательских аудиторий.

Другая блок-схема может быть использована для выражения основной экологии Крипто ИИ следующим образом:

Экологическая схема, источник: организовано HashKey Capital

Конечно, в крипто-пространстве необходимы токеномические механизмы для стимулирования координации участия разных игроков.

Данные

Для наборов данных можно выбирать между общедоступными источниками данных или собственными конкретными частными источниками данных.

Источник данных:

  • Grass - это проект, который сканирует источники данных поверх Solana. Причина заключается в том, что многие компании блокируют IP-сканирование из центров обработки данных, но не блокируют домашних пользователей. Grass действует как децентрализованный сервис-провайдер, стимулируя домашних пользователей вносить свой вклад через токены.
  • Vana как DATA DAO также предоставляет собственное решение, где создатель создает различные data dao для различных источников данных на цепи и устанавливает различные программы поощрений для пользователей для загрузки своих данных. До сих пор были созданы data dao для reddit (rDAO), где более 154 000 пользователей предоставляют свои персональные данные в rDAO для обучения искусственного интеллекта.
  • Соответствующие данные собираются в виде DePIN-кодов, которые позволяют пользователям подключать свои автомобили к платформе DIMO с помощью аппаратного устройства, например. Основная информация об автомобиле и более продвинутые данные о стиле вождения и т. д. будут безопасно передаваться в сеть DIMO, храниться на цепочке и связываться с соответствующим идентификатором автомобиля (NFT). Еще одним примером является Hivemapper, который собирает данные карты во время движения пользователем.

Платформа синтетических данных:

  • Dria - это платформа генерации синтетических данных (OPStack L2), которая стимулирует пользователей генерировать/торговать синтетическими данными децентрализованным способом. Его хранилище данных хранится в Arweave через HollowDB. Когда пользователи инициируют запрос на генерацию синтетических данных, Dria принимает запрос и разбивает задачу на вычислительные узлы в сети синтетических данных для выполнения, и после верификации сети финальные синтетические данные могут быть проданы на рынке знаний.

Другие:

Платформа услуг разметки данных, поручая разметку задания различным работникам, эти работники могут получить соответствующий токен-стимул после выполнения задачи, таких как Крипо, Публичный ИИ и так далее. Однако текущая проблема заключается в том, что людей, занимающихся разметкой данных, больше, чем данных, в то время как у компаний по искусственному интеллекту есть стабильные поставщики разметки данных для своих потребностей в размеченных данных, из-за существования липкости, что делает их желание перейти на децентрализованные платформы слабым. Эти платформы могут получить только выделение оставшейся части заказа у поставщиков разметки данных.

Вычислительные сети

Обобщенные вычислительные сети

Обобщенные вычислительные сети, которые относятся к сетям, объединяющим ресурсы, такие как графические процессоры и центральные процессоры, чтобы предоставлять обобщенные вычислительные услуги, что означает отсутствие различий между обучением и выводом.

  • Akash, проект 2020 года, служит рынком для сопоставления предложения и спроса на вычислительные мощности, позволяя поставщикам вычислительных ресурсов делать ставки на заказы, с окончательным сопоставлением, загруженным в блокчейн как транзакции. Отдельный валидатор отвечает за упаковку блоков и выполнение проверки. В этом процессе не участвует назначение задач искусственного интеллекта, ни проверка процесса вычислений и результатов, не различая тренировку и вывод.
  • io.net, которая до июня 2022 года разрабатывала институциональные квантовые торговые системы в основном для американского фондового рынка и рынков криптовалют, обнаружила Ray.io, библиотеку на языке Python с открытым исходным кодом для создания высокопроизводительных распределенных систем. io.net использует Ray и специализированные библиотеки для потоковой передачи данных, обучения, настройки и сочетает с Mesh VPN (которые упрощают процесс разработки и развертывания масштабных моделей искусственного интеллекта по всему массиву сетей GPU) для предоставления вычислительных услуг.
  • Bittensor, как открытая платформа, позволяет пользователям создавать подсети на своей платформе, каждая из которых имеет свои собственные уникальные стимулы, чтобы мотивировать других пользователей участвовать в качестве майнеров подсетей, валидаторов подсетей, майнеров подсетей для выполнения конкретных задач и валидаторов для проверки этих задач майнеров.
  • Aethir - это инфраструктура облачных вычислений, предоставляющая высококачественные услуги для искусственного интеллекта и облачных игр. Aethir фокусируется на агрегировании высококачественных ресурсов GPU, таких как чип NVIDIA H100, из центров обработки данных, технологических компаний, телекоммуникационных операторов, ведущих студий игр и компаний по майнингу криптовалют. Сеть состоит из трех основных участников: Контейнер, Чекер и Индексатор. Контейнеры, включая Aethir Edge, - это места, где фактически используются вычислительные ресурсы. Чекер обеспечивает целостность и производительность контейнера. При необходимости Индексатор соотносит конечных пользователей с соответствующими контейнерами на основе требований конечных пользователей.

Сети, специфические для вычислений

Предварительное обучение

В сфере Крипто, Gensyn, в которую инвестировала a16z, предлагает децентрализованную сеть вычислений для обучения.

Процесс заключается в том, что после того, как пользователь отправляет задачу требования к обучению, платформа анализирует ее, оценивает необходимую вычислительную мощность, а также разбивает ее на минимальное количество работ ML, на которых валидатор периодически захватывает проанализированную задачу для создания порогов для сравнения доказательств обучения по потоку данных.

Как только задача переходит в фазу обучения, ее выполняет Решатель, который периодически сохраняет веса модели и индексы ответов из обучающего набора данных, а также генерирует учебные доказательства, а верификатор также выполняет вычислительную работу, повторно запуская некоторые из доказательств для проведения расчетов расстояний, чтобы проверить их соответствие доказательствам. Жалобщики осуществляют арбитраж на основе программы точного вызова на основе графа, чтобы проверить, была ли выполнена правильно работа по подтверждению.

Настройка

Настройка проще и дешевле внедрения, чем прямое предварительное обучение большой модели, просто путем настройки заранее обученной модели с конкретным набором данных и адаптации модели к конкретной задаче с сохранением исходной модели.

Hugging Face можно использовать в качестве поставщика ресурсов предварительно обученных языковых моделей для распределенной платформы, пользователь выбирает модель для настройки в соответствии с требованиями задачи, а затем использует графические процессоры и другие ресурсы, предоставленные вычислительной сетью, для настройки задачи, которая должна базироваться на сложности задачи для определения размера набора данных, сложности модели и для дальнейшего определения необходимости в более высоком уровне ресурсов, таких как A100.

Кроме Gensyn, платформы, способные поддерживать предварительное обучение, большинство вычислительных платформ также могут поддерживать тонкую настройку.

Вывод

По сравнению с обучением (предварительным обучением и настройкой), требующим настройки параметров модели, вычислительный процесс вывода включает только прямое распространение и требует меньше вычислительной мощности. Большинство децентрализованных вычислительных сетей в настоящее время сосредоточены на службах вывода.

  • Сеть Nosana - это платформа для запуска рабочих нагрузок искусственного интеллекта, предоставляющая вычислительные услуги, нацеленные на процесс вывода для моделей LLama 2 и Stable Diffusion.
  • Ritual.AI, первая фаза платформы - Infernet, которая является легким фреймворком. С его помощью разработчики смарт-контрактов могут запрашивать услуги вывода из цепи и передавать их смарт-контрактам на цепи. Вторая фаза - слой выполнения Ritual Chain, который поддерживает операции с искусственным интеллектом.

Дополнительные слои/промежуточное программное обеспечение

Когда происходит вывод, этап уже является этапом использования модели, тогда промежуточное программное обеспечение может быть введено в нужное время:

  • Сопоставление моделей: При выполнении логического вывода обычно необходимо определить подходящую модель в соответствии с требованиями задачи.
  • API: Абстрагировать интерфейс всех моделей открытого исходного кода API, таких как Redpill

Смарт-контракт на цепи для получения результатов вычислений ИИ вне цепи:

  • Протокол ORA для предоставления проверенных результатов вывода для смарт-контрактов, например, узел opML собирает запросы opML, отправленные с цепи, запустит вывод искусственного интеллекта, а затем загрузит результаты в цепь и дождется периода оспаривания.

Еще один уровень конфиденциальности можно добавить к вычислительной сети, который в основном включает конфиденциальность данных и конфиденциальность модели, при этом конфиденциальность данных гораздо важнее, чем конфиденциальность модели.

  • В настоящее время протокол Oasis использует технологии Intel TDX и NVIDIA TEEs для обеспечения конфиденциальности и проверяемости при обучении моделей искусственного интеллекта.

Верификация

Большинство сетей вычислений создают различные системы валидации для обеспечения точной работы системы, в то время как звено - это часть, которая еще не была введена в традиционное поле искусственного интеллекта.

ZKML

Основная роль ZK-доказательства заключается в следующих 2 точках:

  • Используется для доказательства точности модели без раскрытия каких-либо параметров
  • Докажите, что вычисление было выполнено правильно и что модель + входные данные соответствуют выходам: Модульные лаборатории, Гиза

Компания Modulus Labs показала, что возможно создавать доказательства для моделей с 18 миллионами параметров за 60–70 секунд с использованием системы доказательств Plonky от Polygon. Для небольших моделей на этом этапе можно использовать ZKML, но стоимость все еще значительна:

  • Время доказательства ZKML растет с увеличением параметров.
  • Это очень дорого с точки зрения потребления памяти доказательства. Например, Worldcoin использует модель с 1,8 миллиона параметров и 50 слоев для различения 10 миллиардов радужек, для которых доказательства вывода могут быть сгенерированы всего за несколько минут, но потребление памяти в доказателе слишком высоко для любого мобильного оборудования.

Источник: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

Учитывая вышеуказанные ограничения ZKML, OPML является альтернативой. Хотя она слабее ZKML с точки зрения безопасности, потребление памяти и время вычисления доказательства значительно лучше, чем у ZKML. Согласно отчету ORA, показано, что для модели 7B-LLaMA (с размером модели около 26 ГБ) opML может быть обработана в пределах 32 ГБ памяти, в то время как потребление памяти цепей в zkML может достигать терабайтов или даже петабайтов.

TEEML

Доверенная среда выполнения обеспечивает безопасность на аппаратном уровне и может быть альтернативой ZKML и OPML. Доказательство TEE генерируется в результате внутренних вычислений в TEE, и его вычислительная стоимость намного ниже, чем у zk-доказательства. Кроме того, размер доказательства TEE обычно является фиксированной константой (длина подписи), что обеспечивает преимущество более низкого размера и более низкой стоимости проверки on-chain.

Кроме проверки, TEE имеет преимущество в том, что он изолирует конфиденциальные данные, обеспечивая невозможность доступа или изменения этих данных внешними процессами или вычислениями.

Проекты, использующие TEE, включают:

  • Сеть Aizel (обеспечивающая вывод)
  • Сеть Phala (сосредоточенная на создании искусственного интеллекта)
  • Протокол Oasia (обучение модели ИИ)
  • Протокол Marlin (Oyster может развертывать и проверять модели машинного обучения)

Источник: https://arxiv.org/pdf/2401.17555,Протокол Marlin

Кроме того, протокол ORA разработал opp/ai (оптимистичный приватный искусственный интеллект на блокчейне) в дополнение к собственным проверкам ZKML и OPML и не включен в приведенную выше таблицу сравнения.

Уровень агента

Агент обладает способностью анализировать поступающую информацию, оценивать текущие условия окружающей среды и принимать решения. Состав агента показан на следующей фигуре, где LLM является основным компонентом, кроме того, необходимо подавать соответствующую подсказку LLM и через память хранить данные краткосрочной памяти и долгосрочные исторические данные (внешние данные).

Поскольку сложные задачи не могут быть выполнены сразу, их необходимо разбить на более мелкие задачи по плану, кроме того, Агент также может вызывать внешние API, чтобы получить дополнительную информацию, включая текущую информацию, возможности выполнения кода, доступ к закрытым информационным источникам и т. д.

Источник: Обзор на основе больших языковых моделей автономных агентов

Способность к принятию решений Агентов не имела определенного прорыва до появления большой языковой модели LLM в последние годы. Отчет собрал количество опубликованных статей об Агентах с 2021 по 2023 годы, как показано на рисунке ниже, на самом деле в 2021 году было опубликовано всего около десятка исследовательских статей, но в 2023 году их было опубликовано сотни. Статья классифицирует Агентов на 7 категорий.

Источник: Обзор автономных агентов на основе больших моделей языка

В web3 сценарии, в которых существуют агенты, все еще ограничены по сравнению с миром web2 и в настоящее время включают автоматическую очистку, создание компонентов кода (написание смарт-контрактов, написание zk схем), контроль рисков в реальном времени и выполнение стратегий, таких как арбитраж и добыча дохода.

Создание агентов и торговые платформы

  • Theoriq (ChainML) представил концепцию Agent Base Layer, которая позволяет разработчикам аннотировать агентов в форме NFT и создавать своих собственных агентов, а также создавать агентский коллектив, объединяя агентов для выполнения сложных требований. Этот процесс оценивает производительность и взаимосвязь различных агентов с помощью доказательства атрибуции и доказательства сотрудничества.
  • Spectral Labs имеет два основных продукта: Spectral Syntax, платформу, которая позволяет пользователям создавать агентов на цепи, и Spectral Nova, сервис вывода заключений, который поддерживает запросы на вывод заключений. Создание агента в Spectral Syntax использует сервис вывода заключений Spectral Nova, и этот вывод заключений обеспечивается ZK-доказательством для обеспечения его работоспособности. Одновременно они запустят Inferchain для обеспечения коммуникации между агентами.
  • Autonolas поддерживает создание служб, состоящих из нескольких агентов, что позволяет владельцу службы создавать службу и регистрировать соответствующую службу в реестре служб для запуска рабочего процесса, запроса у разработчика предоставления компонентов агента и т. д. Разработчики могут разрабатывать агента, компоненты и другой код, хранящийся вне цепи, выпускать соответствующие NFT в цепи и ссылаться на хэш метаданных IPFS, а затем ссылаться на базовый код, дополнительно ссылаясь на хэш IPFS. Службы обычно управляются набором операторов, каждый из которых запускает как минимум один экземпляр агента. Кроме того, Autonolas достигает согласия внутри службы для ее агентов с помощью устройства согласования, которое устанавливает соглашение между агентами внутри службы.

Платформа мониторинга агентов

  • AgentOpsAI - партнер sentient, предоставляющий услуги мониторинга агентов (журнал событий, вызовы, ошибки агентов и т. д.), в настоящее время централизованная платформа, без участия токенов.

Рабочий процесс

На основе различных агентов можно объединять/абстрагировать/создавать конкретное приложение, при этом существуют специальные платформы согласования, которые пользователи могут выбирать для построения определенного типа приложения. Но большинство из них ограничены разработкой агентов.

Приложение

Разработчики проекта

Некоторые разработчики будут использовать искусственный интеллект для улучшения своих платформ, например, в проектах безопасности используется машинное обучение для выявления уязвимостей атак; протоколы DeFi используют искусственный интеллект для создания инструментов реального времени мониторинга; а платформы аналитики данных также используют искусственный интеллект для помощи в очистке и анализе данных.

Пользователь

Окно Q&A/анализа

  • На Kaito.ai пользователи могут использовать Q&A, чтобы получить информацию о настроениях сообщества по проекту, цене и движениях основной команды.
  • 0xScope, основное использование графов знаний для интеграции данных на цепи, а именно характеристики поведения пользователей, для предоставления пользовательских услуг анализа данных, запустил окно Scopechat Q&A вовремя для этой волны искусственного интеллекта.

Магазин приложений AI

  • Myshell предлагает потребительский уровень и создает магазин приложений AI, который предоставляет различные компоненты и три режима создания, чтобы облегчить пользователям создание различных приложений AI. Виджеты разделены на базовые и композитные компоненты. Базовые компоненты позволяют пользователям встраивать Prompt, Voice, Avatar и другие ресурсы в приложения AI, а композитные компоненты позволяют создавать настраиваемые компоненты с использованием комбинации нескольких базовых моделей/компонентов. Режимы создания включают классический, разработчика и режим без кода для разработчиков и пользователей с разными способностями и потребностями.

Сводка

В этой статье мы хотели бы выделить следующие 3 момента:

  • ГПЗУИ

В крипто появляется ряд вычислительных сетей, что неизбежно заставляет пользователей чувствовать, что GPU - это ИИ, но как было проанализировано в предыдущем разделе, существует невозможное трилемма вычислительных сетей, т. е. вычислительная мощность, пропускная способность/коммуникация и память, а также три вида параллельных стратегий, используемых в обучении моделей, такие как параллельные данные, тензорная параллельность и последовательная параллельность, всё указывает на контроль и баланс, накладываемые на создание структуры вычислительной сети.

  • Та же модель & те же данныеТот же результат

Причина того, что одна и та же модель и данные не обязательно приводят к одному и тому же результату, заключается в использовании вычислений с плавающей запятой. Это различие в вычислениях также влияет на построение вычислительной сети.

  • Больше агентов искусственного интеллекта

В последние годы ИИ-агенты стали приносить больше пользы, и мы ожидаем, что на рынке появится больше агентов. Но то, как агенты работают в криптовалюте или как найти правильные стимулы в виде токенов, остается проблемой.

Заявление:

  1. Эта статья взята из[средний],оригинальное название «AI в крипто», авторское право принадлежит оригинальному автору[ХешКей Капитал ],如对转载有异议,请联系Команда Gate Learn,团队会根据相关流程尽速处理。

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. Статьи на других языках переводятся командой Gate Learn, если не указаноGate.ioв случае недопустимости копирования, распространения или плагиата переведенных статей.

Искусственный интеллект в Крипто

Средний9/19/2024, 2:23:31 AM
Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на большую языковую модель искусственного интеллекта. Этот беспокойный динамизм проник в пространство Крипто, и данная статья направлена на знакомство с развитием искусственного интеллекта, его текущим статусом и отраслью, выросшей из сочетания ИИ+Крипто.

Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на крупную языковую модель ИИ. Эта бурная динамика проникла в криптопространство, и цель этой статьи - представить развитие искусственного интеллекта, его текущий статус и индустрию, возникшую из сочетания ИИ+Крипто.

Развитие искусственного интеллекта и его текущее состояние

Типы и архитектуры

Машинное обучение (ML) - это технология с эмпирическими обучающими способностями, которая учится различать животных, переводить язык и выполнять другие конкретные задачи, изучая большие объемы данных. Машинное обучение относится к наиболее практичным способам реализации искусственного интеллекта в настоящее время, в зависимости от того, размечены ли изученные данные и какие у них особенности, его можно разделить на обучение с учителем и обучение без учителя.

Существует множество типов моделей, которые могут осуществлять обучение с учителем, включая модели на основе деревьев, графов и недавно появившиеся нейронные сети. С быстрым развитием вычислительной мощности и данных глубокое обучение было дополнительно разработано на основе архитектуры нейронных сетей. Текущие архитектуры глубокого обучения включают, но не ограничиваются, сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и механизмы внимания.

Классификация машинного обучения, источник: HashKey Capital

Различные сети глубокого обучения имеют базовую архитектуру входного слоя, скрытого слоя и выходного слоя, входной слой обычно представляет собой текст, видео, аудио и другие данные после обработки методом "токенизации/встраивания". Скрытый слой имеет различное оформление (форму модели) в зависимости от набора данных и цели задачи, как показано в таблице.

Типы нейронных сетей, Источник: Организовано HashKey Capital

Тридцать лет развития нейронных сетей

30 лет развития нейронных сетей, источник: организовано HashKey Capital

Обучение нейронных сетей впервые появилось в середине 1980-х годов, когда Джордан обучил нейронную сеть учить последовательные шаблоны в своей статье 1986 годаПоследовательный порядок: Параллельный распределенный подход к обработке данных. На маленькой сети было всего несколько нейронов.

В 1990-х Джеффри Эрман расширил нейронную сеть до 50-нейронной сети, обнаружив, что сеть пространственно кластеризует слова на основе их значения. Например, она разделяла неодушевленные и одушевленные существительные, причем в пределах этих двух категорий одушевленные объекты были подразделены на человеческие и неживотные категории, а неодушевленные были категоризированы как разрушаемые и съедобные. Это указывает на то, что сеть способна учиться иерархическим объяснениям.

Он также отметил, что слова могут быть представлены как точки в многомерном пространстве, а затем последовательность слов или предложений можно рассматривать как путь. Этот крупный прорыв позволяет цифровизировать, векторизировать и обрабатывать текстовые наборы данных с помощью компьютеров.

Источник: http://3b1b.co/neural-networks

В 2011 году исследователи Confluence обучили более крупные сети, включающие тысячи нейронов и миллионы связей, и было обнаружено узкое место в исследовании возможности сети поддерживать согласованный контекст на протяжении длинных последовательностей.

В 2017 году OpenAI развилась на работе Кэти, обучившись на 82 миллионах отзывов Amazon, в которых были обнаружены эмоциональные нейроны. Такие нейроны идеально классифицировали эмоции текста.

Источник: Изучение генерации отзывов и обнаружение настроения

Относительно ограничений размера контекста, данная статья 2017 Attention Is All You Need представляет собой решение. В статье создается динамическая сеть слоев, которая адаптирует веса соединений на основе контекста сети. Она работает, позволяя словам ввода просматривать, сравнивать другие слова и находить наиболее релевантные. Чем ближе эти слова по смыслу, тем ближе они находятся в пространстве и могут иметь более высокие веса соединения. Однако в статье был сосредоточен только на проблеме перевода.

Таким образом исследователи OpenAI попробовали более мощную архитектуру трансформера и запустили GPT-3 в 2020 году, что привлекло широкое внимание отраслей по всему миру, на этот раз с сетью, достигшей 175 млрд параметров, 96 слоев и окном контекста из 1,000 слов.

Что такое нейронная сеть?

Возьмем в качестве примера следующее цифровое изображение размером 28x28 пикселей, нейроны соответствуют каждому пикселю входного изображения 28x28, всего 784 нейрона, числа в нейронах являются значениями активации, которые находятся в диапазоне от 0 до 1.

28x28 пиксельное цифровое изображение, Источник: http://3b1b.co/neural-networks

Эти 784 нейрона формируют входной слой сети. Финальным слоем является выходной слой, который содержит десять нейронов, представляющих числа от 0 до 9, снова с значениями активации в диапазоне от 0 до 1. Средний слой - это скрытый слой, где значение активации предыдущего слоя определяет значение активации следующего слоя при работе нейронной сети.

Глубина глубокого обучения заключается в том, что модель изучает много «уровней» преобразований, каждый из которых имеет свое представление. Как показано на рисунке ниже, например, в 9 различных слоях могут распознавать разные функции. Чем ближе входной слой к более низкому уровню детализации данных, тем ближе выходной слой к более конкретным концепциям, которые можно использовать для дифференциации.

Источник: http://3b1b.co/neural-networks

Поскольку модель становится больше, скрытые слои посередине включают сотни миллиардов весов на каждом слое, и именно эти веса и смещения действительно определяют, что сеть фактически делает. Процесс машинного обучения — это процесс нахождения правильных параметров, которые являются весами и смещениями.

Архитектура трансформера, используемая в GPT, большой модели языка, имеет промежуточный скрытый слой, состоящий из 96 слоев декодерных модулей, из которых GPT1, GPT2 и GPT3 имеют соответственно 12, 48 и 96 слоев. Декодер в свою очередь содержит компоненты внимания и обратной связи нейронных сетей.

Метод обучения

Вычислительный или обучающий процесс включает в себя определение функции стоимости (или функции потерь), которая суммирует квадраты разниц между вычисленными прогнозами выходных данных сети и фактическими значениями, и когда сумма невелика, модель работает в пределах приемлемых пределов.

Обучение начинается с случайной параметризации сети и определения параметров модели сети путем нахождения параметра, минимизирующего функцию стоимости. Сходимость функции стоимости достигается градиентным спуском, при котором изучается степень влияния каждого изменения параметра на стоимость/потери, а затем параметры корректируются в соответствии с этой степенью влияния.

Процесс вычисления градиента параметра включает в себя обратное распространение или обратное распространение, которое проходит по сети от выходного слоя к входному слою в обратном порядке согласно правилу цепи. Алгоритм также требует хранения всех промежуточных переменных (частных производных), необходимых для вычисления градиента.

Факторы развития

Существуют три основных фактора, влияющих на производительность крупных языковых моделей искусственного интеллекта во время их обучения, а именно количество параметров модели, размер набора данных и объем вычислений.

Источник: отчет OpenAI, Законы масштабирования для нейронных языковых моделей

Это соответствует развитию наборов данных и компьютеров (вычислительная мощность) в реальности, но также можно видеть из таблицы ниже, что вычислительная мощность растет быстрее доступных данных, в то время как память развивается медленнее всего.

Развитие набора данных, памяти и вычислительной мощности, Источник: https://github.com/d2l-ai

Данные

Требования к данным

Столкнувшись с большой моделью, переобучение чаще всего происходит, когда обучающих данных слишком мало, и, в общем, точность более сложной модели улучшается с увеличением объема данных. Что касается требования к данным, необходимым для большой модели, его можно определить на основе правила 10, которое предполагает, что объем данных должен быть в 10 раз больше параметра, но некоторые алгоритмы глубокого обучения применяют соотношение 1:1.

Помеченные данные

Для обучения с учителем требуется использование помеченных + отмеченных наборов данных для получения действительных результатов.

Источник: Набор данных категоризации одежды Fashion-MNIST

Синтетические данные

Несмотря на быстрый рост данных за последнее десятилетие или два и наличие открытых наборов данных, включая Kaggle, Azure, AWS, Google database и т. д., ограниченное, дефицитное и дорогостоящее количество данных постепенно становится узким местом для развития искусственного интеллекта из-за проблем конфиденциальности, увеличения параметров модели и воспроизводимости данных. Различные решения по работе с данными предлагаются с целью облегчения этой проблемы.

Техники аугментации данных могут быть эффективным решением, предоставляя недостаточные данные модели без получения новых образцов, такие как масштабирование, вращение, отражение, обрезка, трансляция, добавление гауссовского шума, смешивание и т. д.

Синтетические данные - еще один вариант. Синтетические данные - это данные, которые могут быть искусственно сгенерированы компьютерной симуляцией или алгоритмами с или без предыдущего набора данных. Что касается разработки инструментов для генерации синтетических данных, Иэн Дж. Гудфеллоу изобрел Генеративно-состязательную сеть (GAN), которая является архитектурой глубокого обучения.

Он тренирует две нейронные сети, соревнующиеся друг с другом, что может генерировать новые, более реалистичные данные из заданного набора данных для обучения. Архитектура поддерживает генерацию изображений, заполнение недостающей информации, генерацию данных для обучения других моделей, генерацию 3D-моделей на основе 2D-данных и многое другое.

Это всё ещё ранний этап развития отрасли, большинство существующих компаний, занимающихся синтетическими данными, были основаны в 2021 или 2022 году, а некоторые в 2023 году.

Состояние финансирования компаний по синтетическим данным. Источник: https://frontline.vc/blog/synthetic-data/

База данных векторов

Процесс обучения искусственного интеллекта включает в себя большое количество матричных операций, начиная с встраивания слов, матрицы трансформера QKV, заканчивая операциями softmax и так далее. Через матричные операции также передаются все параметры модели.

пример векторной базы данных, Источник : https://x.com/ProfTomYeh/status/1795076707386360227

Ресурсы аппаратного обеспечения компьютера

Большие модели вызывают огромный спрос на компьютерное оборудование, которое в основном разделяется на обучение и вывод.

Предварительное обучение, настройка и вывод

Предварительное обучение и настройка могут быть дополнительно разделены на этап обучения. Как уже упоминалось ранее, для построения модели сети сначала требуется случайная инициализация параметров, затем обучение сети и непрерывная корректировка параметров до тех пор, пока потери сети не достигнут приемлемого уровня. Разница между предварительным обучением и настройкой заключается в том, что

Предварительное обучение начинается с каждого слоя параметров с случайной инициализацией, в то время как некоторые слои донастройки могут непосредственно использовать параметры ранее обученной модели в качестве параметров инициализации для этой задачи (замораживая параметры предыдущих слоев) и действуя на конкретный набор данных.

Источник: https://d2l.ai/chapter_computer-vision/fine-tuning.html

Предварительное обучение и настройка включают изменение параметров модели, что в конечном итоге приводит к оптимизации модели или параметров, в то время как вывод - это расчет вывода путем загрузки модели после входных данных пользователя и в конечном итоге получения обратной связи и выходных результатов.

Предварительное обучение, настройка и вывод распределены по убыванию требований к вычислительным мощностям. В следующей таблице сравниваются аппаратные требования к обучению и выводу. Требования к аппаратному обеспечению двух процессов значительно различаются по вычислительным мощностям, памяти и связи/пропускной способности из-за различий в процессе вычислений и требованиях к точности, и в то же время существует невозможное трилемматическое состояние в вычислительных мощностях, памяти и связи/пропускной способности.

Статистические измерения в этой таблице основаны на обработке одной модели одним токеном, одним параметром. \ FLOPs: операции с плавающей запятой в секунду, количество матричных вычислений. \
*DP, TP, PP: параллельные данные, тензоры, конвейеры.

Сравнение аппаратного обеспечения между обучением и выводом, Источник: Организовано HashKey Capital

Процесс обучения нейронной сети требует чередования прямого и обратного распространения, используя градиент, полученный обратным распространением, для обновления параметров модели. В то же время вывод требует только прямого распространения. Это различие становится влияющим фактором, прежде всего, различающим требования к аппаратным ресурсам компьютера для обучения и вывода.

С точки зрения вычислительной мощности, как показано в таблице, существует простое мультипликативное отношение между количеством параметров модели и потреблением вычислительной мощности, при этом для обучения требуется 6-8 операций с плавающей запятой, а для вывода - 2. Это связано с обратным распространением, включенным в обучение, которое требует вдвое больше вычислительной мощности, чем прямое распространение, и поэтому потребление вычислительной мощности для обучения намного выше, чем для вывода.

В терминах памяти, обратное распространение, используемое для обучения, повторно использует промежуточные значения, сохраненные в прямом распространении, чтобы избежать повторных вычислений. Поэтому процесс обучения должен сохранять промежуточные значения до завершения обратного распространения. Результирующее потребление памяти во время обучения в основном содержит параметры модели, промежуточные активационные значения, сгенерированные во время прямого вычисления, градиенты, сгенерированные вычислением обратного распространения, и состояния оптимизатора. Этап вывода не требует обратного распространения, состояния оптимизатора и градиента и т. д., и его потребление памяти гораздо меньше, чем у обучения.

В терминах коммуникации/пропускной способности, для улучшения производительности обучения искусственного интеллекта обычно используются три параллельные стратегии: параллельные данные, параллельные тензоры и параллельные конвейеры.

  • Параллельные данные означает репликацию нескольких модельных реплик, работающих на разных устройствах, причем каждая модельная реплика действует на различные наборы данных и синхронизирует градиентные данные во время цикла обучения.
  • Параллелизм конвейера, с другой стороны, делит промежуточные скрытые слои, и каждый вычислительный узел отвечает за несколько таких слоев трансформатора. Этот подход также известен как межслойный параллелизм.
  • Тензорная параллельность, с другой стороны, разделяет каждый из этих модулей трансформатора и также известна как параллелизм внутри слоя.

Источник: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Для этих трех стратегий прогнозируется, что частота связи TP является наибольшей, объем связи — самым высоким и связан с количеством токенов, шириной модели и количеством слоев. Объем и частота связи PP меньше, чем у TP, и связана с количеством токенов и шириной модели. Объем и частота связи DP являются наименьшими и не зависят от входных токенов.

Невозможное трилемма

Узким местом аппаратных ресурсов компьютера в больших моделях является в основном ограничение вычислительной мощности, пропускной способности/коммуникаций и памяти, и между ними существует взаимосвязь, что приводит к проблеме Невозможного трилеммена. Например, из-за коммуникационных узких мест производительность кластера не может быть улучшена просто путем оптимизации мощности одного компьютера.

Таким образом, хотя параллельные архитектуры используются для увеличения производительности кластера, большинство параллельных архитектур фактически жертвуют коммуникацией или хранилищем в пользу вычислительной мощности.

Пожертвование коммуникации и хранения в пользу вычислительной мощности:

В PP, если каждому слою трансформаторов назначается графический процессор, несмотря на увеличение вычислительной мощности в единицах времени, требования к коммуникации между слоями также возрастают, что приводит к увеличению объема данных и задержке. Кроме того, требования к хранению промежуточного состояния для прямого распространения возрастают очень быстро.

Пожертвование коммуникацией в пользу вычислительной мощности:

В TP каждый трансформатор разбирается на параллельные вычисления. Поскольку трансформатор состоит из двух компонентов (внимательной головы и нейронной сети прямого распространения), задачу можно разделить внутри слоя как для внимательной головы, так и для нейронной сети прямого распространения. Этот подход TP может смягчить проблему слишком многих иерархий PP из-за того, что графические процессоры не могут поместить модель. Однако у этого подхода все равно есть серьезные накладные расходы на коммуникацию.

Крипто+ИИ

В этой статье мы считаем, что в настоящее время в крипто-сфере существуют следующие основные категории искусственного интеллекта:

Источник: Организовано HashKey Capital

Как упоминалось ранее, три самых важных компонента в искусственном интеллекте - это данные, модели и вычислительная мощность, которые служат инфраструктурой для усиления крипто-ИИ.

Их сочетание фактически образует вычислительную сеть, в процессе вычислений появляется большое количество промежуточного программного обеспечения, чтобы быть эффективным, а также более соответствовать крипто-духу. Внизу находятся Агенты, основанные на этих проверяемых результатах, которые могут дополнительно выполнять разные роли для разных пользовательских аудиторий.

Другая блок-схема может быть использована для выражения основной экологии Крипто ИИ следующим образом:

Экологическая схема, источник: организовано HashKey Capital

Конечно, в крипто-пространстве необходимы токеномические механизмы для стимулирования координации участия разных игроков.

Данные

Для наборов данных можно выбирать между общедоступными источниками данных или собственными конкретными частными источниками данных.

Источник данных:

  • Grass - это проект, который сканирует источники данных поверх Solana. Причина заключается в том, что многие компании блокируют IP-сканирование из центров обработки данных, но не блокируют домашних пользователей. Grass действует как децентрализованный сервис-провайдер, стимулируя домашних пользователей вносить свой вклад через токены.
  • Vana как DATA DAO также предоставляет собственное решение, где создатель создает различные data dao для различных источников данных на цепи и устанавливает различные программы поощрений для пользователей для загрузки своих данных. До сих пор были созданы data dao для reddit (rDAO), где более 154 000 пользователей предоставляют свои персональные данные в rDAO для обучения искусственного интеллекта.
  • Соответствующие данные собираются в виде DePIN-кодов, которые позволяют пользователям подключать свои автомобили к платформе DIMO с помощью аппаратного устройства, например. Основная информация об автомобиле и более продвинутые данные о стиле вождения и т. д. будут безопасно передаваться в сеть DIMO, храниться на цепочке и связываться с соответствующим идентификатором автомобиля (NFT). Еще одним примером является Hivemapper, который собирает данные карты во время движения пользователем.

Платформа синтетических данных:

  • Dria - это платформа генерации синтетических данных (OPStack L2), которая стимулирует пользователей генерировать/торговать синтетическими данными децентрализованным способом. Его хранилище данных хранится в Arweave через HollowDB. Когда пользователи инициируют запрос на генерацию синтетических данных, Dria принимает запрос и разбивает задачу на вычислительные узлы в сети синтетических данных для выполнения, и после верификации сети финальные синтетические данные могут быть проданы на рынке знаний.

Другие:

Платформа услуг разметки данных, поручая разметку задания различным работникам, эти работники могут получить соответствующий токен-стимул после выполнения задачи, таких как Крипо, Публичный ИИ и так далее. Однако текущая проблема заключается в том, что людей, занимающихся разметкой данных, больше, чем данных, в то время как у компаний по искусственному интеллекту есть стабильные поставщики разметки данных для своих потребностей в размеченных данных, из-за существования липкости, что делает их желание перейти на децентрализованные платформы слабым. Эти платформы могут получить только выделение оставшейся части заказа у поставщиков разметки данных.

Вычислительные сети

Обобщенные вычислительные сети

Обобщенные вычислительные сети, которые относятся к сетям, объединяющим ресурсы, такие как графические процессоры и центральные процессоры, чтобы предоставлять обобщенные вычислительные услуги, что означает отсутствие различий между обучением и выводом.

  • Akash, проект 2020 года, служит рынком для сопоставления предложения и спроса на вычислительные мощности, позволяя поставщикам вычислительных ресурсов делать ставки на заказы, с окончательным сопоставлением, загруженным в блокчейн как транзакции. Отдельный валидатор отвечает за упаковку блоков и выполнение проверки. В этом процессе не участвует назначение задач искусственного интеллекта, ни проверка процесса вычислений и результатов, не различая тренировку и вывод.
  • io.net, которая до июня 2022 года разрабатывала институциональные квантовые торговые системы в основном для американского фондового рынка и рынков криптовалют, обнаружила Ray.io, библиотеку на языке Python с открытым исходным кодом для создания высокопроизводительных распределенных систем. io.net использует Ray и специализированные библиотеки для потоковой передачи данных, обучения, настройки и сочетает с Mesh VPN (которые упрощают процесс разработки и развертывания масштабных моделей искусственного интеллекта по всему массиву сетей GPU) для предоставления вычислительных услуг.
  • Bittensor, как открытая платформа, позволяет пользователям создавать подсети на своей платформе, каждая из которых имеет свои собственные уникальные стимулы, чтобы мотивировать других пользователей участвовать в качестве майнеров подсетей, валидаторов подсетей, майнеров подсетей для выполнения конкретных задач и валидаторов для проверки этих задач майнеров.
  • Aethir - это инфраструктура облачных вычислений, предоставляющая высококачественные услуги для искусственного интеллекта и облачных игр. Aethir фокусируется на агрегировании высококачественных ресурсов GPU, таких как чип NVIDIA H100, из центров обработки данных, технологических компаний, телекоммуникационных операторов, ведущих студий игр и компаний по майнингу криптовалют. Сеть состоит из трех основных участников: Контейнер, Чекер и Индексатор. Контейнеры, включая Aethir Edge, - это места, где фактически используются вычислительные ресурсы. Чекер обеспечивает целостность и производительность контейнера. При необходимости Индексатор соотносит конечных пользователей с соответствующими контейнерами на основе требований конечных пользователей.

Сети, специфические для вычислений

Предварительное обучение

В сфере Крипто, Gensyn, в которую инвестировала a16z, предлагает децентрализованную сеть вычислений для обучения.

Процесс заключается в том, что после того, как пользователь отправляет задачу требования к обучению, платформа анализирует ее, оценивает необходимую вычислительную мощность, а также разбивает ее на минимальное количество работ ML, на которых валидатор периодически захватывает проанализированную задачу для создания порогов для сравнения доказательств обучения по потоку данных.

Как только задача переходит в фазу обучения, ее выполняет Решатель, который периодически сохраняет веса модели и индексы ответов из обучающего набора данных, а также генерирует учебные доказательства, а верификатор также выполняет вычислительную работу, повторно запуская некоторые из доказательств для проведения расчетов расстояний, чтобы проверить их соответствие доказательствам. Жалобщики осуществляют арбитраж на основе программы точного вызова на основе графа, чтобы проверить, была ли выполнена правильно работа по подтверждению.

Настройка

Настройка проще и дешевле внедрения, чем прямое предварительное обучение большой модели, просто путем настройки заранее обученной модели с конкретным набором данных и адаптации модели к конкретной задаче с сохранением исходной модели.

Hugging Face можно использовать в качестве поставщика ресурсов предварительно обученных языковых моделей для распределенной платформы, пользователь выбирает модель для настройки в соответствии с требованиями задачи, а затем использует графические процессоры и другие ресурсы, предоставленные вычислительной сетью, для настройки задачи, которая должна базироваться на сложности задачи для определения размера набора данных, сложности модели и для дальнейшего определения необходимости в более высоком уровне ресурсов, таких как A100.

Кроме Gensyn, платформы, способные поддерживать предварительное обучение, большинство вычислительных платформ также могут поддерживать тонкую настройку.

Вывод

По сравнению с обучением (предварительным обучением и настройкой), требующим настройки параметров модели, вычислительный процесс вывода включает только прямое распространение и требует меньше вычислительной мощности. Большинство децентрализованных вычислительных сетей в настоящее время сосредоточены на службах вывода.

  • Сеть Nosana - это платформа для запуска рабочих нагрузок искусственного интеллекта, предоставляющая вычислительные услуги, нацеленные на процесс вывода для моделей LLama 2 и Stable Diffusion.
  • Ritual.AI, первая фаза платформы - Infernet, которая является легким фреймворком. С его помощью разработчики смарт-контрактов могут запрашивать услуги вывода из цепи и передавать их смарт-контрактам на цепи. Вторая фаза - слой выполнения Ritual Chain, который поддерживает операции с искусственным интеллектом.

Дополнительные слои/промежуточное программное обеспечение

Когда происходит вывод, этап уже является этапом использования модели, тогда промежуточное программное обеспечение может быть введено в нужное время:

  • Сопоставление моделей: При выполнении логического вывода обычно необходимо определить подходящую модель в соответствии с требованиями задачи.
  • API: Абстрагировать интерфейс всех моделей открытого исходного кода API, таких как Redpill

Смарт-контракт на цепи для получения результатов вычислений ИИ вне цепи:

  • Протокол ORA для предоставления проверенных результатов вывода для смарт-контрактов, например, узел opML собирает запросы opML, отправленные с цепи, запустит вывод искусственного интеллекта, а затем загрузит результаты в цепь и дождется периода оспаривания.

Еще один уровень конфиденциальности можно добавить к вычислительной сети, который в основном включает конфиденциальность данных и конфиденциальность модели, при этом конфиденциальность данных гораздо важнее, чем конфиденциальность модели.

  • В настоящее время протокол Oasis использует технологии Intel TDX и NVIDIA TEEs для обеспечения конфиденциальности и проверяемости при обучении моделей искусственного интеллекта.

Верификация

Большинство сетей вычислений создают различные системы валидации для обеспечения точной работы системы, в то время как звено - это часть, которая еще не была введена в традиционное поле искусственного интеллекта.

ZKML

Основная роль ZK-доказательства заключается в следующих 2 точках:

  • Используется для доказательства точности модели без раскрытия каких-либо параметров
  • Докажите, что вычисление было выполнено правильно и что модель + входные данные соответствуют выходам: Модульные лаборатории, Гиза

Компания Modulus Labs показала, что возможно создавать доказательства для моделей с 18 миллионами параметров за 60–70 секунд с использованием системы доказательств Plonky от Polygon. Для небольших моделей на этом этапе можно использовать ZKML, но стоимость все еще значительна:

  • Время доказательства ZKML растет с увеличением параметров.
  • Это очень дорого с точки зрения потребления памяти доказательства. Например, Worldcoin использует модель с 1,8 миллиона параметров и 50 слоев для различения 10 миллиардов радужек, для которых доказательства вывода могут быть сгенерированы всего за несколько минут, но потребление памяти в доказателе слишком высоко для любого мобильного оборудования.

Источник: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

Учитывая вышеуказанные ограничения ZKML, OPML является альтернативой. Хотя она слабее ZKML с точки зрения безопасности, потребление памяти и время вычисления доказательства значительно лучше, чем у ZKML. Согласно отчету ORA, показано, что для модели 7B-LLaMA (с размером модели около 26 ГБ) opML может быть обработана в пределах 32 ГБ памяти, в то время как потребление памяти цепей в zkML может достигать терабайтов или даже петабайтов.

TEEML

Доверенная среда выполнения обеспечивает безопасность на аппаратном уровне и может быть альтернативой ZKML и OPML. Доказательство TEE генерируется в результате внутренних вычислений в TEE, и его вычислительная стоимость намного ниже, чем у zk-доказательства. Кроме того, размер доказательства TEE обычно является фиксированной константой (длина подписи), что обеспечивает преимущество более низкого размера и более низкой стоимости проверки on-chain.

Кроме проверки, TEE имеет преимущество в том, что он изолирует конфиденциальные данные, обеспечивая невозможность доступа или изменения этих данных внешними процессами или вычислениями.

Проекты, использующие TEE, включают:

  • Сеть Aizel (обеспечивающая вывод)
  • Сеть Phala (сосредоточенная на создании искусственного интеллекта)
  • Протокол Oasia (обучение модели ИИ)
  • Протокол Marlin (Oyster может развертывать и проверять модели машинного обучения)

Источник: https://arxiv.org/pdf/2401.17555,Протокол Marlin

Кроме того, протокол ORA разработал opp/ai (оптимистичный приватный искусственный интеллект на блокчейне) в дополнение к собственным проверкам ZKML и OPML и не включен в приведенную выше таблицу сравнения.

Уровень агента

Агент обладает способностью анализировать поступающую информацию, оценивать текущие условия окружающей среды и принимать решения. Состав агента показан на следующей фигуре, где LLM является основным компонентом, кроме того, необходимо подавать соответствующую подсказку LLM и через память хранить данные краткосрочной памяти и долгосрочные исторические данные (внешние данные).

Поскольку сложные задачи не могут быть выполнены сразу, их необходимо разбить на более мелкие задачи по плану, кроме того, Агент также может вызывать внешние API, чтобы получить дополнительную информацию, включая текущую информацию, возможности выполнения кода, доступ к закрытым информационным источникам и т. д.

Источник: Обзор на основе больших языковых моделей автономных агентов

Способность к принятию решений Агентов не имела определенного прорыва до появления большой языковой модели LLM в последние годы. Отчет собрал количество опубликованных статей об Агентах с 2021 по 2023 годы, как показано на рисунке ниже, на самом деле в 2021 году было опубликовано всего около десятка исследовательских статей, но в 2023 году их было опубликовано сотни. Статья классифицирует Агентов на 7 категорий.

Источник: Обзор автономных агентов на основе больших моделей языка

В web3 сценарии, в которых существуют агенты, все еще ограничены по сравнению с миром web2 и в настоящее время включают автоматическую очистку, создание компонентов кода (написание смарт-контрактов, написание zk схем), контроль рисков в реальном времени и выполнение стратегий, таких как арбитраж и добыча дохода.

Создание агентов и торговые платформы

  • Theoriq (ChainML) представил концепцию Agent Base Layer, которая позволяет разработчикам аннотировать агентов в форме NFT и создавать своих собственных агентов, а также создавать агентский коллектив, объединяя агентов для выполнения сложных требований. Этот процесс оценивает производительность и взаимосвязь различных агентов с помощью доказательства атрибуции и доказательства сотрудничества.
  • Spectral Labs имеет два основных продукта: Spectral Syntax, платформу, которая позволяет пользователям создавать агентов на цепи, и Spectral Nova, сервис вывода заключений, который поддерживает запросы на вывод заключений. Создание агента в Spectral Syntax использует сервис вывода заключений Spectral Nova, и этот вывод заключений обеспечивается ZK-доказательством для обеспечения его работоспособности. Одновременно они запустят Inferchain для обеспечения коммуникации между агентами.
  • Autonolas поддерживает создание служб, состоящих из нескольких агентов, что позволяет владельцу службы создавать службу и регистрировать соответствующую службу в реестре служб для запуска рабочего процесса, запроса у разработчика предоставления компонентов агента и т. д. Разработчики могут разрабатывать агента, компоненты и другой код, хранящийся вне цепи, выпускать соответствующие NFT в цепи и ссылаться на хэш метаданных IPFS, а затем ссылаться на базовый код, дополнительно ссылаясь на хэш IPFS. Службы обычно управляются набором операторов, каждый из которых запускает как минимум один экземпляр агента. Кроме того, Autonolas достигает согласия внутри службы для ее агентов с помощью устройства согласования, которое устанавливает соглашение между агентами внутри службы.

Платформа мониторинга агентов

  • AgentOpsAI - партнер sentient, предоставляющий услуги мониторинга агентов (журнал событий, вызовы, ошибки агентов и т. д.), в настоящее время централизованная платформа, без участия токенов.

Рабочий процесс

На основе различных агентов можно объединять/абстрагировать/создавать конкретное приложение, при этом существуют специальные платформы согласования, которые пользователи могут выбирать для построения определенного типа приложения. Но большинство из них ограничены разработкой агентов.

Приложение

Разработчики проекта

Некоторые разработчики будут использовать искусственный интеллект для улучшения своих платформ, например, в проектах безопасности используется машинное обучение для выявления уязвимостей атак; протоколы DeFi используют искусственный интеллект для создания инструментов реального времени мониторинга; а платформы аналитики данных также используют искусственный интеллект для помощи в очистке и анализе данных.

Пользователь

Окно Q&A/анализа

  • На Kaito.ai пользователи могут использовать Q&A, чтобы получить информацию о настроениях сообщества по проекту, цене и движениях основной команды.
  • 0xScope, основное использование графов знаний для интеграции данных на цепи, а именно характеристики поведения пользователей, для предоставления пользовательских услуг анализа данных, запустил окно Scopechat Q&A вовремя для этой волны искусственного интеллекта.

Магазин приложений AI

  • Myshell предлагает потребительский уровень и создает магазин приложений AI, который предоставляет различные компоненты и три режима создания, чтобы облегчить пользователям создание различных приложений AI. Виджеты разделены на базовые и композитные компоненты. Базовые компоненты позволяют пользователям встраивать Prompt, Voice, Avatar и другие ресурсы в приложения AI, а композитные компоненты позволяют создавать настраиваемые компоненты с использованием комбинации нескольких базовых моделей/компонентов. Режимы создания включают классический, разработчика и режим без кода для разработчиков и пользователей с разными способностями и потребностями.

Сводка

В этой статье мы хотели бы выделить следующие 3 момента:

  • ГПЗУИ

В крипто появляется ряд вычислительных сетей, что неизбежно заставляет пользователей чувствовать, что GPU - это ИИ, но как было проанализировано в предыдущем разделе, существует невозможное трилемма вычислительных сетей, т. е. вычислительная мощность, пропускная способность/коммуникация и память, а также три вида параллельных стратегий, используемых в обучении моделей, такие как параллельные данные, тензорная параллельность и последовательная параллельность, всё указывает на контроль и баланс, накладываемые на создание структуры вычислительной сети.

  • Та же модель & те же данныеТот же результат

Причина того, что одна и та же модель и данные не обязательно приводят к одному и тому же результату, заключается в использовании вычислений с плавающей запятой. Это различие в вычислениях также влияет на построение вычислительной сети.

  • Больше агентов искусственного интеллекта

В последние годы ИИ-агенты стали приносить больше пользы, и мы ожидаем, что на рынке появится больше агентов. Но то, как агенты работают в криптовалюте или как найти правильные стимулы в виде токенов, остается проблемой.

Заявление:

  1. Эта статья взята из[средний],оригинальное название «AI в крипто», авторское право принадлежит оригинальному автору[ХешКей Капитал ],如对转载有异议,请联系Команда Gate Learn,团队会根据相关流程尽速处理。

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. Статьи на других языках переводятся командой Gate Learn, если не указаноGate.ioв случае недопустимости копирования, распространения или плагиата переведенных статей.

เริ่มตอนนี้
สมัครและรับรางวัล
$100