Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на крупную языковую модель ИИ. Эта бурная динамика проникла в криптопространство, и цель этой статьи - представить развитие искусственного интеллекта, его текущий статус и индустрию, возникшую из сочетания ИИ+Крипто.
Машинное обучение (ML) - это технология с эмпирическими обучающими способностями, которая учится различать животных, переводить язык и выполнять другие конкретные задачи, изучая большие объемы данных. Машинное обучение относится к наиболее практичным способам реализации искусственного интеллекта в настоящее время, в зависимости от того, размечены ли изученные данные и какие у них особенности, его можно разделить на обучение с учителем и обучение без учителя.
Существует множество типов моделей, которые могут осуществлять обучение с учителем, включая модели на основе деревьев, графов и недавно появившиеся нейронные сети. С быстрым развитием вычислительной мощности и данных глубокое обучение было дополнительно разработано на основе архитектуры нейронных сетей. Текущие архитектуры глубокого обучения включают, но не ограничиваются, сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и механизмы внимания.
Классификация машинного обучения, источник: HashKey Capital
Различные сети глубокого обучения имеют базовую архитектуру входного слоя, скрытого слоя и выходного слоя, входной слой обычно представляет собой текст, видео, аудио и другие данные после обработки методом "токенизации/встраивания". Скрытый слой имеет различное оформление (форму модели) в зависимости от набора данных и цели задачи, как показано в таблице.
Типы нейронных сетей, Источник: Организовано HashKey Capital
30 лет развития нейронных сетей, источник: организовано HashKey Capital
Обучение нейронных сетей впервые появилось в середине 1980-х годов, когда Джордан обучил нейронную сеть учить последовательные шаблоны в своей статье 1986 годаПоследовательный порядок: Параллельный распределенный подход к обработке данных. На маленькой сети было всего несколько нейронов.
В 1990-х Джеффри Эрман расширил нейронную сеть до 50-нейронной сети, обнаружив, что сеть пространственно кластеризует слова на основе их значения. Например, она разделяла неодушевленные и одушевленные существительные, причем в пределах этих двух категорий одушевленные объекты были подразделены на человеческие и неживотные категории, а неодушевленные были категоризированы как разрушаемые и съедобные. Это указывает на то, что сеть способна учиться иерархическим объяснениям.
Он также отметил, что слова могут быть представлены как точки в многомерном пространстве, а затем последовательность слов или предложений можно рассматривать как путь. Этот крупный прорыв позволяет цифровизировать, векторизировать и обрабатывать текстовые наборы данных с помощью компьютеров.
Источник: http://3b1b.co/neural-networks
В 2011 году исследователи Confluence обучили более крупные сети, включающие тысячи нейронов и миллионы связей, и было обнаружено узкое место в исследовании возможности сети поддерживать согласованный контекст на протяжении длинных последовательностей.
В 2017 году OpenAI развилась на работе Кэти, обучившись на 82 миллионах отзывов Amazon, в которых были обнаружены эмоциональные нейроны. Такие нейроны идеально классифицировали эмоции текста.
Источник: Изучение генерации отзывов и обнаружение настроения
Относительно ограничений размера контекста, данная статья 2017 Attention Is All You Need представляет собой решение. В статье создается динамическая сеть слоев, которая адаптирует веса соединений на основе контекста сети. Она работает, позволяя словам ввода просматривать, сравнивать другие слова и находить наиболее релевантные. Чем ближе эти слова по смыслу, тем ближе они находятся в пространстве и могут иметь более высокие веса соединения. Однако в статье был сосредоточен только на проблеме перевода.
Таким образом исследователи OpenAI попробовали более мощную архитектуру трансформера и запустили GPT-3 в 2020 году, что привлекло широкое внимание отраслей по всему миру, на этот раз с сетью, достигшей 175 млрд параметров, 96 слоев и окном контекста из 1,000 слов.
Возьмем в качестве примера следующее цифровое изображение размером 28x28 пикселей, нейроны соответствуют каждому пикселю входного изображения 28x28, всего 784 нейрона, числа в нейронах являются значениями активации, которые находятся в диапазоне от 0 до 1.
28x28 пиксельное цифровое изображение, Источник: http://3b1b.co/neural-networks
Эти 784 нейрона формируют входной слой сети. Финальным слоем является выходной слой, который содержит десять нейронов, представляющих числа от 0 до 9, снова с значениями активации в диапазоне от 0 до 1. Средний слой - это скрытый слой, где значение активации предыдущего слоя определяет значение активации следующего слоя при работе нейронной сети.
Глубина глубокого обучения заключается в том, что модель изучает много «уровней» преобразований, каждый из которых имеет свое представление. Как показано на рисунке ниже, например, в 9 различных слоях могут распознавать разные функции. Чем ближе входной слой к более низкому уровню детализации данных, тем ближе выходной слой к более конкретным концепциям, которые можно использовать для дифференциации.
Источник: http://3b1b.co/neural-networks
Поскольку модель становится больше, скрытые слои посередине включают сотни миллиардов весов на каждом слое, и именно эти веса и смещения действительно определяют, что сеть фактически делает. Процесс машинного обучения — это процесс нахождения правильных параметров, которые являются весами и смещениями.
Архитектура трансформера, используемая в GPT, большой модели языка, имеет промежуточный скрытый слой, состоящий из 96 слоев декодерных модулей, из которых GPT1, GPT2 и GPT3 имеют соответственно 12, 48 и 96 слоев. Декодер в свою очередь содержит компоненты внимания и обратной связи нейронных сетей.
Вычислительный или обучающий процесс включает в себя определение функции стоимости (или функции потерь), которая суммирует квадраты разниц между вычисленными прогнозами выходных данных сети и фактическими значениями, и когда сумма невелика, модель работает в пределах приемлемых пределов.
Обучение начинается с случайной параметризации сети и определения параметров модели сети путем нахождения параметра, минимизирующего функцию стоимости. Сходимость функции стоимости достигается градиентным спуском, при котором изучается степень влияния каждого изменения параметра на стоимость/потери, а затем параметры корректируются в соответствии с этой степенью влияния.
Процесс вычисления градиента параметра включает в себя обратное распространение или обратное распространение, которое проходит по сети от выходного слоя к входному слою в обратном порядке согласно правилу цепи. Алгоритм также требует хранения всех промежуточных переменных (частных производных), необходимых для вычисления градиента.
Существуют три основных фактора, влияющих на производительность крупных языковых моделей искусственного интеллекта во время их обучения, а именно количество параметров модели, размер набора данных и объем вычислений.
Источник: отчет OpenAI, Законы масштабирования для нейронных языковых моделей
Это соответствует развитию наборов данных и компьютеров (вычислительная мощность) в реальности, но также можно видеть из таблицы ниже, что вычислительная мощность растет быстрее доступных данных, в то время как память развивается медленнее всего.
Развитие набора данных, памяти и вычислительной мощности, Источник: https://github.com/d2l-ai
Столкнувшись с большой моделью, переобучение чаще всего происходит, когда обучающих данных слишком мало, и, в общем, точность более сложной модели улучшается с увеличением объема данных. Что касается требования к данным, необходимым для большой модели, его можно определить на основе правила 10, которое предполагает, что объем данных должен быть в 10 раз больше параметра, но некоторые алгоритмы глубокого обучения применяют соотношение 1:1.
Для обучения с учителем требуется использование помеченных + отмеченных наборов данных для получения действительных результатов.
Источник: Набор данных категоризации одежды Fashion-MNIST
Несмотря на быстрый рост данных за последнее десятилетие или два и наличие открытых наборов данных, включая Kaggle, Azure, AWS, Google database и т. д., ограниченное, дефицитное и дорогостоящее количество данных постепенно становится узким местом для развития искусственного интеллекта из-за проблем конфиденциальности, увеличения параметров модели и воспроизводимости данных. Различные решения по работе с данными предлагаются с целью облегчения этой проблемы.
Техники аугментации данных могут быть эффективным решением, предоставляя недостаточные данные модели без получения новых образцов, такие как масштабирование, вращение, отражение, обрезка, трансляция, добавление гауссовского шума, смешивание и т. д.
Синтетические данные - еще один вариант. Синтетические данные - это данные, которые могут быть искусственно сгенерированы компьютерной симуляцией или алгоритмами с или без предыдущего набора данных. Что касается разработки инструментов для генерации синтетических данных, Иэн Дж. Гудфеллоу изобрел Генеративно-состязательную сеть (GAN), которая является архитектурой глубокого обучения.
Он тренирует две нейронные сети, соревнующиеся друг с другом, что может генерировать новые, более реалистичные данные из заданного набора данных для обучения. Архитектура поддерживает генерацию изображений, заполнение недостающей информации, генерацию данных для обучения других моделей, генерацию 3D-моделей на основе 2D-данных и многое другое.
Это всё ещё ранний этап развития отрасли, большинство существующих компаний, занимающихся синтетическими данными, были основаны в 2021 или 2022 году, а некоторые в 2023 году.
Состояние финансирования компаний по синтетическим данным. Источник: https://frontline.vc/blog/synthetic-data/
Процесс обучения искусственного интеллекта включает в себя большое количество матричных операций, начиная с встраивания слов, матрицы трансформера QKV, заканчивая операциями softmax и так далее. Через матричные операции также передаются все параметры модели.
пример векторной базы данных, Источник : https://x.com/ProfTomYeh/status/1795076707386360227
Большие модели вызывают огромный спрос на компьютерное оборудование, которое в основном разделяется на обучение и вывод.
Предварительное обучение и настройка могут быть дополнительно разделены на этап обучения. Как уже упоминалось ранее, для построения модели сети сначала требуется случайная инициализация параметров, затем обучение сети и непрерывная корректировка параметров до тех пор, пока потери сети не достигнут приемлемого уровня. Разница между предварительным обучением и настройкой заключается в том, что
Предварительное обучение начинается с каждого слоя параметров с случайной инициализацией, в то время как некоторые слои донастройки могут непосредственно использовать параметры ранее обученной модели в качестве параметров инициализации для этой задачи (замораживая параметры предыдущих слоев) и действуя на конкретный набор данных.
Источник: https://d2l.ai/chapter_computer-vision/fine-tuning.html
Предварительное обучение и настройка включают изменение параметров модели, что в конечном итоге приводит к оптимизации модели или параметров, в то время как вывод - это расчет вывода путем загрузки модели после входных данных пользователя и в конечном итоге получения обратной связи и выходных результатов.
Предварительное обучение, настройка и вывод распределены по убыванию требований к вычислительным мощностям. В следующей таблице сравниваются аппаратные требования к обучению и выводу. Требования к аппаратному обеспечению двух процессов значительно различаются по вычислительным мощностям, памяти и связи/пропускной способности из-за различий в процессе вычислений и требованиях к точности, и в то же время существует невозможное трилемматическое состояние в вычислительных мощностях, памяти и связи/пропускной способности.
Статистические измерения в этой таблице основаны на обработке одной модели одним токеном, одним параметром. \ FLOPs: операции с плавающей запятой в секунду, количество матричных вычислений. \
*DP, TP, PP: параллельные данные, тензоры, конвейеры.
Сравнение аппаратного обеспечения между обучением и выводом, Источник: Организовано HashKey Capital
Процесс обучения нейронной сети требует чередования прямого и обратного распространения, используя градиент, полученный обратным распространением, для обновления параметров модели. В то же время вывод требует только прямого распространения. Это различие становится влияющим фактором, прежде всего, различающим требования к аппаратным ресурсам компьютера для обучения и вывода.
С точки зрения вычислительной мощности, как показано в таблице, существует простое мультипликативное отношение между количеством параметров модели и потреблением вычислительной мощности, при этом для обучения требуется 6-8 операций с плавающей запятой, а для вывода - 2. Это связано с обратным распространением, включенным в обучение, которое требует вдвое больше вычислительной мощности, чем прямое распространение, и поэтому потребление вычислительной мощности для обучения намного выше, чем для вывода.
В терминах памяти, обратное распространение, используемое для обучения, повторно использует промежуточные значения, сохраненные в прямом распространении, чтобы избежать повторных вычислений. Поэтому процесс обучения должен сохранять промежуточные значения до завершения обратного распространения. Результирующее потребление памяти во время обучения в основном содержит параметры модели, промежуточные активационные значения, сгенерированные во время прямого вычисления, градиенты, сгенерированные вычислением обратного распространения, и состояния оптимизатора. Этап вывода не требует обратного распространения, состояния оптимизатора и градиента и т. д., и его потребление памяти гораздо меньше, чем у обучения.
В терминах коммуникации/пропускной способности, для улучшения производительности обучения искусственного интеллекта обычно используются три параллельные стратегии: параллельные данные, параллельные тензоры и параллельные конвейеры.
Источник: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Для этих трех стратегий прогнозируется, что частота связи TP является наибольшей, объем связи — самым высоким и связан с количеством токенов, шириной модели и количеством слоев. Объем и частота связи PP меньше, чем у TP, и связана с количеством токенов и шириной модели. Объем и частота связи DP являются наименьшими и не зависят от входных токенов.
Узким местом аппаратных ресурсов компьютера в больших моделях является в основном ограничение вычислительной мощности, пропускной способности/коммуникаций и памяти, и между ними существует взаимосвязь, что приводит к проблеме Невозможного трилеммена. Например, из-за коммуникационных узких мест производительность кластера не может быть улучшена просто путем оптимизации мощности одного компьютера.
Таким образом, хотя параллельные архитектуры используются для увеличения производительности кластера, большинство параллельных архитектур фактически жертвуют коммуникацией или хранилищем в пользу вычислительной мощности.
Пожертвование коммуникации и хранения в пользу вычислительной мощности:
В PP, если каждому слою трансформаторов назначается графический процессор, несмотря на увеличение вычислительной мощности в единицах времени, требования к коммуникации между слоями также возрастают, что приводит к увеличению объема данных и задержке. Кроме того, требования к хранению промежуточного состояния для прямого распространения возрастают очень быстро.
Пожертвование коммуникацией в пользу вычислительной мощности:
В TP каждый трансформатор разбирается на параллельные вычисления. Поскольку трансформатор состоит из двух компонентов (внимательной головы и нейронной сети прямого распространения), задачу можно разделить внутри слоя как для внимательной головы, так и для нейронной сети прямого распространения. Этот подход TP может смягчить проблему слишком многих иерархий PP из-за того, что графические процессоры не могут поместить модель. Однако у этого подхода все равно есть серьезные накладные расходы на коммуникацию.
В этой статье мы считаем, что в настоящее время в крипто-сфере существуют следующие основные категории искусственного интеллекта:
Источник: Организовано HashKey Capital
Как упоминалось ранее, три самых важных компонента в искусственном интеллекте - это данные, модели и вычислительная мощность, которые служат инфраструктурой для усиления крипто-ИИ.
Их сочетание фактически образует вычислительную сеть, в процессе вычислений появляется большое количество промежуточного программного обеспечения, чтобы быть эффективным, а также более соответствовать крипто-духу. Внизу находятся Агенты, основанные на этих проверяемых результатах, которые могут дополнительно выполнять разные роли для разных пользовательских аудиторий.
Другая блок-схема может быть использована для выражения основной экологии Крипто ИИ следующим образом:
Экологическая схема, источник: организовано HashKey Capital
Конечно, в крипто-пространстве необходимы токеномические механизмы для стимулирования координации участия разных игроков.
Для наборов данных можно выбирать между общедоступными источниками данных или собственными конкретными частными источниками данных.
Источник данных:
Платформа синтетических данных:
Другие:
Платформа услуг разметки данных, поручая разметку задания различным работникам, эти работники могут получить соответствующий токен-стимул после выполнения задачи, таких как Крипо, Публичный ИИ и так далее. Однако текущая проблема заключается в том, что людей, занимающихся разметкой данных, больше, чем данных, в то время как у компаний по искусственному интеллекту есть стабильные поставщики разметки данных для своих потребностей в размеченных данных, из-за существования липкости, что делает их желание перейти на децентрализованные платформы слабым. Эти платформы могут получить только выделение оставшейся части заказа у поставщиков разметки данных.
Обобщенные вычислительные сети, которые относятся к сетям, объединяющим ресурсы, такие как графические процессоры и центральные процессоры, чтобы предоставлять обобщенные вычислительные услуги, что означает отсутствие различий между обучением и выводом.
В сфере Крипто, Gensyn, в которую инвестировала a16z, предлагает децентрализованную сеть вычислений для обучения.
Процесс заключается в том, что после того, как пользователь отправляет задачу требования к обучению, платформа анализирует ее, оценивает необходимую вычислительную мощность, а также разбивает ее на минимальное количество работ ML, на которых валидатор периодически захватывает проанализированную задачу для создания порогов для сравнения доказательств обучения по потоку данных.
Как только задача переходит в фазу обучения, ее выполняет Решатель, который периодически сохраняет веса модели и индексы ответов из обучающего набора данных, а также генерирует учебные доказательства, а верификатор также выполняет вычислительную работу, повторно запуская некоторые из доказательств для проведения расчетов расстояний, чтобы проверить их соответствие доказательствам. Жалобщики осуществляют арбитраж на основе программы точного вызова на основе графа, чтобы проверить, была ли выполнена правильно работа по подтверждению.
Настройка проще и дешевле внедрения, чем прямое предварительное обучение большой модели, просто путем настройки заранее обученной модели с конкретным набором данных и адаптации модели к конкретной задаче с сохранением исходной модели.
Hugging Face можно использовать в качестве поставщика ресурсов предварительно обученных языковых моделей для распределенной платформы, пользователь выбирает модель для настройки в соответствии с требованиями задачи, а затем использует графические процессоры и другие ресурсы, предоставленные вычислительной сетью, для настройки задачи, которая должна базироваться на сложности задачи для определения размера набора данных, сложности модели и для дальнейшего определения необходимости в более высоком уровне ресурсов, таких как A100.
Кроме Gensyn, платформы, способные поддерживать предварительное обучение, большинство вычислительных платформ также могут поддерживать тонкую настройку.
По сравнению с обучением (предварительным обучением и настройкой), требующим настройки параметров модели, вычислительный процесс вывода включает только прямое распространение и требует меньше вычислительной мощности. Большинство децентрализованных вычислительных сетей в настоящее время сосредоточены на службах вывода.
Когда происходит вывод, этап уже является этапом использования модели, тогда промежуточное программное обеспечение может быть введено в нужное время:
Смарт-контракт на цепи для получения результатов вычислений ИИ вне цепи:
Еще один уровень конфиденциальности можно добавить к вычислительной сети, который в основном включает конфиденциальность данных и конфиденциальность модели, при этом конфиденциальность данных гораздо важнее, чем конфиденциальность модели.
Большинство сетей вычислений создают различные системы валидации для обеспечения точной работы системы, в то время как звено - это часть, которая еще не была введена в традиционное поле искусственного интеллекта.
Основная роль ZK-доказательства заключается в следующих 2 точках:
Компания Modulus Labs показала, что возможно создавать доказательства для моделей с 18 миллионами параметров за 60–70 секунд с использованием системы доказательств Plonky от Polygon. Для небольших моделей на этом этапе можно использовать ZKML, но стоимость все еще значительна:
Источник: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
Учитывая вышеуказанные ограничения ZKML, OPML является альтернативой. Хотя она слабее ZKML с точки зрения безопасности, потребление памяти и время вычисления доказательства значительно лучше, чем у ZKML. Согласно отчету ORA, показано, что для модели 7B-LLaMA (с размером модели около 26 ГБ) opML может быть обработана в пределах 32 ГБ памяти, в то время как потребление памяти цепей в zkML может достигать терабайтов или даже петабайтов.
Доверенная среда выполнения обеспечивает безопасность на аппаратном уровне и может быть альтернативой ZKML и OPML. Доказательство TEE генерируется в результате внутренних вычислений в TEE, и его вычислительная стоимость намного ниже, чем у zk-доказательства. Кроме того, размер доказательства TEE обычно является фиксированной константой (длина подписи), что обеспечивает преимущество более низкого размера и более низкой стоимости проверки on-chain.
Кроме проверки, TEE имеет преимущество в том, что он изолирует конфиденциальные данные, обеспечивая невозможность доступа или изменения этих данных внешними процессами или вычислениями.
Проекты, использующие TEE, включают:
Источник: https://arxiv.org/pdf/2401.17555,Протокол Marlin
Кроме того, протокол ORA разработал opp/ai (оптимистичный приватный искусственный интеллект на блокчейне) в дополнение к собственным проверкам ZKML и OPML и не включен в приведенную выше таблицу сравнения.
Агент обладает способностью анализировать поступающую информацию, оценивать текущие условия окружающей среды и принимать решения. Состав агента показан на следующей фигуре, где LLM является основным компонентом, кроме того, необходимо подавать соответствующую подсказку LLM и через память хранить данные краткосрочной памяти и долгосрочные исторические данные (внешние данные).
Поскольку сложные задачи не могут быть выполнены сразу, их необходимо разбить на более мелкие задачи по плану, кроме того, Агент также может вызывать внешние API, чтобы получить дополнительную информацию, включая текущую информацию, возможности выполнения кода, доступ к закрытым информационным источникам и т. д.
Источник: Обзор на основе больших языковых моделей автономных агентов
Способность к принятию решений Агентов не имела определенного прорыва до появления большой языковой модели LLM в последние годы. Отчет собрал количество опубликованных статей об Агентах с 2021 по 2023 годы, как показано на рисунке ниже, на самом деле в 2021 году было опубликовано всего около десятка исследовательских статей, но в 2023 году их было опубликовано сотни. Статья классифицирует Агентов на 7 категорий.
Источник: Обзор автономных агентов на основе больших моделей языка
В web3 сценарии, в которых существуют агенты, все еще ограничены по сравнению с миром web2 и в настоящее время включают автоматическую очистку, создание компонентов кода (написание смарт-контрактов, написание zk схем), контроль рисков в реальном времени и выполнение стратегий, таких как арбитраж и добыча дохода.
На основе различных агентов можно объединять/абстрагировать/создавать конкретное приложение, при этом существуют специальные платформы согласования, которые пользователи могут выбирать для построения определенного типа приложения. Но большинство из них ограничены разработкой агентов.
Некоторые разработчики будут использовать искусственный интеллект для улучшения своих платформ, например, в проектах безопасности используется машинное обучение для выявления уязвимостей атак; протоколы DeFi используют искусственный интеллект для создания инструментов реального времени мониторинга; а платформы аналитики данных также используют искусственный интеллект для помощи в очистке и анализе данных.
В этой статье мы хотели бы выделить следующие 3 момента:
В крипто появляется ряд вычислительных сетей, что неизбежно заставляет пользователей чувствовать, что GPU - это ИИ, но как было проанализировано в предыдущем разделе, существует невозможное трилемма вычислительных сетей, т. е. вычислительная мощность, пропускная способность/коммуникация и память, а также три вида параллельных стратегий, используемых в обучении моделей, такие как параллельные данные, тензорная параллельность и последовательная параллельность, всё указывает на контроль и баланс, накладываемые на создание структуры вычислительной сети.
Причина того, что одна и та же модель и данные не обязательно приводят к одному и тому же результату, заключается в использовании вычислений с плавающей запятой. Это различие в вычислениях также влияет на построение вычислительной сети.
В последние годы ИИ-агенты стали приносить больше пользы, и мы ожидаем, что на рынке появится больше агентов. Но то, как агенты работают в криптовалюте или как найти правильные стимулы в виде токенов, остается проблемой.
Эта статья взята из[средний],оригинальное название «AI в крипто», авторское право принадлежит оригинальному автору[ХешКей Капитал ],如对转载有异议,请联系Команда Gate Learn,团队会根据相关流程尽速处理。
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
Статьи на других языках переводятся командой Gate Learn, если не указаноGate.ioв случае недопустимости копирования, распространения или плагиата переведенных статей.
Запуск ChatGPT в ноябре 2022 года открыл глаза различным участникам отрасли на крупную языковую модель ИИ. Эта бурная динамика проникла в криптопространство, и цель этой статьи - представить развитие искусственного интеллекта, его текущий статус и индустрию, возникшую из сочетания ИИ+Крипто.
Машинное обучение (ML) - это технология с эмпирическими обучающими способностями, которая учится различать животных, переводить язык и выполнять другие конкретные задачи, изучая большие объемы данных. Машинное обучение относится к наиболее практичным способам реализации искусственного интеллекта в настоящее время, в зависимости от того, размечены ли изученные данные и какие у них особенности, его можно разделить на обучение с учителем и обучение без учителя.
Существует множество типов моделей, которые могут осуществлять обучение с учителем, включая модели на основе деревьев, графов и недавно появившиеся нейронные сети. С быстрым развитием вычислительной мощности и данных глубокое обучение было дополнительно разработано на основе архитектуры нейронных сетей. Текущие архитектуры глубокого обучения включают, но не ограничиваются, сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и механизмы внимания.
Классификация машинного обучения, источник: HashKey Capital
Различные сети глубокого обучения имеют базовую архитектуру входного слоя, скрытого слоя и выходного слоя, входной слой обычно представляет собой текст, видео, аудио и другие данные после обработки методом "токенизации/встраивания". Скрытый слой имеет различное оформление (форму модели) в зависимости от набора данных и цели задачи, как показано в таблице.
Типы нейронных сетей, Источник: Организовано HashKey Capital
30 лет развития нейронных сетей, источник: организовано HashKey Capital
Обучение нейронных сетей впервые появилось в середине 1980-х годов, когда Джордан обучил нейронную сеть учить последовательные шаблоны в своей статье 1986 годаПоследовательный порядок: Параллельный распределенный подход к обработке данных. На маленькой сети было всего несколько нейронов.
В 1990-х Джеффри Эрман расширил нейронную сеть до 50-нейронной сети, обнаружив, что сеть пространственно кластеризует слова на основе их значения. Например, она разделяла неодушевленные и одушевленные существительные, причем в пределах этих двух категорий одушевленные объекты были подразделены на человеческие и неживотные категории, а неодушевленные были категоризированы как разрушаемые и съедобные. Это указывает на то, что сеть способна учиться иерархическим объяснениям.
Он также отметил, что слова могут быть представлены как точки в многомерном пространстве, а затем последовательность слов или предложений можно рассматривать как путь. Этот крупный прорыв позволяет цифровизировать, векторизировать и обрабатывать текстовые наборы данных с помощью компьютеров.
Источник: http://3b1b.co/neural-networks
В 2011 году исследователи Confluence обучили более крупные сети, включающие тысячи нейронов и миллионы связей, и было обнаружено узкое место в исследовании возможности сети поддерживать согласованный контекст на протяжении длинных последовательностей.
В 2017 году OpenAI развилась на работе Кэти, обучившись на 82 миллионах отзывов Amazon, в которых были обнаружены эмоциональные нейроны. Такие нейроны идеально классифицировали эмоции текста.
Источник: Изучение генерации отзывов и обнаружение настроения
Относительно ограничений размера контекста, данная статья 2017 Attention Is All You Need представляет собой решение. В статье создается динамическая сеть слоев, которая адаптирует веса соединений на основе контекста сети. Она работает, позволяя словам ввода просматривать, сравнивать другие слова и находить наиболее релевантные. Чем ближе эти слова по смыслу, тем ближе они находятся в пространстве и могут иметь более высокие веса соединения. Однако в статье был сосредоточен только на проблеме перевода.
Таким образом исследователи OpenAI попробовали более мощную архитектуру трансформера и запустили GPT-3 в 2020 году, что привлекло широкое внимание отраслей по всему миру, на этот раз с сетью, достигшей 175 млрд параметров, 96 слоев и окном контекста из 1,000 слов.
Возьмем в качестве примера следующее цифровое изображение размером 28x28 пикселей, нейроны соответствуют каждому пикселю входного изображения 28x28, всего 784 нейрона, числа в нейронах являются значениями активации, которые находятся в диапазоне от 0 до 1.
28x28 пиксельное цифровое изображение, Источник: http://3b1b.co/neural-networks
Эти 784 нейрона формируют входной слой сети. Финальным слоем является выходной слой, который содержит десять нейронов, представляющих числа от 0 до 9, снова с значениями активации в диапазоне от 0 до 1. Средний слой - это скрытый слой, где значение активации предыдущего слоя определяет значение активации следующего слоя при работе нейронной сети.
Глубина глубокого обучения заключается в том, что модель изучает много «уровней» преобразований, каждый из которых имеет свое представление. Как показано на рисунке ниже, например, в 9 различных слоях могут распознавать разные функции. Чем ближе входной слой к более низкому уровню детализации данных, тем ближе выходной слой к более конкретным концепциям, которые можно использовать для дифференциации.
Источник: http://3b1b.co/neural-networks
Поскольку модель становится больше, скрытые слои посередине включают сотни миллиардов весов на каждом слое, и именно эти веса и смещения действительно определяют, что сеть фактически делает. Процесс машинного обучения — это процесс нахождения правильных параметров, которые являются весами и смещениями.
Архитектура трансформера, используемая в GPT, большой модели языка, имеет промежуточный скрытый слой, состоящий из 96 слоев декодерных модулей, из которых GPT1, GPT2 и GPT3 имеют соответственно 12, 48 и 96 слоев. Декодер в свою очередь содержит компоненты внимания и обратной связи нейронных сетей.
Вычислительный или обучающий процесс включает в себя определение функции стоимости (или функции потерь), которая суммирует квадраты разниц между вычисленными прогнозами выходных данных сети и фактическими значениями, и когда сумма невелика, модель работает в пределах приемлемых пределов.
Обучение начинается с случайной параметризации сети и определения параметров модели сети путем нахождения параметра, минимизирующего функцию стоимости. Сходимость функции стоимости достигается градиентным спуском, при котором изучается степень влияния каждого изменения параметра на стоимость/потери, а затем параметры корректируются в соответствии с этой степенью влияния.
Процесс вычисления градиента параметра включает в себя обратное распространение или обратное распространение, которое проходит по сети от выходного слоя к входному слою в обратном порядке согласно правилу цепи. Алгоритм также требует хранения всех промежуточных переменных (частных производных), необходимых для вычисления градиента.
Существуют три основных фактора, влияющих на производительность крупных языковых моделей искусственного интеллекта во время их обучения, а именно количество параметров модели, размер набора данных и объем вычислений.
Источник: отчет OpenAI, Законы масштабирования для нейронных языковых моделей
Это соответствует развитию наборов данных и компьютеров (вычислительная мощность) в реальности, но также можно видеть из таблицы ниже, что вычислительная мощность растет быстрее доступных данных, в то время как память развивается медленнее всего.
Развитие набора данных, памяти и вычислительной мощности, Источник: https://github.com/d2l-ai
Столкнувшись с большой моделью, переобучение чаще всего происходит, когда обучающих данных слишком мало, и, в общем, точность более сложной модели улучшается с увеличением объема данных. Что касается требования к данным, необходимым для большой модели, его можно определить на основе правила 10, которое предполагает, что объем данных должен быть в 10 раз больше параметра, но некоторые алгоритмы глубокого обучения применяют соотношение 1:1.
Для обучения с учителем требуется использование помеченных + отмеченных наборов данных для получения действительных результатов.
Источник: Набор данных категоризации одежды Fashion-MNIST
Несмотря на быстрый рост данных за последнее десятилетие или два и наличие открытых наборов данных, включая Kaggle, Azure, AWS, Google database и т. д., ограниченное, дефицитное и дорогостоящее количество данных постепенно становится узким местом для развития искусственного интеллекта из-за проблем конфиденциальности, увеличения параметров модели и воспроизводимости данных. Различные решения по работе с данными предлагаются с целью облегчения этой проблемы.
Техники аугментации данных могут быть эффективным решением, предоставляя недостаточные данные модели без получения новых образцов, такие как масштабирование, вращение, отражение, обрезка, трансляция, добавление гауссовского шума, смешивание и т. д.
Синтетические данные - еще один вариант. Синтетические данные - это данные, которые могут быть искусственно сгенерированы компьютерной симуляцией или алгоритмами с или без предыдущего набора данных. Что касается разработки инструментов для генерации синтетических данных, Иэн Дж. Гудфеллоу изобрел Генеративно-состязательную сеть (GAN), которая является архитектурой глубокого обучения.
Он тренирует две нейронные сети, соревнующиеся друг с другом, что может генерировать новые, более реалистичные данные из заданного набора данных для обучения. Архитектура поддерживает генерацию изображений, заполнение недостающей информации, генерацию данных для обучения других моделей, генерацию 3D-моделей на основе 2D-данных и многое другое.
Это всё ещё ранний этап развития отрасли, большинство существующих компаний, занимающихся синтетическими данными, были основаны в 2021 или 2022 году, а некоторые в 2023 году.
Состояние финансирования компаний по синтетическим данным. Источник: https://frontline.vc/blog/synthetic-data/
Процесс обучения искусственного интеллекта включает в себя большое количество матричных операций, начиная с встраивания слов, матрицы трансформера QKV, заканчивая операциями softmax и так далее. Через матричные операции также передаются все параметры модели.
пример векторной базы данных, Источник : https://x.com/ProfTomYeh/status/1795076707386360227
Большие модели вызывают огромный спрос на компьютерное оборудование, которое в основном разделяется на обучение и вывод.
Предварительное обучение и настройка могут быть дополнительно разделены на этап обучения. Как уже упоминалось ранее, для построения модели сети сначала требуется случайная инициализация параметров, затем обучение сети и непрерывная корректировка параметров до тех пор, пока потери сети не достигнут приемлемого уровня. Разница между предварительным обучением и настройкой заключается в том, что
Предварительное обучение начинается с каждого слоя параметров с случайной инициализацией, в то время как некоторые слои донастройки могут непосредственно использовать параметры ранее обученной модели в качестве параметров инициализации для этой задачи (замораживая параметры предыдущих слоев) и действуя на конкретный набор данных.
Источник: https://d2l.ai/chapter_computer-vision/fine-tuning.html
Предварительное обучение и настройка включают изменение параметров модели, что в конечном итоге приводит к оптимизации модели или параметров, в то время как вывод - это расчет вывода путем загрузки модели после входных данных пользователя и в конечном итоге получения обратной связи и выходных результатов.
Предварительное обучение, настройка и вывод распределены по убыванию требований к вычислительным мощностям. В следующей таблице сравниваются аппаратные требования к обучению и выводу. Требования к аппаратному обеспечению двух процессов значительно различаются по вычислительным мощностям, памяти и связи/пропускной способности из-за различий в процессе вычислений и требованиях к точности, и в то же время существует невозможное трилемматическое состояние в вычислительных мощностях, памяти и связи/пропускной способности.
Статистические измерения в этой таблице основаны на обработке одной модели одним токеном, одним параметром. \ FLOPs: операции с плавающей запятой в секунду, количество матричных вычислений. \
*DP, TP, PP: параллельные данные, тензоры, конвейеры.
Сравнение аппаратного обеспечения между обучением и выводом, Источник: Организовано HashKey Capital
Процесс обучения нейронной сети требует чередования прямого и обратного распространения, используя градиент, полученный обратным распространением, для обновления параметров модели. В то же время вывод требует только прямого распространения. Это различие становится влияющим фактором, прежде всего, различающим требования к аппаратным ресурсам компьютера для обучения и вывода.
С точки зрения вычислительной мощности, как показано в таблице, существует простое мультипликативное отношение между количеством параметров модели и потреблением вычислительной мощности, при этом для обучения требуется 6-8 операций с плавающей запятой, а для вывода - 2. Это связано с обратным распространением, включенным в обучение, которое требует вдвое больше вычислительной мощности, чем прямое распространение, и поэтому потребление вычислительной мощности для обучения намного выше, чем для вывода.
В терминах памяти, обратное распространение, используемое для обучения, повторно использует промежуточные значения, сохраненные в прямом распространении, чтобы избежать повторных вычислений. Поэтому процесс обучения должен сохранять промежуточные значения до завершения обратного распространения. Результирующее потребление памяти во время обучения в основном содержит параметры модели, промежуточные активационные значения, сгенерированные во время прямого вычисления, градиенты, сгенерированные вычислением обратного распространения, и состояния оптимизатора. Этап вывода не требует обратного распространения, состояния оптимизатора и градиента и т. д., и его потребление памяти гораздо меньше, чем у обучения.
В терминах коммуникации/пропускной способности, для улучшения производительности обучения искусственного интеллекта обычно используются три параллельные стратегии: параллельные данные, параллельные тензоры и параллельные конвейеры.
Источник: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Для этих трех стратегий прогнозируется, что частота связи TP является наибольшей, объем связи — самым высоким и связан с количеством токенов, шириной модели и количеством слоев. Объем и частота связи PP меньше, чем у TP, и связана с количеством токенов и шириной модели. Объем и частота связи DP являются наименьшими и не зависят от входных токенов.
Узким местом аппаратных ресурсов компьютера в больших моделях является в основном ограничение вычислительной мощности, пропускной способности/коммуникаций и памяти, и между ними существует взаимосвязь, что приводит к проблеме Невозможного трилеммена. Например, из-за коммуникационных узких мест производительность кластера не может быть улучшена просто путем оптимизации мощности одного компьютера.
Таким образом, хотя параллельные архитектуры используются для увеличения производительности кластера, большинство параллельных архитектур фактически жертвуют коммуникацией или хранилищем в пользу вычислительной мощности.
Пожертвование коммуникации и хранения в пользу вычислительной мощности:
В PP, если каждому слою трансформаторов назначается графический процессор, несмотря на увеличение вычислительной мощности в единицах времени, требования к коммуникации между слоями также возрастают, что приводит к увеличению объема данных и задержке. Кроме того, требования к хранению промежуточного состояния для прямого распространения возрастают очень быстро.
Пожертвование коммуникацией в пользу вычислительной мощности:
В TP каждый трансформатор разбирается на параллельные вычисления. Поскольку трансформатор состоит из двух компонентов (внимательной головы и нейронной сети прямого распространения), задачу можно разделить внутри слоя как для внимательной головы, так и для нейронной сети прямого распространения. Этот подход TP может смягчить проблему слишком многих иерархий PP из-за того, что графические процессоры не могут поместить модель. Однако у этого подхода все равно есть серьезные накладные расходы на коммуникацию.
В этой статье мы считаем, что в настоящее время в крипто-сфере существуют следующие основные категории искусственного интеллекта:
Источник: Организовано HashKey Capital
Как упоминалось ранее, три самых важных компонента в искусственном интеллекте - это данные, модели и вычислительная мощность, которые служат инфраструктурой для усиления крипто-ИИ.
Их сочетание фактически образует вычислительную сеть, в процессе вычислений появляется большое количество промежуточного программного обеспечения, чтобы быть эффективным, а также более соответствовать крипто-духу. Внизу находятся Агенты, основанные на этих проверяемых результатах, которые могут дополнительно выполнять разные роли для разных пользовательских аудиторий.
Другая блок-схема может быть использована для выражения основной экологии Крипто ИИ следующим образом:
Экологическая схема, источник: организовано HashKey Capital
Конечно, в крипто-пространстве необходимы токеномические механизмы для стимулирования координации участия разных игроков.
Для наборов данных можно выбирать между общедоступными источниками данных или собственными конкретными частными источниками данных.
Источник данных:
Платформа синтетических данных:
Другие:
Платформа услуг разметки данных, поручая разметку задания различным работникам, эти работники могут получить соответствующий токен-стимул после выполнения задачи, таких как Крипо, Публичный ИИ и так далее. Однако текущая проблема заключается в том, что людей, занимающихся разметкой данных, больше, чем данных, в то время как у компаний по искусственному интеллекту есть стабильные поставщики разметки данных для своих потребностей в размеченных данных, из-за существования липкости, что делает их желание перейти на децентрализованные платформы слабым. Эти платформы могут получить только выделение оставшейся части заказа у поставщиков разметки данных.
Обобщенные вычислительные сети, которые относятся к сетям, объединяющим ресурсы, такие как графические процессоры и центральные процессоры, чтобы предоставлять обобщенные вычислительные услуги, что означает отсутствие различий между обучением и выводом.
В сфере Крипто, Gensyn, в которую инвестировала a16z, предлагает децентрализованную сеть вычислений для обучения.
Процесс заключается в том, что после того, как пользователь отправляет задачу требования к обучению, платформа анализирует ее, оценивает необходимую вычислительную мощность, а также разбивает ее на минимальное количество работ ML, на которых валидатор периодически захватывает проанализированную задачу для создания порогов для сравнения доказательств обучения по потоку данных.
Как только задача переходит в фазу обучения, ее выполняет Решатель, который периодически сохраняет веса модели и индексы ответов из обучающего набора данных, а также генерирует учебные доказательства, а верификатор также выполняет вычислительную работу, повторно запуская некоторые из доказательств для проведения расчетов расстояний, чтобы проверить их соответствие доказательствам. Жалобщики осуществляют арбитраж на основе программы точного вызова на основе графа, чтобы проверить, была ли выполнена правильно работа по подтверждению.
Настройка проще и дешевле внедрения, чем прямое предварительное обучение большой модели, просто путем настройки заранее обученной модели с конкретным набором данных и адаптации модели к конкретной задаче с сохранением исходной модели.
Hugging Face можно использовать в качестве поставщика ресурсов предварительно обученных языковых моделей для распределенной платформы, пользователь выбирает модель для настройки в соответствии с требованиями задачи, а затем использует графические процессоры и другие ресурсы, предоставленные вычислительной сетью, для настройки задачи, которая должна базироваться на сложности задачи для определения размера набора данных, сложности модели и для дальнейшего определения необходимости в более высоком уровне ресурсов, таких как A100.
Кроме Gensyn, платформы, способные поддерживать предварительное обучение, большинство вычислительных платформ также могут поддерживать тонкую настройку.
По сравнению с обучением (предварительным обучением и настройкой), требующим настройки параметров модели, вычислительный процесс вывода включает только прямое распространение и требует меньше вычислительной мощности. Большинство децентрализованных вычислительных сетей в настоящее время сосредоточены на службах вывода.
Когда происходит вывод, этап уже является этапом использования модели, тогда промежуточное программное обеспечение может быть введено в нужное время:
Смарт-контракт на цепи для получения результатов вычислений ИИ вне цепи:
Еще один уровень конфиденциальности можно добавить к вычислительной сети, который в основном включает конфиденциальность данных и конфиденциальность модели, при этом конфиденциальность данных гораздо важнее, чем конфиденциальность модели.
Большинство сетей вычислений создают различные системы валидации для обеспечения точной работы системы, в то время как звено - это часть, которая еще не была введена в традиционное поле искусственного интеллекта.
Основная роль ZK-доказательства заключается в следующих 2 точках:
Компания Modulus Labs показала, что возможно создавать доказательства для моделей с 18 миллионами параметров за 60–70 секунд с использованием системы доказательств Plonky от Polygon. Для небольших моделей на этом этапе можно использовать ZKML, но стоимость все еще значительна:
Источник: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
Учитывая вышеуказанные ограничения ZKML, OPML является альтернативой. Хотя она слабее ZKML с точки зрения безопасности, потребление памяти и время вычисления доказательства значительно лучше, чем у ZKML. Согласно отчету ORA, показано, что для модели 7B-LLaMA (с размером модели около 26 ГБ) opML может быть обработана в пределах 32 ГБ памяти, в то время как потребление памяти цепей в zkML может достигать терабайтов или даже петабайтов.
Доверенная среда выполнения обеспечивает безопасность на аппаратном уровне и может быть альтернативой ZKML и OPML. Доказательство TEE генерируется в результате внутренних вычислений в TEE, и его вычислительная стоимость намного ниже, чем у zk-доказательства. Кроме того, размер доказательства TEE обычно является фиксированной константой (длина подписи), что обеспечивает преимущество более низкого размера и более низкой стоимости проверки on-chain.
Кроме проверки, TEE имеет преимущество в том, что он изолирует конфиденциальные данные, обеспечивая невозможность доступа или изменения этих данных внешними процессами или вычислениями.
Проекты, использующие TEE, включают:
Источник: https://arxiv.org/pdf/2401.17555,Протокол Marlin
Кроме того, протокол ORA разработал opp/ai (оптимистичный приватный искусственный интеллект на блокчейне) в дополнение к собственным проверкам ZKML и OPML и не включен в приведенную выше таблицу сравнения.
Агент обладает способностью анализировать поступающую информацию, оценивать текущие условия окружающей среды и принимать решения. Состав агента показан на следующей фигуре, где LLM является основным компонентом, кроме того, необходимо подавать соответствующую подсказку LLM и через память хранить данные краткосрочной памяти и долгосрочные исторические данные (внешние данные).
Поскольку сложные задачи не могут быть выполнены сразу, их необходимо разбить на более мелкие задачи по плану, кроме того, Агент также может вызывать внешние API, чтобы получить дополнительную информацию, включая текущую информацию, возможности выполнения кода, доступ к закрытым информационным источникам и т. д.
Источник: Обзор на основе больших языковых моделей автономных агентов
Способность к принятию решений Агентов не имела определенного прорыва до появления большой языковой модели LLM в последние годы. Отчет собрал количество опубликованных статей об Агентах с 2021 по 2023 годы, как показано на рисунке ниже, на самом деле в 2021 году было опубликовано всего около десятка исследовательских статей, но в 2023 году их было опубликовано сотни. Статья классифицирует Агентов на 7 категорий.
Источник: Обзор автономных агентов на основе больших моделей языка
В web3 сценарии, в которых существуют агенты, все еще ограничены по сравнению с миром web2 и в настоящее время включают автоматическую очистку, создание компонентов кода (написание смарт-контрактов, написание zk схем), контроль рисков в реальном времени и выполнение стратегий, таких как арбитраж и добыча дохода.
На основе различных агентов можно объединять/абстрагировать/создавать конкретное приложение, при этом существуют специальные платформы согласования, которые пользователи могут выбирать для построения определенного типа приложения. Но большинство из них ограничены разработкой агентов.
Некоторые разработчики будут использовать искусственный интеллект для улучшения своих платформ, например, в проектах безопасности используется машинное обучение для выявления уязвимостей атак; протоколы DeFi используют искусственный интеллект для создания инструментов реального времени мониторинга; а платформы аналитики данных также используют искусственный интеллект для помощи в очистке и анализе данных.
В этой статье мы хотели бы выделить следующие 3 момента:
В крипто появляется ряд вычислительных сетей, что неизбежно заставляет пользователей чувствовать, что GPU - это ИИ, но как было проанализировано в предыдущем разделе, существует невозможное трилемма вычислительных сетей, т. е. вычислительная мощность, пропускная способность/коммуникация и память, а также три вида параллельных стратегий, используемых в обучении моделей, такие как параллельные данные, тензорная параллельность и последовательная параллельность, всё указывает на контроль и баланс, накладываемые на создание структуры вычислительной сети.
Причина того, что одна и та же модель и данные не обязательно приводят к одному и тому же результату, заключается в использовании вычислений с плавающей запятой. Это различие в вычислениях также влияет на построение вычислительной сети.
В последние годы ИИ-агенты стали приносить больше пользы, и мы ожидаем, что на рынке появится больше агентов. Но то, как агенты работают в криптовалюте или как найти правильные стимулы в виде токенов, остается проблемой.
Эта статья взята из[средний],оригинальное название «AI в крипто», авторское право принадлежит оригинальному автору[ХешКей Капитал ],如对转载有异议,请联系Команда Gate Learn,团队会根据相关流程尽速处理。
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
Статьи на других языках переводятся командой Gate Learn, если не указаноGate.ioв случае недопустимости копирования, распространения или плагиата переведенных статей.