Прошло больше полугода, а рейтинг ChatGPT находится почти внизу.

2023-09-09 03:11:22

Автор: Саньян Технология

Сегодня случайно наткнулся на картинку.

Судя по картинке, GPT-4 от OpenAI занял последнее место среди 11 крупных моделей (первая имеет номер 0). Некоторые пользователи сети добавили слова «GPT4: Как я могу пожаловаться на свои обиды?»

Это вызывает у людей любопытство.В начале этого года, после того как ChatGPT стал популярным, другие компании начали упоминать концепцию больших моделей.

Прошло всего больше полугода, а GPT уже «на дне»?

Поэтому автор хотел посмотреть, как выглядит рейтинг GPT.

Время тестирования другое Команда тестирования другая GPT-4 занимает одиннадцатое место

Судя по информации, представленной на картинке в предыдущей статье, этот рейтинг из C-списка.

C-List, полное название C-Global Large Model Comprehensive Examination List, представляет собой комплексный пакет оценки экзаменационных моделей на китайском языке, созданный совместно Университетом Цинхуа, Шанхайским университетом Цзяо Тонг и Эдинбургским университетом.

Сообщается, что пакет охватывает четыре основных направления: гуманитарные науки, социальные науки, естественные науки и инженерия, а также другие специальности, включая 52 предмета, охватывающие множество областей знаний, таких как исчисление и линейная алгебра. Всего имеется 13 948 вопросов на знание китайского языка и рассуждения, которые по сложности разделены на четыре уровня тестирования: средняя школа, бакалавриат, магистратура и профессиональное обучение.

Итак, автор проверил последний C-список.

Последний рейтинг C-списка соответствует рейтингу, показанному на предыдущем рисунке. Среди 11 лучших больших моделей GPT-4 занимает последнее место.

Согласно C-списку, эти результаты представляют собой тесты с нулевым выстрелом (обучение с нулевым выстрелом) или с небольшим количеством выстрелов (обучение с несколькими выстрелами), но малое количество выстрелов не обязательно лучше, чем нулевой.

C- сообщил, что в ходе его испытаний было обнаружено, что многие модели после точной настройки инструкций работают лучше при нулевом выстреле. Многие из протестированных моделей показали результаты как с нулевым, так и с малым количеством выстрелов, а в рейтинге показаны настройки с лучшим общим средним баллом.

В списке C также указано, что названия крупных моделей с «*» указывают на то, что результаты модели были протестированы командой C, а другие результаты были получены посредством представлений пользователей.

Кроме того, автор также заметил, что время подачи результатов испытаний для этих больших моделей сильно различается.

Время подачи результатов теста для GPT-4 — 15 мая, тогда как Yuntianshu, занявший первое место, подает результаты 31 августа; Galaxy, занявший второе место, сдает 23 августа; и YaYi, занявший третье место, представляет свои результаты 31 августа. на 4 сентября.

Более того, среди топ-16 больших моделей только GPT-4 имеет добавление «*» к названию и прошла тестирование C-команды.

Поэтому автор еще раз проверил полный C-список.

Последний список C включает в себя в общей сложности 66 рейтингов крупных моделей.

Среди них всего 11 с «*» в названии, которые тестируются С-командой, а время подачи на тестирование — 15 мая.

Среди этих больших моделей, протестированных командой C, GPT-4 от OpenAI занял 11-е место, ChatGPT — 36-е, ChatGLM-6B от Tsinghua Zhipu AI — 60-е, а MOSS от Fudan — 6-е.

Хотя эти рейтинги могут показать стремительную динамику развития отечественных крупных моделей, автор полагает, что все-таки они не тестируются одной и той же командой одновременно, чего недостаточно для того, чтобы в полной мере доказать, кто среди них сильнее, а кто слабее. эти большие модели.

Это похоже на класс студентов, у которых время экзаменов разное и которые отвечают на разные задания. Как мы можем полагаться на баллы каждого студента для сравнения?

Что говорят разработчики больших моделей? Многие заявили, что превзошли ChatGPT по китайскому и другим возможностям

В последнее время круг крупных моделей довольно оживленный.

Кроме того, крупные модельные продукты восьми компаний, включая Baidu и Byte, прошли регистрацию «Временных мер по управлению услугами генеративного искусственного интеллекта» и могут быть официально запущены в Интернете для предоставления услуг населению. Другие компании успешно выпустили свои собственные крупные модели.

Так как же разработчики этих крупных моделей представляют свою продукцию?

7 июля на форуме Всемирной конференции по искусственному интеллекту 2023 года «Возможности и риски для развития общей индустрии искусственного интеллекта в эпоху больших моделей» Цю Сипэн, профессор Школы компьютерных наук и технологий Фуданьского университета и руководитель Система MOSS сообщила, что крупномасштабная разговорная языковая модель Фудана MOSS. После выпуска в феврале этого года она постоянно повторяла: «Последняя версия MOSS смогла превзойти ChatGPT по китайским возможностям».

В конце июля NetEase Youdao запустила крупную модель перевода.Генеральный директор NetEase Youdao Чжоу Фэн публично заявил, что в ходе внутренних тестов в направлении китайско-английского перевода она превзошла возможности перевода ChatGPT и превзошла уровень Google Translate. **

В конце августа на летнем саммите Yabuli Forum 2023 года Лю Цинфэн, основатель и председатель iFlytek, выступил с речью и сказал: «**Возможности генерации и завершения кода модели iFlytek Spark превзошли ChatGPT и другие. **Логика, алгоритмы, системы методов и подготовка данных для текущих возможностей кода готовы, и все, что нужно, — это время и вычислительная мощность».

В недавнем пресс-релизе SenseTime заявили, что в августе этого года новая модель internlm-123b завершила обучение и количество параметров увеличилось до 123 миллиардов. **В 51 всемирно известном наборе оценок, содержащем в общей сложности 300 000 вопросов, общие результаты тестов заняли второе место в мире, превзойдя такие модели, как gpt-3.5-turbo и недавно выпущенный llama2-70b от Meta Company. **

По данным Shangtang, **internlm-123 занял первое место в 12 основных рейтингах. Среди них показатель agi в комплексном тесте оценочного набора составляет 57,8, что превосходит gpt-4 и занимает первое место; оценка **knowledge commonsenseqa составляет 88,5, занимая первое место; баллы internlm-123b в пяти оценках понимания прочитанного Все возглавлять список.

Кроме того, он занял первое место в пяти оценках рассуждений.

Ранее в этом месяце Zuoyebang официально выпустила собственную модель Galaxy.

Цзоёбанг сказал, что модель Galaxy достигла результатов по двум авторитетным тестам оценки модели больших языков — C- и CMMLU. Данные показывают, что большая модель галактики Zuoyebang занимает первое место в рейтинге C- со средним баллом 73,7 балла; в то же время она входит в список CMMLU с оценками Five-shot и Zero-shot со средними баллами 74,03 балла и 73,85 балла соответственно. Во-первых, она стала первой крупной моделью образования, занявшей первое место по среднему баллу в двух авторитетных списках, упомянутых выше.

Вчера компания Baichuan Intelligent анонсировала официальные доработанные версии Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat с открытым исходным кодом и их 4-битную квантованную версию.

Ван Сяочуань, основатель и генеральный директор Baichuan Intelligence, сказал, что в Китае фактическая производительность точно настроенной модели чата в среде вопросов и ответов или в среде сводки превысила производительность моделей с закрытым исходным кодом, таких как ChatGPT-3.5. **

Сегодня на конференции Tencent Global Digital Ecology 2023 года компания Tencent официально представила большую модель Hunyuan. Цзян Цзе, вице-президент Tencent Group, сказал, что возможности китайского языка **большой модели Tencent Hunyuan превысили GPT-3.5. **

Помимо самопрезентаций этих разработчиков, некоторые СМИ и команды также оценили большую модель.

В начале августа команда Шэнь Янга, профессора и научного руководителя Школы журналистики и коммуникации Университета Цинхуа, опубликовала «Комплексный отчет об оценке эффективности больших языковых моделей». В отчете показано, что **объемный балл Baidu Wenxinyyan по 20 показателям в трех основных измерениях лидирует в стране и лучше, чем ChatGPT. Среди них высокое семантическое понимание китайского языка, а некоторые китайские способности лучше, чем GPT-4. **

В середине августа некоторые СМИ сообщили, что 11 августа крупная модель Xiaomi MiLM-6B появилась в списках оценки крупных моделей C- и CMMLU. На данный момент MiLM-6B занимает 10-е место в общем списке C, 1-е место по величине тех же параметров и 1-е место в китайских крупных моделях CMMLU.

12 августа Тяньцзиньский университет опубликовал «Отчет об оценке большой модели». В отчете показано, что комплексная производительность **GPT-4 и Baidu Wenxinyyan значительно опережает другие модели, а их оценки не сильно отличаются и находятся на одном уровне. Вэнь Синьиян превзошел ChatGPT в большинстве китайских задач и постепенно сократил разрыв с GPT-4. **

В конце августа некоторые СМИ сообщили, что разработанная Kuaishou модель большого языка «KwaiYii» начала внутреннее тестирование. В последнем рейтинге CMMLU, ориентированном на китайский язык, KwaiYii-13B, 13B-версия KwaiYi, заняла первое место как в пяти-, так и в нулевом рейтинге. Он силен в гуманитарных науках, китайских темах и т. д., со средним баллом более 61 балл.

Из вышеизложенного видно, что, хотя эти крупные модели утверждают, что находятся на вершине определенного рейтинга или превосходят ChatGPT в определенных аспектах, большинство из них хорошо работают в некоторых конкретных областях.

Кто может гарантировать, что GPT не улучшился за последние три месяца?

Ситуация OpenAI

Согласно февральскому отчету UBS Group, всего через два месяца после запуска ChatGPT, число активных пользователей в месяц превысило 100 миллионов в конце января 2023 года, что сделало его самым быстрорастущим потребительским приложением в истории.

Но развитие ChatGPT идет не так гладко.

В июле этого года многие пользователи GPT-4 жаловались, что по сравнению с предыдущими возможностями рассуждения производительность GPT-4 снизилась.

Некоторые пользователи указывали на проблемы в Твиттере и на онлайн-форуме разработчиков OpenAI, уделяя особое внимание более слабой логике, большему количеству неправильных ответов, невозможности отслеживать предоставленную информацию, трудностям с выполнением инструкций, забвению добавления скобок в базовый программный код и запоминанию только самые последние советы и т. д.

В августе в другом отчете говорилось, что OpenAi может оказаться в потенциальном финансовом кризисе и обанкротиться к концу 2024 года.

В отчете говорится, что OpenAI обходится примерно в 700 000 долларов США в день только на запуск службы искусственного интеллекта ChatGPT. В настоящее время компания пытается получить прибыль с помощью GPT-3.5 и GPT-4, но ей еще предстоит получить достаточный доход, чтобы выйти на уровень безубыточности.

Однако у OpenAI могут появиться и новые возможности.

Недавно OpenAI объявила, что проведет свою первую конференцию разработчиков в ноябре.

Хотя OpenAI заявила, что не будет выпускать GPT-5, OpenAI заявила, что сотни разработчиков со всего мира будут работать с командой OpenAI для предварительного просмотра «новых инструментов» и обмена идеями.

Это может означать, что ChatGPT добился нового прогресса.

По данным The Paper, 30 августа человек, знакомый с этим вопросом, сообщил, что OpenAI, как ожидается, достигнет дохода в размере более 1 миллиарда долларов в течение следующих 12 месяцев за счет продажи программного обеспечения для искусственного интеллекта и вычислительных мощностей, необходимых для его работы.

Сегодня в другом сообщении СМИ говорится, что Morgan Stanley запустит чат-бота с генеративным искусственным интеллектом, разработанного совместно с OpenAI, позднее в этом месяце.

Люди, которые имеют дело с банкирами Morgan Stanley, либо богаты, либо состоятельны. Если этот будущий чат-бот с генеративным искусственным интеллектом сможет принести новый опыт клиентам Morgan Stanley, это может стать огромным выигрышем для OpenAI.

Наступление эры искусственного интеллекта уже невозможно остановить. Что касается того, кто лучше, вы не можете просто сказать себе, вы должны позволить пользователям оценить это. Мы также считаем, что крупные отечественные модели обязательно догонят ChatGPT по конкретным возможностям и комплексным возможностям.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков