Минуло більше півроку, а рейтинг ChatGPT майже в самому кінці.

2023-09-09 03:11:22

Автор: Sanyan Technology

Сьогодні випадково натрапив на фото.

Відповідно до зображення, GPT-4 від OpenAI посіла останнє місце серед 11 великих моделей (перша має номер 0). Деякі користувачі мережі додали слова «GPT4: як я можу поскаржитися на свої скарги?»

Це викликає у людей цікавість.На початку цього року, після того як ChatGPT став популярним, інші компанії почали згадувати концепцію великих моделей.

Минуло всього більше півроку, а GPT вже «на дні»?

Тому автор хотів подивитися, яким є рейтинг GPT.

Час тестування інший Команда тестування інша GPT-4 посідає одинадцяте місце

Судячи з інформації, зображеної на зображенні в попередній статті, цей рейтинг належить до C-списку.

C-List, повна назва C-Global Large Model Comprehensive Examination Test List, — це пакет комплексного оцінювання екзаменаційної моделі китайської мови, створений спільно Університетом Цінхуа, Шанхайським університетом Цзяо Тонг і Единбурзьким університетом.

Повідомляється, що пакет охоплює чотири основні напрями: гуманітарні, соціальні науки, наука та інженерія та інші спеціальності, включаючи 52 предмети, що охоплюють численні галузі знань, такі як числення та лінійна алгебра. Загалом існує 13 948 запитань на знання та аргументацію китайської мови, складність яких розділена на чотири рівні тесту: середня школа, бакалаврат, магістратура та професійно-технічний.

Тож автор перевірив останній С-список.

Останній рейтинг у списку C відповідає рейтингу, показаному на попередньому зображенні. Серед 11 найкращих великих моделей GPT-4 займає останнє місце.

Відповідно до C-списку, ці результати представляють нульовий (нульове навчання) або кілька спроб (нечисленне навчання) тести, але кілька спроб не обов’язково є кращими за нульовий.

C- сказав, що під час його тестів було виявлено, що багато моделей після точного налаштування інструкцій були кращими під час нульового знімка. Багато з перевірених моделей мають результати як з нульовим, так і з кількома кадрами, і рейтинг показує налаштування з кращим загальним середнім балом.

C-список також вказує, що назви великих моделей із «*» вказують на те, що результати моделі були перевірені командою C, тоді як інші результати були отримані за допомогою подання користувачів.

Крім того, автор також помітив, що час подання результатів тестування для цих великих моделей сильно відрізняється.

Час подання результатів тесту для GPT-4 – 15 травня, тоді як Yuntianshu, який займає перше місце, надсилає результати 31 серпня; Galaxy, який займає друге місце, подає 23 серпня; і YaYi, який займає третє місце, подає свої результати 31 серпня. на 4 вересня.

Крім того, серед 16 найкращих великих моделей лише GPT-4 має «*» до назви та була протестована командою C.

Тому автор ще раз перевірив повний C-список.

Останній C-список містить загалом 66 великих модельних рейтингів.

Серед них лише 11 із «*» у назві, які тестуються С-командою, а час подачі на тестування – 15 травня.

Для цих великих моделей, протестованих командою C, GPT-4 OpenAI посів 11 місце, ChatGPT посів 36 місце, ChatGLM-6B Цинхуа Чжипу AI посів 60 місце, а MOSS Fudan посів 6 місце.

Хоча ці рейтинги можуть свідчити про стрімкий темп розвитку вітчизняних великих моделей, автор вважає, що, врешті-решт, вони не тестуються однією командою одночасно, чого недостатньо, щоб повністю довести, хто з них сильніший, а хто слабший. ці великі моделі.

Це схоже на клас студентів, кожен з яких має різний час тестування та відповідає на різні роботи. Як ми можемо покладатися на оцінку кожного студента для порівняння?

Що кажуть великі розробники моделей? Багато людей сказали, що вони перевершили ChatGPT у китайській та інших здібностях

Останнім часом коло великих моделей досить пожвавилося.

Крім того, великі модельні продукти восьми компаній, включаючи Baidu і Byte, пройшли реєстрацію «Тимчасових заходів щодо управління службами генеративного штучного інтелекту» і можуть бути офіційно запущені в Інтернет для надання послуг громадськості. Інші компанії послідовно випускали власні великі моделі продукції.

Отже, як розробники цих великих моделей представляють свою продукцію?

7 липня на форумі Всесвітньої конференції зі штучного інтелекту 2023 року «Можливості та ризики для розвитку загальної індустрії штучного інтелекту в епоху великої моделі» Цю Сіпен, професор Школи комп’ютерних наук і технологій Університету Фудань і керівник системи MOSS, сказав, що широкомасштабна розмовна модель Fudan MOSS після випуску в лютому цього року постійно вдосконалювалася: «Останній MOSS зміг перевершити ChatGPT у китайських можливостях».

Наприкінці липня NetEase Youdao запустила велику модель перекладу. Генеральний директор NetEase Youdao Чжоу Фенг публічно заявив, що під час внутрішніх тестів у напрямку китайсько-англійського перекладу вона перевершила можливості перекладу ChatGPT і перевершила рівень Google Translate. **

Наприкінці серпня на літньому саміті форуму Yabuli 2023 року Лю Цінфен, засновник і голова iFlytek, виступив із промовою та сказав: «**Можливості генерації та завершення коду моделі iFlytek Spark перевершили ChatGPT та інші. Ця можливість є **Логіка, алгоритми, системи методів і підготовка даних для поточної можливості коду готові, і все, що потрібно, це час і обчислювальна потужність».

У недавньому прес-релізі SenseTime зазначено, що в серпні цього року нова модель internlm-123b завершила навчання, а кількість параметрів зросла до 123 мільярдів. **У 51 загальновідомому наборі оцінок із загальною кількістю 300 000 запитань загальні результати тестування посіли друге місце у світі, перевершивши такі моделі, як gpt-3.5-turbo та нещодавно випущений llama2-70b від Meta Company. **

За даними Shangtang, **internlm-123 посів перше місце в 12 основних оцінках. Серед них показник agi у комплексному тесті набору оцінювання становить 57,8, перевершуючи gpt-4 і посідаючи перше місце; оціночний бал **knowledge commonsenseqa становить 88,5, що займає перше місце; internlm-123b бали в п’яти оцінках розуміння прочитаного Усі очолює список.

Крім того, він посів перше місце в п'ятірці оцінок аргументації.

Раніше цього місяця Zuoyebang офіційно випустила модель Galaxy власної розробки.

Zuoyebang сказав, що модель Galaxy досягла результатів у двох авторитетних тестах оцінки моделі великої мови C- та CMMLU. Дані показують, що Zuoyebang Galaxy Big Model посідає перше місце в категорії C- із середнім балом 73,7 бала; водночас вона займає місце в списку CMMLU Five-shot і Zero-shot оцінки із середніми балами 74,03 бала та 73,85 бала відповідно. По-перше, вона стала першою великою моделлю освіти, яка посіла перше місце за середнім балом у двох авторитетних списках, згаданих вище.

Вчора Baichuan Intelligent анонсувала офіційний відкритий вихідний код, точно налаштований Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat та їх 4-розрядну квантовану версію.

Ван Сяочуань, засновник і генеральний директор Baichuan Intelligence, сказав, що в Китаї фактична продуктивність точно налаштованої моделі чату в середовищі питань і відповідей або середовищі підсумків перевищила продуктивність моделей із закритим кодом, таких як ChatGPT-3.5. **

Сьогодні на Всесвітній цифровій екологічній конференції Tencent у 2023 році компанія Tencent офіційно випустила велику модель Hunyuan. Цзян Цзе, віце-президент Tencent Group, сказав, що можливості китайської мови великої моделі **Tencent Hunyuan перевищили GPT-3.5. **

Крім самих розробників, деякі ЗМІ та команди також оцінили велику модель.

На початку серпня команда Шень Яна, професора та наукового керівника Школи журналістики та комунікацій Університету Цінхуа, опублікувала «Комплексний звіт про оцінку продуктивності великих мовних моделей». У звіті показано, що **загальна оцінка Baidu Wenxinyiyan за 20 показниками в трьох основних вимірах є лідером у країні та є кращою, ніж ChatGPT. Серед них розуміння китайської семантики займає високе місце, а деякі здібності китайської мови кращі, ніж GPT-4. **

У середині серпня деякі ЗМІ повідомили, що 11 серпня велика модель Xiaomi MiLM-6B з’явилася в списках оцінки великих моделей C- і CMMLU. На даний момент MiLM-6B посідає 10 місце в загальному списку C, 1 місце за тим же параметром і 1 місце в китайських великих моделях CMMLU.

12 серпня Університет Тяньцзіня випустив «Звіт про оцінку великої моделі». Звіт показує, що комплексна продуктивність **GPT-4 і Baidu Wenxinyiyan значно випереджає інші моделі, а їхні показники не сильно відрізняються і знаходяться на тому ж рівні. Вень Сіньянь перевершив ChatGPT у більшості китайських завдань і поступово скоротив розрив із GPT-4. **

Наприкінці серпня деякі ЗМІ повідомили, що власно розроблена велика мовна модель Kuaishou «KwaiYii» почала внутрішнє тестування. В останньому рейтингу CMMLU, орієнтованому на Китай, KwaiYii-13B, версія KwaiYi 13B, посіла перше місце як у п’ятикратній, так і в нульовій. Вона є сильною в гуманітарних науках, специфічних для Китаю темах тощо, із середнім балом понад 61 бал.

З наведеного вище видно, що хоча ці великі моделі претендують на перше місце в певному рейтингу або перевершують ChatGPT у певних аспектах, більшість із них добре працюють у деяких конкретних сферах.

Крім того, деякі комплексні бали перевищують GPT-3,5 або GPT-4, але тест GPT було зупинено в травні. Хто може гарантувати, що GPT не покращився за останні три місяці?

Ситуація OpenAI

Згідно зі звітом UBS Group у лютому, лише через два місяці після запуску ChatGPT кількість активних користувачів щомісяця перевищила 100 мільйонів на кінець січня 2023 року, що зробило його найшвидше зростаючим споживчим додатком в історії.

Але розвиток ChatGPT йде не так гладко.

У липні цього року багато користувачів GPT-4 скаржилися, що порівняно з попередніми можливостями міркування продуктивність GPT-4 знизилася.

Деякі користувачі вказали на проблеми в Twitter і на онлайн-форумі розробників OpenAI, зосереджуючись на слабшій логіці, більшій кількості неправильних відповідей, неможливості відслідковувати надану інформацію, труднощі з виконанням інструкцій, забуваючи додати дужки в базовому програмному коді та запам’ятовуючи лише останні поради тощо.

У серпні в іншому звіті говорилося, що OpenAi може опинитися в потенційній фінансовій кризі та може збанкрутувати до кінця 2024 року.

У звіті зазначено, що OpenAI коштує приблизно 700 000 доларів США на день лише для запуску свого сервісу штучного інтелекту ChatGPT. Зараз компанія намагається стати прибутковою за допомогою GPT-3.5 і GPT-4, але ще не отримала достатнього доходу, щоб стати беззбитковою.

Однак OpenAI також може мати нові можливості.

Нещодавно OpenAI оголосив, що проведе свою першу конференцію для розробників у листопаді.

Незважаючи на те, що OpenAI заявив, що не випускатиме GPT-5, OpenAI заявив, що сотні розробників з усього світу працюватимуть з командою OpenAI, щоб заздалегідь переглянути «нові інструменти» та обмінятися ідеями.

Це може означати, що ChatGPT досяг нового прогресу.

Як повідомляє The Paper, 30 серпня особа, знайома з цим питанням, повідомила, що очікується, що OpenAI отримає понад 1 мільярд доларів доходу протягом наступних 12 місяців, продаючи програмне забезпечення ШІ та обчислювальну потужність для його роботи.

Сьогодні в іншому ЗМІ було сказано, що Morgan Stanley пізніше цього місяця запустить генеративний чат-бот зі штучним інтелектом, розроблений спільно з OpenAI.

Люди, які мають справу з банкірами Morgan Stanley, або багаті, або заможні. Якщо цей майбутній чат-бот із генеративним штучним інтелектом зможе надати клієнтам Morgan Stanley інший досвід, це може стати величезною перевагою для OpenAI.

Настання ери штучного інтелекту стало нестримним. Що стосується того, хто кращий, ви не можете просто сказати самі, ви повинні дозволити користувачам оцінити це. Ми також віримо, що великі вітчизняні моделі точно наздоженуть ChatGPT щодо конкретних можливостей і комплексних можливостей.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків