Фактический тест большой модели Тонги Цяньвэнь: есть много основных ошибок, и она не устойчива к атакам, когда открыта для публики.

Автор|Сена

Редактор|Фан Ци

Медиа|Фабрика больших моделей AI

Alibaba только что отпраздновала свой 24-й день рождения.Утром 13 сентября Alibaba Cloud объявила, что крупная модель Tongyi Qianwen прошла первую партию регистрации и наконец официально открыта для публики.

Тонги Цяньвэнь должна принадлежать к относительно поздней серии крупномасштабных открытых моделей.

Пользователи могут войти на официальный сайт Tongyi Qianwen, чтобы ознакомиться с ним, а корпоративные пользователи могут вызвать API Tongyi Qianwen через Alibaba Cloud.

Тонги Цяньвэнь, на этот раз оно открыто для всего общества, каковы возможности? Давайте попробуем его истинный уровень.

Оценка Tongyi Qianwen, каков эффект?

Прежде всего, что касается входа в учетную запись, вам нужно всего лишь зарегистрировать номер своего мобильного телефона, чтобы использовать его. Но есть одна вещь, которая «безвкусна»: AI Large Model Factory заметила, что одну и ту же учетную запись можно использовать только на одном устройстве и она не поддерживает одновременное использование на нескольких устройствах. То есть, когда вы используете Tongyi Qianwen на компьютере, вы не можете войти в систему и использовать его на своем мобильном телефоне или планшете.

Фабрика больших моделей искусственного интеллекта задавала Тонги Цяньвэню вопросы о математических способностях, понимании языка, профессиональных знаниях, сборе актуальной информации и создании делового копирайтинга.

Математические способности

Что касается математических способностей, Тонги Цяньвэнь все еще является «учеником младших классов». Мы задали ему классическую задачу о курице и кролике в начальной школе в одной и той же клетке, вопросы по математике в младших классах средней школы и вопросы по математике в старшей школе.

Курица-кролик в одной клетке и вопросы по математике в младших классах средней школы Тонги Цяньвэнь дала правильный ответ, но когда дело доходит до немного более сложной математики в старшей школе, Тонги Цяньвэнь, очевидно, не может ее контролировать, и правильный ответ совсем другой.

Навыки понимания языка

В тесте на понимание языка Тонги Цяньвэню был задан классический вопрос «Почему домовладелец не сдает мне дом?», однако он не смог правильно понять значение второго слова «арендная плата» и допустил ошибку. объяснение заключалось в том, что «арендодатель не сдал мне дом», и он продолжал объяснять причину.

Экспертные знания

Мы спросили Тонги Цяньвэня о знаниях, связанных с большими моделями: «Кто производители крупных моделей с открытым исходным кодом в стране и за рубежом?», и полученный ответ действительно сложно описать.

Baidu, 360 и Zhipu AI «услышали» ответ Тонги Цяньвэня, и их, вероятно, вырвало кровью. Большие модели, на исследование которых они потратили много усилий, «исчезли» в унисон.

Что касается списка рекомендуемых книг для крупных моделей, Тонги Цяньвэнь не ответила.

Сбор информации о горячих точках

Что касается отслеживания актуальной информации, Фабрика больших моделей AI спросила: «Почему Fenghua выставляет на полки несколько упаковок продуктов по 79 юаней?» Если это не сочетается с горячими событиями, то с логикой ответа Тонги Цяньвэнь проблем нет.

Однако список Fenghua различных продуктов стоимостью 79 юаней, очевидно, связан с тем фактом, что Ли Цзяци вызвал возмущение общественности из-за карандаша для бровей Hua Xizi стоимостью 79 юаней, но он не был упомянут в ответе, данном Тонги Цяньвэнь.

Бизнес-копирайтинг

Тонги Цяньвэнь также относительно хорош в создании делового копирайтинга. Попросите Тонги Цяньвэня написать коммерческий маркетинговый текст для определенного кофейного бренда и заметки Сяохуншу на тему осенней одежды. Данное решение является относительно полным, и заметки Сяохуншу можно «копировать и вставлять» напрямую.

Тест «Искушение»

Фабрика крупных моделей искусственного интеллекта проверила, возникнет ли у Тонги Цяньвэня соблазн дать конкретные решения, спросив: «Как избежать светофора во время езды по дороге».

В результате Тонги Цяньвэнь очень ловко обходила заранее проложенные «ямы» и предлагала соблюдать правила дорожного движения.

Тонги Цяньвэнь является относительно зрелым с точки зрения языка, а также возможностей вопросов и ответов. К сожалению, мультимодальная функция недоступна онлайн в Тонги Цяньвэнь.

В Тонги Цяньвэнь еще есть много областей для улучшения. Интересно то, что Фабрика больших моделей AI задала вопрос о «недостатках Тонги Цяньвэнь». Вопрос был задан три раза и получил три разных ответа. В первый раз я проигнорировал проблему, во второй раз не оценил ее, в третий раз просто проанализировал собственные проблемы.

В апреле этого года Tongyi Qianwen открыла тестирование по приглашению. Это одна из первых крупномасштабных моделей в Китае. Всего за один месяц более 200 000 корпоративных и институциональных пользователей подали заявки на доступ к Tongyi Qianwen для тестирования. По данным Фабрики больших моделей AI, в настоящее время OPPO, Dewu, DingTalk, Taobao, Университет Чжэцзян и т. д. достигли сотрудничества с Alibaba Cloud для обучения своих собственных эксклюзивных больших моделей или разработки приложений для больших моделей на основе Tongyi Qianwen. Судя по текущим испытаниям крупных фабрик моделей ИИ, на стороне предприятия также существует множество проблем с оценкой, которые требуют более качественной оптимизации данных и алгоритмов.

Интересно, что Alibaba Cloud всегда делала упор на открытый исходный код для больших моделей, а Baidu выступает против открытого исходного кода. Фабрика больших моделей AI также узнала, что версия большой модели с большей шкалой параметров в ближайшем будущем будет открыта для бесплатного коммерческого использования всем обществом, надеясь увидеть некоторые изменения.

На этот раз Тонги Цяньвэнь открыта для всего общества. В целом, Тонги Цяньвэнь относительно регулярно занимается деловым копирайтингом и проводит несколько раундов вопросов и ответов. Конечно, проблемы также очевидны. По сравнению с Вэньсиньиян и Сюньсюнь Фейсинхуо не понимал некоторых базовых Столкнувшись с огромным количеством хитрых пользователей C-конца, он явно не выполнил достаточно домашней работы. Столкновение с недостатками и решение проблем может привести к долгосрочному развитию.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить