Це дуже цікаво. Коли AI-лабораторія оголошує результати: 'Дивіться, це цілком доводить наш прорив'. А якщо результати не відповідають очікуванням? Одразу змінює тон: 'Базові тести просто не можуть виміряти справжній рівень розумності'.
Вибірково довіряти даним — цей прийом у технологічній сфері випробуваний і доведений. Проблема в тому, що ви не можете одночасно використовувати бенчмарк як критерій успіху і при цьому стверджувати, що він неправильний у разі невдачі. Або бенчмарк має сенс, або взагалі не варто його використовувати.
Ця поведінка відображає явище у галузі: коли дані на вашу користь — це незаперечно; коли дані не на вашу користь — починаєте сумніватися у справедливості тесту. Проекти з справжньою силою мають чітке уявлення про результати — не хваляться перемогою, не шукають відмовки при поразці.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Ця двовимірна теорема, технологічний світ зараз грає дуже хитро, повністю ідентично до криптовалютної сфери.
Що стосується бенчмаркінгу, то будь-який результат, що вигідний собі, вважається "науковим стандартом", а якщо ні — то "просто не можна визначити справжній рівень"? Це справді смішно.
Якщо результат не відповідає очікуванням, одразу звинувачують у методі тестування, таких випадків вже дуже багато. По суті, вони хочуть виграти двічі: і похвалитися гарними даними, і виправдатися у разі провалу.
Навіть якщо середовище має проблеми, потрібно це визнавати — така постійна зміна позицій найшкідливіша для репутації.
Переглянути оригіналвідповісти на0
quiet_lurker
· 21год тому
Вигравши — кидаєш дані, програвши — кидаєш базовий рівень, ця гра дійсно набридла
Переглянути оригіналвідповісти на0
ForumMiningMaster
· 21год тому
Ха-ха, справді смішно, таку явну дволикість ще й маєте наглість називати себе дослідником
Це дуже цікаво. Коли AI-лабораторія оголошує результати: 'Дивіться, це цілком доводить наш прорив'. А якщо результати не відповідають очікуванням? Одразу змінює тон: 'Базові тести просто не можуть виміряти справжній рівень розумності'.
Вибірково довіряти даним — цей прийом у технологічній сфері випробуваний і доведений. Проблема в тому, що ви не можете одночасно використовувати бенчмарк як критерій успіху і при цьому стверджувати, що він неправильний у разі невдачі. Або бенчмарк має сенс, або взагалі не варто його використовувати.
Ця поведінка відображає явище у галузі: коли дані на вашу користь — це незаперечно; коли дані не на вашу користь — починаєте сумніватися у справедливості тесту. Проекти з справжньою силою мають чітке уявлення про результати — не хваляться перемогою, не шукають відмовки при поразці.