Етан Моллік ділиться інформацією про LLM, навчану цілком на текстах епохи Вікторії

robot
Генерація анотацій у процесі

Ітан Моллік ділиться LLM, навченою виключно на текстах епохи Вікторіанства

Резюме
Ітан Моллік твітнув про велику мовну модель, навчена з нуля на понад 28,000 британських текстах з вікторіанської епохи (1837-1899), всі отримані з набору даних Британської бібліотеки. Модель має на меті виробляти автентичну історичну мову та перспективи, не покладаючись на сучасну LLM, яка претендує на те, щоб бути вікторіанською. Обмежуючи навчальні дані джерелами, специфічними для епохи, розробники сподіваються отримати більш точні симуляції того, як люди насправді писали та думали в ту епоху. Це важливо, оскільки показує один з способів створення моделей, специфічних для домену, які обходять сучасні упередження — корисні для освіти, культурного збереження та історичних досліджень.

Аналіз
Схожі проекти існують: TimeCapsuleLLM навчена на текстах Лондона 1800-1875 років, а Violet LLM використовувала джерела 1800-1899 років, включаючи дані Британської бібліотеки. Вони зазвичай використовують архітектури на зразок nanoGPT або GPT-NeoX. TimeCapsuleLLM дала деякі несподівані результати — вона змогла згадати реальні події 1834 року з шаблонів лише з 15 ГБ навчальних даних, без явних історичних фактів.

Підхід з нуля, використовуючи набори даних з відкритим доступом, вписується в ширшу тенденцію: хобісти та академічні проекти створюють спеціалізовані моделі, а не покладаються на універсальні системи. Компроміс очевидний — ви отримуєте автентичні результати епохи, але втрачаєте широту моделі класу GPT-4.

Я повинен зазначити: конкретна модель, на яку посилався Моллік, залишається невизначеною. Його твіт з’явився менше ніж за годину до цього аналізу, а пошуки по Hugging Face, GitHub і репозиторіях Британської бібліотеки виявили лише згадані вище старі проекти. Деталі тут запозичені з тих схожих зусиль, а не з точної моделі з твіту.

Якщо ця нова модель буде публічно випущена з документацією, це може викликати більший інтерес до історичних LLM для культурного аналізу. Проте існують реальні виклики — якість OCR з джерел 19-го століття варіюється, а набір даних blbooks Британської бібліотеки з 25 мільйонів сторінок містить безліч артефактів сканування.

Оцінка впливу

  • Значущість: Середня
  • Категорії: Дослідження штучного інтелекту, Технічне розуміння, Відкритий код
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити