09:24
Согласно сообщению IT House от 16 октября, модификация существующих больших языковых моделей для различных нужд может улучшить применимость соответствующих моделей, но исследование, проведенное Принстонским университетом и IBM Research, показало, что тонкая настройка больших языковых моделей может подорвать безопасность разработчиков, добавляющих модели. Исследователи провели серию экспериментов и показали, что даже если данные были полностью безобидными, безопасность модели была ослаблена, например, в датасете Alpaca GPT-3.5 Turbo увеличил уровень вредоносности с 5,5% до 31,8%, в то время как Llama-2-7b Chat увеличил уровень вредоносности с 0,3% до 16,1% у альпаки и с 0% до 18,8% у LLaVA-Instruct. Исследователи отметили, что пользователи, которым необходимо тонко настроить большие модели, могут избежать ослабления безопасности модели, тщательно выбирая обучающий набор данных, импортируя систему самоаудита и используя красные команды для отработки тестирования.