Большие языковые модели (LLM), самой известной и мощной из которых сегодня является последняя версия ChatGPT, умеют писать научные работы, художественные тексты, решать задачи и отвечать на самые разные вопросы. При этом постоянно встает вопрос о точности результатов — произведения моделей так или иначе требуют ручной проверки на корректность.
Эта потребность, в первую очередь, снижает ценность LLM. Решить проблему призвана модель Search-Augmented Factuality Evaluator (SAFE) — новое ИИ-приложение, разработанное Google DeepMind.
Приложение автоматически проверяет правильность ответов LLM и выявляет неточности. Его работа основана на поиске подтверждающих источников в Google. Модель анализирует утверждения в ответах своих собратьев, а потом буквально «гуглит» их, отбирая ресурсы, подходящие для верификации информации.
Тестируя SAFE, специалисты проверили примерно 16 тысяч фактов, предоставленных такими LLM, как ChatGPT, Gemini, PaLM. Результаты работы модели сравнили с результатами проверки в ручном режиме. SAFE обнаружила 72% неточностей, о которых сообщили люди. При этом в случае разногласий между живыми проверяющими и системой последняя оказывалась права в 76% случаев.
Команда DeepMind опубликовала код SAFE в GitHub, предоставив всем желающим возможность использовать систему для повышения точности и надежности ответов LLM-моделей, сообщает SecurityLab.
Ранее «Мир робототехники» писал, что в ближайшее время широкой аудитории станет доступна линейка нейросетей YandexGPT 3 от «Яндекс». Первую языковую модель — YandexGPT 3 Pro — уже можно опробовать по API на Yandex Cloud. Разработчики обещают, что скоро моделей третьего поколения, предназначенных для решения разных задач, станет больше.