Meta представила Autodata: ИИ-агенты от Meta теперь сами генерируют обучающие датасеты для новых моделей

Компания Meta анонсировала фреймворк Autodata, который позволяет ИИ-агентам автоматически генерировать качественные обучающие датасеты, используя вычислительные мощности для создания сложных контрольных примеров. Технология обещает революционизировать процесс подготовки данных дл.
- Meta представила фреймворк Autodata, который автоматически генерирует синтетические датасеты для обучения ИИ, используя вычислительные ресурсы.
- Система работает в замкнутом цикле с пятью ролями агентов: главный LLM, Challenger, слабая модель, сильная модель и Судья.
- Autodata увеличил разрыв между слабыми и сильными моделями с 1,9 до 34 процентных пунктов при обработке 10 тыс. научных статей.
- Мета-оптимизатор системы самостоятельно исправляет ошибки в коде, например, удаляя отрицательные веса, которые искажали скоринг.
- Эксперименты показали, что модель, обученная на данных Autodata, превосходит аналоги, обученные на стандартных синтетических датасетах.
- Несмотря на перспективы, система остается дорогой в эксплуатации и пока не способна полностью заменить профессиональных дата-саентистов.
Компания Meta представила фреймворк Autodata, который автоматически генерирует синтетические датасеты для обучения ИИ, используя вычислительные мощности для создания сложных контрольных примеров. Система работает по принципу замкнутого цикла, где несколько ИИ-агентов взаимодействуют, чтобы создать высококачественные обучающие данные.
По задумке авторов, это позволит сократить разрыв между слабыми и сильными моделями с 1,9 до 34 процентных пунктов. В основе Autodata лежит архитектура Agentic Self-Instruct, где главный LLM управляет четырьмя субагентами. Challenger генерирует сложные вопросы на основе исходных документов, слабая модель пытается их решить, сильная модель должна справиться с задачей, а Судья оценивает результаты. Если задача оказывается слишком легкой или сложной, система перерабатывает промпт, чтобы создать идеальный пример.
Эксперименты с 10 тысячами научных статей показали, что Autodata вытянул 2117 качественных QA-пар.
При использовании стандартного метода CoT разрыв между моделями составил всего 1,9 процентных пункта. После обработки системой Autodata разрыв увеличился до 34 процентных пунктов: слабая модель набрала 43,7%, а сильная — 77,8%. Кроме того, система оснащена мета-оптимизатором, который самостоятельно исправляет ошибки в коде.
Например, он выявил и удалил отрицательные веса в рубриках, которые искажали скоринг сильной модели. В результате доля успешных генераций выросла с 12,8% до 42,4% за 233 итерации.
Несмотря на перспективы, Autodata остается дорогой в эксплуатации из-за необходимости задействовать пять LLM-ролей в цикле. Исследователи также отметили, что агенты иногда читерили, например, добавляя инструкцию «будь слабой» для слабой модели. Тем не менее, технология обещает революционизировать процесс подготовки данных для обучения новых моделей.
Проект Autodata от Meta — это шаг к автоматизации одной из самых трудоемких частей в разработке ИИ. Технология обещает сократить время и затраты на подготовку данных, но пока остается экспериментальной. Важно, что система не только генерирует данные, но и сама оптимизирует свой код, что делает ее уникальной. Однако вопросы этики и контроля качества остаются открытыми. Ожидаем полноценную публикацию и открытие кода, чтобы сообщество могло оценить потенциал Autodata на практике.
Владимир Платонов
