МОСКВА, 16 августа. Российские ученые из лаборатории T-Bank AI Research разработали нейронную сеть ReBased для ускоренной обработки длинных текстов, сообщает компания.
Открытие основано на новой архитектуре для языковых моделей под названием ReBased. В глубоком обучении архитектура — это общий план или структура, на которой строится нейронная сеть. Она определяет, какие типы слоев будут использоваться (например, сверточные, рекуррентные или полностью связанные) и как эти слои будут связаны друг с другом. Хорошо продуманная архитектура позволяет нейронной сети лучше решать определенные задачи, такие как распознавание изображений или понимание текста. Выбор правильной архитектуры важен для эффективности и точности модели, говорится в отчете.
Проанализировав представленную учеными Стэнфорда в декабре 2023 года архитектуру Based, российские ученые оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, отвечающие за оптимальный поиск связей между частями текста. Это улучшает процесс его обработки и дает более точные ответы.
Ученые также упростили алгоритм извлечения текстовой информации, что привело к росту производительности, улучшению качества работы с длинными текстами и улучшению контекстного обучения. В среднем понимание взаимосвязей в тексте в новой архитектуре улучшилось не менее чем на 10%, отметили эксперты.
ReBased позволяет сократить затраты на использование искусственного интеллекта для специализированных задач, имеющих определенную область применения и требующих учета его особенностей. Например, в медицине такой задачей можно считать классификацию текстов на основе симптомов и диагнозов.
Новая архитектура, предложенная учеными, позволяет приблизить качество линейных моделей к трансформерам. Модели на основе ReBased могут генерировать тексты с меньшими требованиями к ресурсам практически без потери качества.
Ученые провели эксперименты на наборе данных MQAR (Multi-Query Associative Recall), который позволяет определить способность модели к контекстному обучению, а именно ассоциативному запоминанию (запоминанию не связанных между собой пар объектов), например: лицо человека — его имя.
«Примечательно, что параллельно с выходом нашей статьи группа исследователей из Стэнфорда выпустила исследование на ту же тему, но с другим подходом к решению. Сейчас это одно из самых интересных направлений исследований в области NLP во всем мире: трансформаторы слишком медленные, но линейные модели уступают им по качеству. И мы, и ученые из Стэнфорда занимаемся поиском оптимальных архитектур. Мы ценим их вклад в развитие технологий и рады возможности участвовать в научном диалоге такого уровня», — цитирует исследователя в области обработки естественного языка в T-Bank AI Research Ярослава Аксенова.
Свежие комментарии