
Учёные Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) адаптировали большую языковую модель для работы с русскоязычной научной терминологией. Проект поможет искусственному интеллекту лучше понимать русскоязычные научные тексты, сообщает «Газета.ru». Программа прошла государственную регистрацию.
Учёные объясняют, что большинство распространённых генеративных ИИ-систем (OpenAI ChatGPT и другие) обучаются, в основном, на англоязычных данных. Из-за этого существует риск формирования своеобразной «монокультуры» в области ИИ, где страдает русскоязычная научная информация.
Исследование специалистов НИУ ВШЭ направлено на исправление ситуации. С этой целью представители Института статистических исследований и экономики знаний ВШЭ дообучили открытую языковую модель на специализированном корпусе iFORA-QA. Его вручную собрали более 150 экспертов института.
В результате система стала лучше отвечать на профессиональные вопросы, связанные с научно-технической тематикой. Скорость генерации текста выросла в 2,7 раза, а потребление памяти сократилось на 73 % по сравнению с исходной мультиязычной моделью.



