Обзор СМИ
Машины и нейросети освоят русский язык
Как сообщает пресс-служба вуза, в Школе цифровой экономики (ШЦЭ) ДВФУ откроется цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Проект реализуется на базе магистерской образовательной программы «Искусственный интеллект и большие данные». В 2019-2020 учебном году основным исследовательским направлением по данной программе, открытой при поддержке Корпоративного университета «Сбербанка» и «Нейросетей Ашманова», станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как иностранному, азиатским языкам, а также журналисты и инженеры-программисты. Сбор заявок на участие в первом этапе работы будет открыт в сентябре.
Одним из первых результатов работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. Подобный принцип можно будет использовать в работе call-центров, при построении систем обучения языкам, обучения переводчиков, построении различных экспертных систем, систем управления сложными механизмами.
Совместная работа со «Сбербанком» и компанией «Нейросети Ашманова» уже начата. Последняя предоставит вузу технологию цифровой разметки базы русского языка для обучения нейросетей. Также, по словам генерального директора «Нейросетей Ашманова» Станислава Ашманова, компания постарается собрать не только русские речевые корпуса, но и корпуса для языков малых народов России. Результаты совместной работы поэтапно будут передаваться для открытого использования всем заинтересованным сторонам.
Как объяснил директор ШЦЭ ДВФУ Илья Мирин, фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Главный шаг на этом пути — создать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение. «Это чрезвычайно объёмная работа с перспективой на много лет», - уточнил Илья Мирин. Первичный этап накопления языкового материала планируют завершить уже через год, затем приступят к его оцифровке.
Первая в России ШЦЭ открылась в ДВФУ в 2018 году. Она включает пять магистерских программ: «Искусственный интеллект и большие данные», «Технологии виртуальной и дополненной реальностей VR/AR», «Кибербезопасность», «Управление развитием территорий на основе технологий и данных дистанционного зондирования Земли» и «Цифровое искусство».