Чтобы прочесть картинки из мозга человека пришлось воспользоваться программой Stable Diffusion, она воспроизводит текстовый запрос в формате изображения. Следующим этапом было обучить нейросеть использовать мозговые волны как тот самый письменный запрос.
Для этого ученые с помощью МРТ фиксировали активность мозга людей, которые смотрели на изображения и воспроизводили их у себя в голове. Так вместо слов удалось получить активные участки мозга, которые и будет считывать ИИ.
Людям показывали изображения и их текстовые описания, активность мозга фиксировали, и эти изображения «скармливали» нейронке в двух форматах. Восприятие текстовой информации в переводе на задействованное нейроны и саму картинку с теми же активными участками.
Деятельность мозга удалось разбить на два отдела, один при просмотре картинки воспроизводит перспективу изображения, второй же отвечает за объекты и детали картинки.
В конечном счете работа нейросети превратилась из считывания текста и преобразования его в изображение, в распознавание уже считанного другой нейромашиной — человеческого мозга, сигналов. Всего для обучения понадобилось около 10 тысяч фото и описаний.
В итоге ученым удалось добиться точности воспроизведения в 80%. Работа ученых опубликована в научном журнале Biorxiv.