Команда ученых из Японии и Франции создала устройство для принятия решений, основанное на базовых принципах квантовой механики. Они исследовали решение задачи многоруких бандитов с использованием для принятия решений архитектуры на одиночных фотонах. Работа опубликована в Scientific Reports.
Архитектура эксперимента: одиночный фотон поляризуется различными образами в зависимости от угла падения на полуволновую пластинку. Различные поляризации соответствуют различным «выборам» автоматов, угол падения фотона на пластинку определяется в результате машинного обучения, позволяя выбрать наиболее выигрышную стратегию. Изображение: M. Naruse et al., DOI: 10.1038/srep13253
Для генерации одиночных фотонов ученые использовали азотную вакансию в наноалмазе. В представленной на картинке геометрии эксперимента при угле падения фотона на полуволновую пластинку, составляющем 45 градусов, фотоны будут равновероятно иметь горизонтальную и вертикальную поляризации после прохождения пластинки. В таком случае фиксируемый поток фотонов в точках 0 и 1 будет одинаковым. В случае если фотон падает на пластинку под большим или меньшим углом, то преобладающей будет соответствующая поляризация, а значит изменяется и распределение потоков фотонов.
Команда добавила в схему систему обратной связи, способную изменять угол падения фотонов на пластинку. В случае «выигрыша» на определенном автомате, система обратной связи изменяла угол падения на пластинку таким образом, чтобы фотоны преимущественно поляризовались так, чтобы попасть в выигрышную точку. Отрицательный результат изменял угол в противоположную сторону. Таким образом, исследователи реализовали обучение с подкреплением – вид машинного обучения, в котором система обучается, взаимодействуя со средой.
По словам ученых, это устройство способно очень быстро самостоятельно определить, который автомат является наиболее выигрышным, не используя сторонние программы или компьютеры. Классических (неквантовых) решений задачи многоруких бандитов известно множество.
Задача многоруких бандитов может быть сформулирована следующим образом: игрок, стоящий перед рядом из нескольких игровых автоматов в казино, должен определить, сколько раз запускать тот или иной автомат и в каком порядке, так как изначально его взаимодействия с аппаратами заканчиваются случайными выигрышами от распределений, свойственных каждому устройству. Цель игрока — максимально увеличить сумму вознаграждения через конкретную последовательность действий с рычагами.