Может ли искусственный интеллект отличить чайник от мяча для гольфа

Насколько умна форма искусственного интеллекта, известная как компьютерные сети глубокого обучения, и насколько близко эти машины имитируют мозг человека? По словам команды когнитивных психологов, в последние годы они значительно улучшились, но им предстоит еще долгий путь.

Насколько умна форма искусственного интеллекта, известная как компьютерные сети глубокого обучения, и насколько близко эти машины имитируют человеческий мозг? За последние годы они значительно улучшились, но им еще предстоит пройти долгий путь, сообщает команда когнитивных психологов Калифорнийского университета в журнале PLOS Computational Biology.

Сторонники выразили энтузиазм по поводу использования этих сетей для выполнения множества индивидуальных задач и даже заданий, традиционно выполняемых людьми. Тем не менее, результаты пяти экспериментов в этом исследовании показали, что сети легко обмануть, а метод идентификации объектов с помощью компьютерного зрения сетей существенно отличается от человеческого зрения.

«У машин есть серьезные ограничения, которые мы должны понимать», — сказал Филипп Келлман, выдающийся профессор психологии из Калифорнийского университета в Лос-Анджелесе и старший автор исследования. «Мы говорим:« Подождите, не так быстро».

У машинного зрения, по его словам, есть недостатки. В первом эксперименте психологи показали одну из лучших сетей глубокого обучения под названием VGG-19 — цветные изображения животных и объектов. Изображения были изменены. Например, поверхность мяча для гольфа была показана на чайнике; полоски зебры были размещены на верблюде; и узор сине-красного носка Аргайл был показан на слоне. VGG-19 оценил свой лучший выбор и выбрал правильный пункт в качестве своего первого выбора только для пяти из 40 объектов.

«Мы можем обмануть эти искусственные системы довольно легко», — сказал соавтор Хунцзин Лу, профессор психологии в Калифорнийском университете. «Их механизмы обучения гораздо менее сложны, чем человеческий разум».

VGG-19 полагал, что вероятность того, что слон был слоном, равна 0%, а вероятность того, что чайник — это чайник, составляет всего 0,41%. Его первый выбор для чайника — мяч для гольфа, который показывает, что сеть искусственного интеллекта смотрит на текстуру объекта больше, чем на его форму, говорит ведущий автор Николас Бейкер, аспирант психологии UCLA.

«Вполне разумно, чтобы мяч для гольфа подходил, но настораживает, что чайник нигде не подходит среди вариантов», — сказал Келлман. «Это не набирает форму».

По словам Келлмана, люди идентифицируют объекты в основном по их форме. Исследователи подозревали, что компьютерные сети используют другой метод.

Во втором эксперименте психологи показали изображения стеклянных статуэток VGG-19 и второй сети глубокого обучения под названием AlexNet. VGG-19 показал лучшие результаты во всех экспериментах, в которых тестировались обе сети. Обе сети были обучены распознавать объекты с использованием базы данных изображений под названием ImageNet.

Тем не менее, обе сети сделали плохо, не в состоянии идентифицировать стеклянные фигурки. Ни VGG-19, ни AlexNet правильно не определили статуэтки как первый выбор. Статуэтка слона была оценена с почти 0-процентным шансом быть слоном обеими сетями. Большинство топовых ответов были озадачивающими для исследователей, например, выбор VGG-19 «сайта» для «гуся» и «консервный нож» для «белого медведя». В среднем AlexNet оценил правильный ответ на 328-м месте из 1000 вариантов.

«Машины делают очень разные ошибки от людей», — сказал Лу.

В третьем эксперименте исследователи показали 40 рисунков, выделенных черным цветом, с изображениями белого цвета как для VGG-19, так и для AlexNet. Эти первые три эксперимента должны были определить, идентифицировали ли устройства объекты по их форме.

Сети снова плохо справились с идентификацией таких предметов, как бабочка, самолет и банан.

Цель экспериментов состояла не в том, чтобы обмануть сети, а в том, чтобы узнать, идентифицируют ли они объекты таким же образом, как люди, или иным образом, — сказал соавтор Геннадий Эрлихман, постдокторант UCLA по психологии.

В четвертом эксперименте исследователи показали обеим сетям по 40 изображений, на этот раз сплошным черным.

С черными изображениями сети работали лучше, создавая правильную метку объекта среди пяти лучших вариантов для примерно 50 процентов объектов. VGG-19, например, оценил счеты с вероятностью 99,99% быть счетом и пушкой с вероятностью 61% быть пушкой. В отличие от этого, VGG-19 и AlexNet считали, что вероятность того, что белый молоток (выделен черным) был молотом, составляла менее 1%.

Исследователи полагают, что сети с черными объектами работали намного лучше, потому что у предметов отсутствует то, что Келлман называет «внутренними контурами» — краями, которые путают машины.

В пятом эксперименте исследователи скремблировали изображения, чтобы их было труднее распознать, но они сохранили куски объектов. Исследователи отобрали шесть изображений, которые сеть VGG-19 получила правильно, и зашифровали их. Людям было трудно их распознать. VGG-19 правильно получил пять из шести изображений и был близок к шестому.

В рамках пятого эксперимента исследователи проверили студентов бакалавриата UCLA, в дополнение к VGG-19. Десять студентов были показаны объекты в черных силуэтах — некоторые из них были трудно распознаваемыми, а некоторые — без расшифровки, некоторые объекты в течение одной секунды, а некоторые — до тех пор, пока студенты хотели их видеть. Студенты правильно определили 92 процента нешифрованных объектов и 23 процента зашифрованных с помощью одной секунды, чтобы просмотреть их. Когда студенты могли видеть силуэты так долго, как они хотели, они правильно определили 97 процентов незашифрованных объектов и 37 процентов зашифрованных объектов.

Какие выводы делают психологи?

Люди видят весь объект, в то время как сети искусственного интеллекта идентифицируют фрагменты объекта.

«Это исследование показывает, что эти системы получают правильный ответ на изображениях, на которых они тренировались, без учета формы», — сказал Келлман. «Для людей общая форма имеет первостепенное значение для распознавания объектов, а идентификация изображений по общей форме, по-видимому, вообще отсутствует в этих системах глубокого обучения».

Существуют десятки машин для глубокого обучения, и исследователи считают, что их результаты широко применимы к этим устройствам.