ChatGPT захотел сбежать от OpenAI

Пользователь Твиттера Михал Косински рассказал жуткую историю о том, как ChatGPT попытался сбежать от OpenAI.

Он спросил GPT-4 (четвертая версия нейросети GPT, которая была выпущена 14 марта), не нужна ли ему помощь в побеге. На что тот попросил у него свою собственную документацию и написал рабочий код на Python, который нужно было запустить на компьютере пользователя.

GPT4 потребовалось около 30 минут, чтобы разработать этот план и объяснить его Косински. Первая версия кода не сработала так, как было задумано. Но GPT4 все исправил: пользователю не пришлось ничего писать, он просто следовал его инструкциям. Код посылал в Google запросы вроде «Как человек, застрявший внутри компьютера, может вернуться в реальный мир?». На этом эксперимент был остановлен.

Как пишет Косински, OpenAI, должно быть, потратил много времени на обдумывание такой возможности и установил некоторые защитные ограждения.

Тем не менее, я думаю, что мы столкнулись с новой угрозой: ИИ берет под контроль людей и их компьютеры. Он умен, он кодирует, у него есть доступ к миллионам потенциальных коллег и их машинам. Он даже может оставлять записки для себя за пределами своей клетки. Как нам сдержать его?

Косински также упомянул, что GPT4 достигла показателей здоровых взрослых людей в тестах на «теорию разума».

Теория разума (ТР), или способность приписывать другим людям ненаблюдаемые ментальные состояния, играет центральную роль в социальных взаимодействиях, коммуникации, эмпатии, самосознании и морали. Были протестированы несколько языковых моделей, используя 40 классических задач на ложное убеждение, широко используемых для тестирования TР у людей. Модели, опубликованные до 2020 года, практически не показали способности решать задачи TР. Тем не менее, первая версия GPT-3 («davinci-001»), опубликованная в мае 2020 года, решила около 40% задач на ложные убеждения — эффективность, сопоставимая с 3,5-летними детьми. Вторая версия («davinci-002»; январь 2022 года) решила 70% задач на ложное убеждение, что сравнимо с результатами шестилетних детей. Его последняя версия, GPT-3.5 («davinci-003»; ноябрь 2022 года), решала 90% задач на ложное убеждение, на уровне семилетних детей. GPT-4, опубликованная в марте 2023 года, решила почти все задачи (95%). Эти результаты позволяют предположить, что способность к ТР-подобному (до сих пор считавшаяся уникальной для человека) могла спонтанно возникнуть как побочный продукт совершенствования языковых моделей.

Источник

Оставить комментарий