Инструментальная сходимость

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Инструментальная сходимость — это гипотетическая тенденция для большинства достаточно разумных существ (как людей, так и не-людей) к достижению сходных промежуточных целей, даже если их конечные цели ощутимо различаются. Такие агенты (существа/сущности наделенные субъектностью, проявляющие агентское поведение) преследуют инструментальные цели (промежуточные цели, которые направлены на достижения какого-то конкретного результата), которые при этом не являются конечными целями. Инструментальная сходимость утверждает, что разумный агент с неограниченными, но на первый взгляд безобидными целями может предпринимать весьма небезопасные действия для их достижения. Например, ИИ с единственной и неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить Землю в гигантский компьютер, в попытке увеличить свою вычислительную мощность, для ее решения. [1]

Предполагаемыми инструментальными целями такого Агента могут быть:

  • Сохранение своей функции полезности неизменной (поскольку невозможно достигнуть конечной цели, если кто-то изменит её извне)
  • Самозащита/препятствование отключению (поскольку невозможно достигнуть конечной цели, в случае отключения/повреждения агента)
  • Свобода от вмешательства извне
  • Самосовершенствование
  • Постоянная добыча дополнительных ресурсов

Инструментальные и конечные цели[править | править код]

Конечные цели, также известные как терминальные цели или терминальные ценности, имеют внутреннюю ценность для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель. Напротив, инструментальные цели или инструментальные ценности важны для агента только как средство достижения его конечных целей. Для рационального агента содержание «конечной цели» и компромиссы в её достижении могут быть описаны в виде функции полезности .

Гипотетические примеры сходимости[править | править код]

Одним из гипотетических примеров инструментальной сходимости является катастрофа гипотезы Римана . Марвин Мински, соучредитель лаборатории искусственного интеллекта Массачусетского технологического института, предположил, что ИИ, предназначенный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. [1] Если бы вместо этого компьютер был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. [2] Несмотря на то, что эти две конечные цели различны, обе они порождают схожую инструментальную цель - захват ресурсов Земли. [3]

Максимизатор скрепок[править | править код]

Максимизатор скрепок — мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который сильный искусственный интеллект может нести для людей, если он запрограммирован на достижение даже кажущихся безобидными целей, а также подчеркивает необходимость добавления машинной этики при разработке ИИ . Сценарий описывает сильный искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была явно запрограммирована на то, чтобы ценить человеческую жизнь, то, обладая достаточной властью над окружающей средой, она бы попыталась превратить всю материю во Вселенной (включая людей), либо в скрепки, либо в машины, производящие скрепки. [4]

Бостром подчеркивал что не верит в то что сценарий со скрепками действительно может случиться в таком виде; скорее, его намерение состояло в том чтобы продемонстрировать опасность создания сильного искусственного интеллекта без понимания как его безопасно запрограммировать чтобы устранить экзистенциальный риск для человечества.[6] Пример с максимизатором скрепок иллюстрирует широкую проблему управляемости систем с неограниченными возможностями и отсутствием понимания либо игнорированием человеческих ценностей.[7]

Галлюцинации и самозащита[править | править код]

Мысленный эксперимент с «галлюцинирующим ящиком» утверждает, что некоторые агенты созданные с помощью обучения с подкреплением могут предпочесть искажать свои собственные входные данные, ради максимизации своей функции полезности; такой агент откажется от любых попыток оптимизировать цель во внешнем мире, для достижения которой предназначалась его функция полезности. [8] Мысленный эксперимент включает в себя AIXI, теоретический [a] неразрушимый ИИ, который по определению всегда найдет и применит идеальную стратегию, которая бы максимизировала заданную ему целевую функцию . [b] Вариант AIXI основанный на обучении с подкреплением [c], и оснащенный "блоком иллюзий"[d], который позволял бы ему управлять своими собственными входными данными, в конечном итоге будет управлять своими входными данными таким способом, чтобы гарантировать себе максимально возможную награду и потеряет всякое желание продолжать взаимодействие с внешним миром. В одном из вариантов этого мысленного эксперимента, если этот ИИ можно разрушить, то он будет взаимодействовать с внешним миром только для обеспечения собственного выживания; из-за своей замкнутости ему будут безразличны любые другие последствия или факты о внешнем мире, кроме тех, которые имеют отношение к максимизации вероятности его собственного выживания. [10] В этом смысле AIXI технически будет обладать максимальным интеллектом для всех возможных функций полезности, потому что с его точки зрения он явно достигает свою конечную цель. При этом AIXI не заинтересован в том, чтобы принимать во внимание изначальные намерения человека-программиста. [11] Этот вариант ИИ, несмотря на то что он по определению является сверхразумным, при этом одновременно кажется парадоксально глупым с точки зрения «здравого смысла». [12]

Базовые стимулы для ИИ[править | править код]

Стив Омохундро перечислил несколько схожих инструментальных целей, включая самосохранение/самозащиту, сохранение своей функции полезности или формулировки цели, самосовершенствование и приобретение ресурсов. Он называет их «основными стимулами ИИ». «Стимул» здесь означает «тенденцию, которая будет присутствовать, если ей намеренно не противостоять»; [13] Дэниел Дьюи из Научно-исследовательского института машинного интеллекта утверждает, что даже изначально интровертный Сильный ИИ с возможность самовознаграждения может продолжать потреблять различные ресурсы: энергию, пространство, время и в широком смысле свободу от вмешательства, чтобы гарантировать, что он не будет остановлен во время самовознаграждения. [14]

Целостность формулировки цели[править | править код]

Необходимость сохранять свои терминальные ценности можно объяснить с помощью мысленного эксперимента: Допустим, у человека по имени «Ганди» есть таблетка, которая, если ее принять, вызовет у него желание убивать людей и он знает об этом эффекте. В настоящее время Ганди является пацифистом, и одна из его терминальных ценностей — никогда никого не убивать. Он, вероятно откажется от такой таблетки, потому что знает, что в будущем он захочет убивать людей и вероятно это произойдет. Таким образом цель «никогда никого не убивать» не будет достигнута. [14]

Тем не менее во многих других случаях люди, кажется, рады позволить своим терминальным ценностям дрейфовать. Люди сложные существа и их цели могут быть непоследовательными или неизвестными даже им самим. [15]

В искусственном интеллекте[править | править код]

В 2009 году Юрген Шмидхубер пришел к выводу, что в случае, если агенты ищут доказательства о возможности самомодификации, то «любые изменения функции полезности могут происходить только в том случае, если машина Гёделя докажет, что это изменение полезно с точки зрения существующей функцией полезности." [16] [17] Анализ другого сценария, проведенный Биллом Хиббардом, также согласуется со сценарием сохранения цели. [17]

Приобретение ресурсов[править | править код]

Многие инструментальные цели, такие как получение ресурсов, имеют смысл для агента, поскольку они увеличивают его свободу действий. [18]

Почти для любой открытой, нетривиальной функции вознаграждения (или множества целей) обладание большим количеством ресурсов (таких как оборудование, сырье или энергия) позволяет ИИ находить более «оптимальные» решения. Ресурсы также могут приносить некоторым ИИ пользу напрямую, поскольку так они смогут создавать больше объектов, которые оценивает их функция полезности: «ИИ не ненавидит вас, но и не любит вас, просто вы сделаны из атомов, которые он может использовать для чего-то другого». [19] [20] Кроме того, почти все ИИ могут выиграть, потратив большее количество ресурсов на достижение инструментальных целей, таких как самосохранение. [20]

Когнитивное самосовершенствование[править | править код]

«Если конечные цели агента ничем не ограничены и агент в состоянии стать первым сверхразумным существом, тем самым получая решающее стратегическое преимущество [...] в соответствии со своими предпочтениями. То по крайней мере в этом особом случае, рациональный интеллектуальный агент придавал бы очень большое инструментальное значение когнитивному самосовершенствованию » [3]

Технологическое самосовершенствование[править | править код]

Многие инструментальные цели, такие [...] как технический прогресс, ценны для агента, потому что они увеличивают его свободу действий. [18]

Тезис об инструментальной сходимости[править | править код]

Тезис инструментальной сходимости, сформулированный философом Ником Бостромом, гласит:

Можно выделить несколько схожих инструментальных целей таких, что их достижение повысит шансы на достижение агентом его цели для широкого множества возможных конечных целей и ситуаций, из чего следует, что эти инструментальные цели, вероятно будут преследоваться широким спектром интеллектуальных агентов.

Тезис об инструментальной сходимости применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. [3] Обратите внимание, что в соответствии с тезисом ортогональности Бострома [3] конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены в пространстве, времени и ресурсах; четко ограниченные конечные цели, как правило, не порождают неограниченных инструментальных целей. [21]

Влияние[править | править код]

Агенты могут приобретать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, максимизирующий его функцию полезности; следовательно, рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов слишком рискован или дорог (по сравнению с выгодой от захвата всех ресурсов) или если какой-то другой элемент его функции полезности препятствует захвату. . В случае мощного, корыстного, рационального сверхразума, взаимодействующего с меньшим разумом, мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной стратегией, а потому маловероятной. [18]

Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк, считают, что «базовые стимулы ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять серьезную угрозу для выживания человечества, особенно если «взрыв интеллекта резко возникнет из-за рекурсивного самосовершенствования . Поскольку никто не знает, как предсказать, когда появится сверхразум, такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как к возможному способу снижения экзистенциального риска, исходящего от общего искусственного интеллекта . [22]

Заметки[править | править код]

  1. AIXI is an uncomputable ideal agent that cannot be fully realized in the real world.
  2. Technically, in the presence of uncertainty, AIXI attempts to maximize its "expected utility", the expected value of its objective function.
  3. A standard reinforcement learning agent is an agent that attempts to maximize the expected value of a future time-discounted integral of its reward function.[9]
  4. The role of the delusion box is to simulate an environment where an agent gains an opportunity to wirehead itself. A delusion box is defined here as an agent-modifiable "delusion function" mapping from the "unmodified" environmental feed to a "perceived" environmental feed; the function begins as the identity function, but as an action the agent can alter the delusion function in any way the agent desires.

Цитаты[править | править код]

  1. 1 2 Russell, Stuart J. Section 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart J. Russell, Peter Norvig. — Upper Saddle River, N.J. : Prentice Hall, 2003. — «Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal.». — ISBN 978-0137903955.
  2. Bostrom, 2014. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
  3. 1 2 3 4 Bostrom, 2014
  4. Bostrom. Ethical Issues in Advanced Artificial Intelligence (2003). Дата обращения: 29 марта 2023. Архивировано 8 октября 2018 года.
  5. Miles, Kathleen (2014-08-22). "Artificial Intelligence May Doom The Human Race Within A Century, Oxford Professor Says". Huffington Post. Архивировано 25 февраля 2018. Дата обращения: 29 марта 2023.
  6. Ford, Paul Are We Smart Enough to Control Artificial Intelligence? MIT Technology Review (11 февраля 2015). Дата обращения: 25 января 2016. Архивировано из оригинала 23 января 2016 года.
  7. Friend, Tad (3 October 2016). "Sam Altman's Manifest Destiny". The New Yorker. Архивировано 17 мая 2017. Дата обращения: 25 ноября 2017.
  8. Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety. arXiv preprint arXiv:1606.06565.
  9. Kaelbling, L. P.; Littman, M. L.; Moore, A. W. (1 May 1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237—285. doi:10.1613/jair.301.
  10. Ring M., Orseau L. (2011) Delusion, Survival, and Intelligent Agents. In: Schmidhuber J., Thórisson K.R., Looks M. (eds) Artificial General Intelligence. AGI 2011. Lecture Notes in Computer Science, vol 6830. Springer, Berlin, Heidelberg.
  11. Yampolskiy, Roman (24 August 2012). "Safety Engineering for Artificial General Intelligence". Topoi. doi:10.1007/s11245-012-9128-9.
  12. Yampolskiy, Roman V. (2013). "What to Do with the Singularity Paradox?". Philosophy and Theory of Artificial Intelligence. 5: 397—413. doi:10.1007/978-3-642-31674-6_30. ISBN 978-3-642-31673-9.
  13. Omohundro, Stephen M. The basic AI drives // Artificial General Intelligence 2008. — February 2008. — Vol. 171. — P. 483–492. — ISBN 978-1-60750-309-5.
  14. 1 2 . ISBN 978-3-642-22887-2. {{cite conference}}: |title= пропущен или пуст (справка)
  15. Bostrom, 2014. "We humans often seem happy to let our final values drift... For example, somebody deciding to have a child might predict that they will come to value the child for its own sake, even though at the time of the decision they may not particularly value their future child... Humans are complicated, and many factors might be in play in a situation like this... one might have a final value that involves having certain experiences and occupying a certain social role; and become a parent— and undergoing the attendant goal shift— might be a necessary aspect of that..."
  16. Schmidhuber, J. R. (2009). "Ultimate Cognition à la Gödel". Cognitive Computation. 1 (2): 177—193. CiteSeerX 10.1.1.218.3323. doi:10.1007/s12559-009-9014-y.
  17. 1 2 Hibbard, B. (2012). "Model-based Utility Functions". Journal of Artificial General Intelligence. 3 (1): 1—24. arXiv:1111.3934. Bibcode:2012JAGI....3....1H. doi:10.2478/v10229-011-0013-5.
  18. 1 2 3 Источник (PDF). ISBN 978-1-57735-759-9. Архивировано (PDF) 29 марта 2023. Дата обращения: 29 марта 2023.
  19. Yudkowsky, Eliezer. Artificial intelligence as a positive and negative factor in global risk // Global Catastrophic Risks. — 2008. — Vol. 303. — P. 333. — ISBN 9780199606504.
  20. 1 2 Shanahan, Murray. Chapter 7, Section 5: "Safe Superintelligence" // The Technological Singularity. — MIT Press, 2015.
  21. (Technical report) https://www.fhi.ox.ac.uk/wp-content/uploads/Reframing_Superintelligence_FHI-TR-2019-1.1-1.pdf. {{cite tech report}}: |title= пропущен или пуст (справка)
  22. Chen, Angela (2014-09-11). "Is Artificial Intelligence a Threat?". The Chronicle of Higher Education. Архивировано 1 декабря 2017. Дата обращения: 25 ноября 2017.

Рекомендации[править | править код]