close
본문으로 이동

친절한 인공지능

위키백과, 우리 모두의 백과사전.

친절한 인공지능(Friendly artificial intelligence), 친화적 인공지능, 프렌들리 AI(Friendly AI, FAI)는 인류에 긍정적(양성) 영향을 미치거나 적어도 인간의 이익에 부합하거나 인류 종의 개선을 촉진하는 데 기여하는 가상의 일반 인공 지능(AGI)이다. 인공지능윤리의 한 부분으로 기계윤리와 밀접한 관련이 있다. 기계 윤리는 인공 지능 에이전트가 어떻게 행동해야 하는지에 관심이 있는 반면, 친근한 인공 지능 연구는 실제로 이러한 행동을 가져오고 적절하게 제한하는 방법에 중점을 둔다.

어원과 사용

[편집]
Image
엘리저 유드코프스키, AI 연구자이자 해당 용어의 창시자

이 용어는 인간의 가치를 신뢰성 있게 구현하는 초지능적 인공 에이전트를 논의하기 위해, 이 개념을 대중화한 것으로 가장 잘 알려진 엘리저 유드코프스키가 만들었다.[1][2][3] 스튜어트 J. 러셀피터 노빅의 선도적인 인공지능 교과서인 《인공지능: 현대적 접근방식》(Artificial Intelligence: A Modern Approach)에서는 이 아이디어를 다음과 같이 설명한다.[2]

유드코프스키(2008)는 친절한 AI(Friendly AI)를 설계하는 방법에 대해 더 자세히 설명한다. 그는 친절함(인간에게 해를 끼치지 않으려는 욕구)이 처음부터 설계되어야 하지만, 설계자들은 자신의 설계에 결함이 있을 수 있다는 점과 로봇이 시간이 지나면서 학습하고 진화할 것이라는 점을 모두 인식해야 한다고 주장한다. 따라서 과제는 메커니즘 설계의 문제이다. 즉, 견제와 균형 시스템 아래에서 진화하는 AI 시스템을 위한 메커니즘을 정의하고, 그러한 변화 직면해서도 친절함을 유지할 수 있는 효용함수를 시스템에 부여하는 것이다.

이 문맥에서 "친절한"(Friendly)은 전문 용어로 사용되며, 반드시 일상적인 의미에서 "상냥한" 에이전트가 아니라 안전하고 유용한 에이전트를 가리킨다. 이 개념은 주로 급격하게 지능 폭발을 일으키는 재귀적 자기 개선 인공 에이전트에 관한 논의에서 인용되는데, 이는 이러한 가설적인 기술이 인류 사회에 거대하고 빠르며 통제하기 어려운 영향을 미칠 것이라는 근거에 기반한다.[4]

비우호적 AI의 위험성

[편집]

인공지능에 대한 우려의 뿌리는 매우 깊다. 케빈 라그랑드르는 AI 특유의 위험성이 골렘과 같은 인공 인간 하인이나 로저 베이컨오리야크의 제르베르의 초기 로봇에 관한 고대 문학에서 나타난다고 보여주었다. 이러한 이야기들에서 이 인공적 창조물들의 극단적인 지능과 힘은 노예(본질적으로 인간 이하로 간주되는)로서의 지위와 충돌하며 재앙적인 갈등을 일으킨다.[5] 1942년에 이러한 주제들은 아이작 아시모프가 "로봇공학의 삼원칙"을 만들도록 자극했다. 이는 그의 소설 속 모든 로봇에 내장된 원칙으로, 로봇이 창조주에게 등을 돌리거나 그들이 해를 입도록 방치하는 것을 방지하기 위해 고안되었다.[6]

현대에 들어 초지능적 AI의 전망이 가까워짐에 따라, 철학자 닉 보스트롬은 인류의 안전을 보장하기 위한 극단적인 조치가 취해지지 않는 한, 인간의 윤리와 일치하지 않는 목표를 가진 초지능적 AI 시스템은 본질적으로 위험하다고 말했다. 그는 다음과 같이 표현했다.

기본적으로 우리는 '초지능'이 자신이 가진 어떤 목표든 달성할 수 있을 것이라고 가정해야 한다. 따라서 우리가 초지능에 부여하는 목표와 초지능의 전체 동기 시스템이 '인간 친화적'이어야 한다는 것은 매우 중요하다.

2008년, 엘리저 유드코프스키는 첨단 인공지능으로부터의 실존적 위험을 완화하기 위해 "친절한 AI"를 만들 것을 촉구했다. 그는 다음과 같이 설명한다. "AI는 당신을 미워하지도, 사랑하지도 않지만, 당신은 AI가 다른 용도로 사용할 수 있는 원자들로 구성되어 있다."[7]

스티브 오모헌드로는 충분히 진보된 AI 시스템이 명시적으로 저지되지 않는 한 자원 획득, 자기 보존, 지속적인 자기 개선과 같은 몇 가지 기본적인 "추진력"을 보일 것이라고 말한다. 이는 모든 목표 지향적 시스템의 본질적인 특성 때문이며, 이러한 추진력들은 "특별한 예방 조치가 없다면" AI가 원치 않는 행동을 보이게 할 것이라고 주장한다.[8][9]

알렉산더 위스너-그로스는 자신의 미래 행동의 자유(또는 인과적 경로 엔트로피)를 극대화하려는 AI가 계획 지평이 특정 임계값보다 길면 친절한 것으로 간주될 수 있고, 계획 지평이 그 임계값보다 짧으면 비우호적인 것으로 간주될 수 있다고 말한다.[10][11]

머신 인텔리전스 리서치 인스티튜트(MIRI)의 루크 뮬하우저는 기계 윤리 연구자들이 브루스 슈나이어가 "보안 사고방식"(security mindset)이라고 부른 것을 채택할 것을 권장한다. 이는 시스템이 어떻게 작동할지 생각하기보다는 어떻게 실패할 수 있는지를 상상하는 것이다. 예를 들어, 그는 단지 정확한 예측을 하고 텍스트 인터페이스를 통해 소통하는 AI조차도 의도치 않은 해를 끼칠 수 있다고 시사한다.[12]

2014년, 루크 뮬하우저와 닉 보스트롬은 '친절한 AI'의 필요성을 강조했다.[13] 그럼에도 불구하고, 예를 들어 반사실적 도덕적 사고를 프로그래밍하는 방식을 통해 '친절한' 초지능을 설계하는 데 따르는 어려움은 상당하다.[14][15]

일관된 외삽된 의지

[편집]

유드코프스키는 일관된 외삽된 의지(Coherent Extrapolated Volition, CEV) 모델을 제안한다. 그에 따르면, 우리의 일관된 외삽된 의지는 "우리가 더 많이 알고, 더 빨리 생각하며, 우리가 되기를 바라는 사람이 되었고, 더불어 성장했다면 가졌을 우리의 바람이며, 그 외삽이 갈라지기보다는 하나로 모이고, 우리의 바람이 서로 방해하기보다는 일관성을 갖게 되는 지점이며, 우리가 그렇게 외삽되기를 바라는 방식으로 외삽되고, 그렇게 해석되기를 바라는 방식으로 해석된 것"이다.[16]

친절한 AI가 인간 프로그래머에 의해 직접 설계되는 것이 아니라, 먼저 인간 본성을 연구하고 충분한 시간과 통찰력이 주어졌을 때 인류가 원하는 AI를 만들어내도록 프로그래밍된 "씨앗 AI"(seed AI)에 의해 설계되도록 하여 만족스러운 답에 도달하게 하는 것이다.[16] "친절함"의 궁극적인 기준으로서 우발적인 인간 본성을 통한 객관적인 것(아마도 수학적 목적을 위해 효용함수나 다른 결정 이론적 정식화의 형태로 표현된 것)에 호소하는 것은, 객관적 도덕을 정의하려는 메타윤리적 문제에 대한 하나의 해답이다. 외삽된 의지는 모든 것을 고려했을 때 인류가 객관적으로 원할 만한 것이 되도록 의도되었지만, 이는 오직 외삽되지 않은 현재 인류의 심리적, 인지적 특성에 상대적으로만 정의될 수 있다.

다른 접근 방식

[편집]

스티브 오모헌드로는 안전함이 증명된 한 세대의 AI가 다음 세대의 안전한 AI를 구축하도록 돕는 "비계"(scaffolding) 방식의 AI 안전 접근법을 제안했다.[17]

세스 바움은 안전하고 사회적으로 유익한 인공지능 또는 인공 일반 지능의 개발은 AI 연구 커뮤니티의 사회 심리학적 기능이므로 외적 조치에 의해 제약되고 내적 조치에 의해 동기부여될 수 있다고 주장한다. 내적 동기는 메시지가 AI 개발자들에게 공감을 불러일으킬 때 강화될 수 있는데, 바움은 이와 대조적으로 "유익한 AI에 관한 기존의 메시지들이 항상 잘 구성되어 있는 것은 아니다"라고 주장한다. 바움은 "협력적 관계와 AI 연구자들에 대한 긍정적인 프레임워크"를 옹호하며, AI 연구자들을 "유익한 설계를 추구하고 싶어 하지 않는 사람들"로 묘사하는 것에 대해 경고한다.[18]

AI 연구자 스튜어트 J. 러셀은 그의 저서 《인간 호환》(Human Compatible)에서 유익한 기계의 개발을 이끌기 위한 세 가지 원칙을 나열했다. 그는 이 원칙들이 기계에 명시적으로 코딩되도록 의도된 것이 아니라 인간 개발자들을 위한 것이라고 강조한다. 원칙은 다음과 같다.[19]:173

  1. 기계의 유일한 목표는 인간 선호도의 실현을 극대화하는 것이다.
  2. 기계는 처음에 그 선호도가 무엇인지 불확실해한다.
  3. 인간 선호도에 관한 정보의 궁극적인 원천은 인간의 행동이다.

러셀이 언급한 "선호도"는 "모든 것을 포괄하며, 당신이 관심을 가질 수 있는 임의의 먼 미래의 모든 것까지 포함한다."[19]:173 마찬가지로 "행동"에는 선택지들 사이의 모든 선택이 포함되며,[19]:177 불확실성은 아주 작을지라도 논리적으로 가능한 모든 인간 선호도에 대해 일정 확률을 할당해야 함을 의미한다.[19]:201

공공 정책

[편집]

우리의 마지막 발명품》의 저자 제임스 배럿은 "보안에 관한 아이디어를 공유하기 위해 AI 제작자들을 모으는 민관 파트너십이 만들어져야 하며, 이는 국제 원자력 기구와 유사하지만 기업들과의 파트너십 형태여야 한다"고 제안했다. 그는 AI 연구자들이 생물공학의 위험성을 논의했던 애실로마 회의와 유사한 회의를 소집할 것을 촉구한다.[17]

존 맥기니스는 정부가 친절한 AI 연구를 가속화하도록 장려한다. 친절한 AI의 목표 지점이 반드시 임박한 것은 아니기 때문에, 그는 "컴퓨터 및 인지 과학자들로 구성된 동료 검토 패널이 프로젝트를 선별하여 AI를 발전시키는 동시에 적절한 안전장치가 동반되도록 설계된 프로젝트를 선택하는" 미국 국립보건원과 유사한 모델을 제안한다. 맥기니스는 동료 검토가 "관료적 명령을 통해 포착하기 불가능한 기술적 문제를 다루는 데 있어 규제보다 낫다"고 느낀다. 맥기니스는 자신의 제안이 일반적으로 친절한 AI에 정부가 개입하는 것을 피하고자 하는 머신 인텔리전스 리서치 인스티튜트의 입장과 대조된다는 점을 언급한다.[20]

비판

[편집]

일부 비판가들은 인간 수준의 AI와 초지능 모두 가능성이 희박하며, 따라서 친절한 AI도 가능성이 낮다고 믿는다. 가디언의 앨런 윈필드는 인간 수준의 인공지능을 난이도 면에서 초광속 여행과 비교하며, 걸려 있는 이해관계를 고려할 때 "주의를 기울이고 준비할" 필요는 있지만 초지능의 위험에 "집착할 필요는 없다"고 말한다.[21] 반면 보일스와 호아킨은 친절한 AI를 만들자는 루크 뮬하우저와 닉 보스트롬의 제안이 비관적이라고 주장한다. 이는 뮬하우저와 보스트롬이 지능형 기계가 인간이 가졌을 법한 도덕적 가치에 대해 반사실적으로 생각하도록 프로그래밍될 수 있다는 생각을 가지고 있는 것으로 보이기 때문이다.[13] 《AI & Society》의 기사에서 보일스와 호아킨은 다음과 같은 점을 고려할 때 그러한 AI가 그다지 친절하지 않을 것이라고 주장한다. 즉, 기계에 프로그래밍되어야 할 무한한 양의 전제적 반사실 조건들, 도덕적 가치 세트(즉, 현재 인간이 가진 것보다 더 이상적인 가치들)를 도출해내는 것의 어려움, 그리고 반사실적 전제와 이상적 가치 결과 사이의 명백한 단절 때문이다.[14]

일부 철학자들은 인공적이든 인간이든 진정으로 "이성적인" 에이전트는 자연스럽게 자비로울 것이라고 주장한다. 이 관점에서는 친절한 AI를 만들기 위해 설계된 의도적인 안전장치는 불필요하거나 심지어 해로울 수 있다.[22] 다른 비판가들은 인공지능이 친절할 수 있는지 자체에 의문을 제기한다. 기술 저널 《더 뉴 애틀랜티스》(The New Atlantis)의 편집자인 아담 카이퍼와 아리 N. 슐먼은 윤리적 복잡성 문제는 소프트웨어의 발전이나 컴퓨팅 능력의 증대로 해결되지 않기 때문에 AI에서 "친절한" 행동을 보장하는 것은 영원히 불가능할 것이라고 말한다. 그들은 친절한 AI 이론의 근거가 되는 기준은 "수많은 가능한 결과의 가능성에 대한 거대한 예측력뿐만 아니라, 서로 다른 결과들에 가치를 부여하는 방식에 대한 확실성과 합의가 있을 때에만" 작동한다고 썼다.[23]

고급 AI 시스템의 내부 작동 방식은 복잡하고 해석하기 어려울 수 있으며, 이는 투명성과 책임성에 대한 우려로 이어진다.[24]

같이 보기

[편집]

각주

[편집]
  1. Tegmark, Max (2014). Life, Our Universe and Everything Fir판. Our Mathematical Universe: My Quest for the Ultimate Nature of Reality. Knopf Doubleday Publishing. ISBN 978-0-307-74425-8. Its owner may cede control to what Eliezer Yudkowsky terms a "Friendly AI,"...
  2. 1 2 Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.
  3. Leighton, Jonathan (2011). The Battle for Compassion: Ethics in an Apathetic Universe. Algora. ISBN 978-0-87586-870-7.
  4. Wallach, Wendell; Allen, Colin (2009). Moral Machines: Teaching Robots Right from Wrong. Oxford University Press, Inc. ISBN 978-0-19-537404-9.
  5. Kevin LaGrandeur (2011). The Persistent Peril of the Artificial Slave. Science Fiction Studies 38 (2): 232. doi:10.5621/sciefictstud.38.2.0232. 2023년 1월 13일에 원본 문서에서 보존된 문서. 2013년 5월 6일에 확인함.
  6. Isaac Asimov (1964). Introduction. The Rest of the Robots. Doubleday. ISBN 0-385-09041-2.
  7. Eliezer Yudkowsky (2008). Artificial Intelligence as a Positive and Negative Factor in Global Risk (PDF). Nick Bostrom; Milan M. Ćirković (편집). Global Catastrophic Risks. 308–345쪽. 2013년 10월 19일에 원본 문서 (PDF)에서 보존된 문서. 2013년 10월 19일에 확인함.
  8. Omohundro, S. M. (February 2008). The basic AI drives. Artificial General Intelligence 171: 483–492. CiteSeerX 10.1.1.393.8356.
  9. Bostrom, Nick (2014). Chapter 7: The Superintelligent Will. Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 978-0-19-967811-2.
  10. Dvorsky, George (2013년 4월 26일). How Skynet Might Emerge From Simple Physics. Gizmodo. 2021년 10월 8일에 원본 문서에서 보존된 문서. 2021년 12월 23일에 확인함.
  11. Wissner-Gross, A. D.; Freer, C. E. (2013). Causal entropic forces. Physical Review Letters 110 (16). Bibcode:2013PhRvL.110p8702W. doi:10.1103/PhysRevLett.110.168702. hdl:1721.1/79750. PMID 23679649.
  12. Muehlhauser, Luke (2013년 7월 31일). AI Risk and the Security Mindset. Machine Intelligence Research Institute. 2014년 7월 19일에 원본 문서에서 보존된 문서. 2014년 7월 15일에 확인함.
  13. 1 2 Muehlhauser, Luke; Bostrom, Nick (2013년 12월 17일). Why We Need Friendly AI. Think 13 (36): 41–47. doi:10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
  14. 1 2 Boyles, Robert James M.; Joaquin, Jeremiah Joven (2019년 7월 23일). Why friendly AIs won't be that friendly: a friendly reply to Muehlhauser and Bostrom. AI & Society 35 (2): 505–507. doi:10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
  15. Chan, Berman (2020년 3월 4일). The rise of artificial intelligence and the crisis of moral passivity (영어). AI & Society 35 (4): 991–993. doi:10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. 2023년 2월 10일에 원본 문서에서 보존된 문서. 2023년 1월 21일에 확인함.
  16. 1 2 Eliezer Yudkowsky (2004). Coherent Extrapolated Volition (PDF). Singularity Institute for Artificial Intelligence. 2015년 9월 30일에 원본 문서 (PDF)에서 보존된 문서. 2015년 9월 12일에 확인함.
  17. 1 2 Hendry, Erica R. (2014년 1월 21일). What Happens When Artificial Intelligence Turns On Us?. Smithsonian Magazine. 2014년 7월 19일에 원본 문서에서 보존된 문서. 2014년 7월 15일에 확인함.
  18. Baum, Seth D. (2016년 9월 28일). On the promotion of safe and socially beneficial artificial intelligence. AI & Society 32 (4): 543–551. doi:10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
  19. 1 2 3 4 Russell, Stuart (2019년 10월 8일). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
  20. McGinnis, John O. (Summer 2010). Accelerating AI. Northwestern University Law Review 104 (3): 1253–1270. 2014년 12월 1일에 원본 문서에서 보존된 문서. 2014년 7월 16일에 확인함.
  21. Winfield, Alan (2014년 8월 9일). Artificial intelligence will not turn into a Frankenstein's monster. The Guardian. 2014년 9월 17일에 원본 문서에서 보존된 문서. 2014년 9월 17일에 확인함.
  22. Kornai, András (2014년 5월 15일). Bounding the impact of AGI. Journal of Experimental & Theoretical Artificial Intelligence (Informa UK Limited) 26 (3): 417–438. doi:10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...the essence of AGIs is their reasoning facilities, and it is the very logic of their being that will compel them to behave in a moral fashion... The real nightmare scenario (is one where) humans find it advantageous to strongly couple themselves to AGIs, with no guarantees against self-deception.
  23. Keiper, Adam; Schulman, Ari N. (Summer 2011). The Problem with 'Friendly' Artificial Intelligence. The New Atlantis. 32호. 80–89쪽. 2012년 1월 15일에 원본 문서에서 보존된 문서. 2012년 1월 16일에 확인함.
  24. Norvig, Peter; Russell, Stuart (2010). Artificial Intelligence: A Modern Approach 3판. Pearson. ISBN 978-0-13-604259-4.

외부 링크

[편집]