close
본문으로 이동

텍스트-비디오 모델

위키백과, 우리 모두의 백과사전.
오픈AI소라 텍스트-비디오 모델을 사용하여 생성된 컴필레이션 비디오

텍스트-비디오 모델(text-to-video model)은 자연어 설명을 입력으로 사용하여 입력 텍스트와 관련된 비디오를 제작하는 생성형 인공지능의 한 형태이다.[1] 2020년대 들어 고품질의 텍스트 조건부 비디오 생성 분야의 발전은 주로 비디오 확산 모델의 개발에 의해 주도되었다.[2]

모델

[편집]

오픈 소스 모델을 포함하여 다양한 모델이 존재한다. 중국어 입력이 가능한[3] CogVideo는 개발된 최초의 "94억 개의 매개변수" 규모의 텍스트-비디오 모델로, 2022년 깃허브에 오픈 소스 코드의 데모 버전이 처음 공개되었다.[4] 같은 해, 메타 플랫폼스는 "Make-A-Video"라는 부분적인 텍스트-비디오 모델을 출시했고,[5][6][7] 구글브레인(이후 구글 딥마인드)은 3D U-Net을 갖춘 텍스트-비디오 모델인 Imagen Video를 선보였다.[8][6][9][10][11]

2023년
[편집]

2023년 2월, 런웨이는 웹 인터페이스를 통해 대중이 접근할 수 있는 최초의 상용 텍스트-비디오 및 비디오-비디오 모델 중 하나인 Gen-1과 Gen-2를 출시했다. 처음에 비디오-비디오 모델로 출시된 Gen-1은 사용자가 텍스트 또는 이미지 프롬프트를 사용하여 기존 비디오 영상을 변환할 수 있게 해주었다.[12] 2023년 3월에 소개되어 2023년 6월에 공개된 Gen-2는 텍스트-비디오 기능을 추가하여 사용자가 텍스트 프롬프트만으로 비디오를 생성할 수 있게 했다.[13]

2023년 3월, 비디오 생성에 대한 새로운 접근 방식을 제시하는 "VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation"이라는 연구 논문이 발표되었다.[14] VideoFusion 모델은 확산 과정을 기본 노이즈와 잔차 노이즈의 두 구성 요소로 분해하며, 이들은 시간적 일관성을 보장하기 위해 프레임 전체에 공유된다. 사전 훈련된 이미지 확산 모델을 기본 생성기로 활용함으로써 고품질의 일관된 비디오를 효율적으로 생성했다. 비디오 데이터에 대해 사전 훈련된 모델을 미세 조정함으로써 이미지와 비디오 데이터 사이의 도메인 격차를 해결하고, 현실적이고 일관된 비디오 시퀀스를 제작하는 모델의 능력을 향상시켰다.[15] 같은 달, 어도비는 자사 기능의 일부로 파이어플라이 AI를 도입했다.[16]

2024년
[편집]

2024년 1월, 구글은 고급 비디오 편집 기능을 통합할 것으로 기대되는 Lumiere라는 텍스트-비디오 모델의 개발을 발표했다.[17] AI 기업 신세시아(Synthesia)의 마티아스 니에스너루르드 아가피토는 제어 가능한 아바타 비디오 합성을 위해 형태, 외관, 동작의 2D 및 3D 신경망 표현을 사용하여 현실적인 비디오를 합성할 수 있는 3D 신경망 렌더링 기술 개발에 매진하고 있다.[18] 2024년 6월, 루마 랩스(Luma Labs)는 드림 머신 비디오 도구를 출시했다.[19][20] 같은 달,[21] 콰이쇼우는 Kling AI 텍스트-비디오 모델을 전 세계 사용자에게 확장했다. 2024년 7월, 틱톡 소유주인 바이트댄스는 자회사 페이스유 테크놀로지(Faceu Technology)를 통해 중국에서 지멍(Jimeng) AI를 출시했다.[22] 2024년 9월경, 중국 AI 기업 미니맥스(MiniMax)는 video-01 모델을 선보이며 문샷 AI, 바이촨, 즈푸 AI와 같은 기존 AI 모델 기업들과 함께 중국의 AI 기술 참여에 기여했다.[23] 2024년 12월, 라이트릭스(Lightricks)는 LTX Video를 오픈 소스 모델로 출시했다.[24]

2025년
[편집]

텍스트-비디오 모델의 대안적 접근 방식으로는[25] 구글의 Phenaki, Hour One, Colossyan,[3] 런웨이의 Gen-3 Alpha,[26][27] 그리고 오픈AI의 소라가 있다.[28][29] Plug-and-Play, Text2LIVE, TuneAVideo와 같은 여러 추가 텍스트-비디오 모델도 등장했다.[30] FLUX.1 개발사인 블랙 포레스트 랩스(Black Forest Labs)는 자사의 텍스트-비디오 모델 SOTA를 발표했다.[31] 구글은 2025년에 유튜브 쇼츠를 위한 Veo라는 비디오 생성 도구를 출시할 준비를 하고 있었다.[32] 2025년 5월, 구글은 해당 모델의 Veo 3 반복 버전을 출시했다. 이 모델은 이전 텍스트-비디오 모델의 한계였던 인상적인 오디오 생성 능력으로 주목받았다.[33] 2025년 7월, 라이트릭스는 최대 60초 분량의 클립 생성이 가능한 LTX Video 업데이트를 출시했으며,[34][35] 2025년 10월에는 오디오 기능이 내장된 LTX-2를 출시했다.[36]

2026년
[편집]

2026년 2월, 바이트댄스Seedance 2.0을 출시했으며, 이 모델은 인상적인 사실적 생성, 동작 및 카메라 제어, 15초 생성 능력으로 주목받았다.[37] 그러나 이 모델은 저작권 침해 문제로 미국영화협회로부터 거센 비판에 직면했다.[38] 배우 브래드 피트톰 크루즈 사이의 싸움을 묘사한 바이럴 영상을 본 후, 데드풀과 울버린좀비랜드의 공동 작가인 렛 리스는 소셜 미디어에 "말하기 싫지만, 우리에겐 아마 끝난 것 같다"라고 밝혔다.[39] 그는 이어 "머지않아 한 사람이 컴퓨터 앞에 앉아 현재 할리우드에서 출시하는 것과 구별할 수 없는 영화를 만들 수 있게 될 것"이라고 덧붙였다.[40]

구조 및 훈련

[편집]

텍스트-비디오 모델을 만드는 데 여러 구조가 사용되어 왔다. 텍스트-이미지 모델과 유사하게, 이러한 모델들은 픽셀 변환 모델과 확률적 비디오 생성 모델에 사용되는 장단기 메모리(LSTM) 네트워크와 같은 순환 신경망(RNN)을 사용하여 훈련될 수 있으며, 이는 각각 일관성과 현실성에 도움을 준다.[41] 이에 대한 대안으로는 트랜스포머 모델이 있다. 생성적 적대 신경망(GAN), 인간의 동작 예측에 도움을 줄 수 있는 변분 오토인코더(VAE)[42], 그리고 확산 모델 또한 모델의 이미지 생성 측면을 개발하는 데 사용되어 왔다.[43]

모델 훈련에 사용되는 텍스트-비디오 데이터세트에는 WebVid-10M, HDVILA-100M, CCV, ActivityNet, Panda-70M 등이 포함되지만 이에 국한되지는 않는다.[44][45] 이러한 데이터세트에는 정확도 향상을 위해 모델을 훈련하는 데 도움이 되는 수백만 개의 원본 비디오, 생성된 비디오, 캡션이 달린 비디오 및 텍스트 정보가 포함되어 있다. 모델 훈련에 사용되는 텍스트-비디오 프롬프트 데이터세트에는 PromptSource, DiffusionDB, VidProM 등이 포함된다.[44][45] 이러한 데이터세트는 모델에게 다양한 텍스트 프롬프트를 해석하는 방법을 가르치는 데 필요한 광범위한 텍스트 입력을 제공한다.

비디오 생성 과정에는 텍스트 입력을 비디오 프레임과 동기화하여 시퀀스 전체의 정렬과 일관성을 보장하는 작업이 포함된다. 이러한 예측 프로세스는 리소스 제한으로 인해 비디오 길이가 길어질수록 품질이 저하될 수 있다.[45] 윌 스미스 스파게티 먹는 테스트는 모델의 성능을 측정하는 벤치마크로 활용된다.[46]

한계

[편집]

텍스트-비디오 모델의 성능이 빠르게 진화하고 있음에도 불구하고, 주요 한계는 계산 부하가 매우 커서 고품질의 긴 결과물을 제공하는 능력이 제한된다는 점이다.[47][48] 또한, 고품질의 일관된 결과물을 생성하려면 대량의 특정 훈련 데이터가 필요하며, 이는 접근성 문제를 야기한다.[48][47]

게다가 모델이 텍스트 프롬프트를 오해하여 의도된 의미와 벗어난 비디오 결과물을 만들 수도 있다. 이는 텍스트에 담긴 맥락적 의미를 포착하는 데 한계가 있기 때문에 발생하며, 생성된 비디오를 사용자의 의도된 메시지와 일치시키는 모델의 능력에 영향을 미친다.[48][45] Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA, NUWA를 포함한 다양한 모델들이 텍스트-비디오 생성에서의 일치 능력과 전반적인 성능을 향상시키기 위해 현재 테스트 및 개선되고 있다.[48]

결과물의 또 다른 문제는 AI 생성 비디오의 텍스트나 세부 묘사가 종종 엉망으로 보인다는 점인데, 이는 스테이블 디퓨전 모델도 겪고 있는 문제이다. 왜곡된 손이나 읽을 수 없는 텍스트 등이 그 예이다.

윤리

[편집]

텍스트-비디오 모델의 배포는 콘텐츠 생성과 관련된 윤리적 고려 사항을 불러일으킨다. 이러한 모델은 노골적인 자료, 사실적인 폭력 묘사, 허위 정보, 그리고 동의 없는 실제 개인의 모습 등을 포함하여 부적절하거나 무단 콘텐츠를 생성할 잠재력을 가지고 있다.[44] 이러한 모델에 의해 생성된 콘텐츠가 항상 유해하거나 오해를 불러일으키는 것으로 쉽게 식별되지 않을 수 있으므로, AI 생성 콘텐츠가 안전하고 윤리적인 사용을 위한 확립된 기준을 준수하도록 보장하는 것이 필수적이다. AI가 NSFW 또는 저작권이 있는 콘텐츠를 인식하고 걸러내는 능력은 창작자와 관객 모두에게 영향을 미치는 지속적인 과제로 남아 있다.[44]

영향 및 응용

[편집]

텍스트-비디오 모델은 교육 및 홍보에서 창의적인 산업에 이르기까지 다양한 분야에 도움이 될 수 있는 광범위한 응용 분야를 제공한다. 이러한 모델은 교육용 비디오, 영화 예고편, 게임 자산 및 시각화를 위한 콘텐츠 제작을 간소화하여 콘텐츠 생성을 더욱 용이하게 할 수 있다.[49]

러시아의 우크라이나 침공 기간 동안, 인공지능으로 제작된 가짜 비디오가 우크라이나에 대한 선전전의 일환으로 만들어져 소셜 미디어에 공유되었다. 여기에는 우크라이나군에 소속된 어린이들의 묘사, 우크라이나 정부 비판자들을 고발하도록 어린이들을 선동하는 가짜 광고, 또는 나라의 항복에 대한 우크라이나 대통령 볼로디미르 젤렌스키의 허구적인 성명 등이 포함되었다.[50][51][52][53][54][55]

영화

[편집]

Kaur vs Kore는 생성형 인공지능을 사용하여 제작된 최초의 인도 장편 영화로, 서니 리오니의 AI 캐릭터가 1인 2역을 맡았으며 2026년 개봉 예정이다.[56][57][58]

Chiranjeevi Hanuman – The Eternal은 비자이 수브라마니암(Vijay Subramaniam)이 제작한, 전체를 생성형 인공지능으로 만든 인도 영화로 2026년 극장 개봉을 앞두고 있다. 이 영화는 전적으로 AI에 의존한다는 점에서 볼리우드 업계 영화 제작자들로부터 거센 비판을 받았으며, AI의 사용은 그들의 경력에 실존적 위협으로 간주되었다.[59][60][61]

시리즈

[편집]

Mahabharat: Ek Dharmayudh는 2025년 10월에 출시되어 JioHotstar에서 스트리밍된 인도 신화 OTT 시리즈이다. 이 시리즈는 비주얼과 캐릭터 애니메이션을 생성하는 데 전적으로 인공지능을 사용하여 제작된 최초의 시리즈로 인정받고 있으며 100개의 에피소드로 구성되어 있다.[62][63][64]

모델 비교

[편집]
모델/제품 회사 출시 연도 상태 주요 특징 기능 가격 비디오 길이 지원 언어
신세시아(Synthesia) 신세시아 2019 출시됨 AI 아바타, 60개 이상의 언어 지원, 맞춤화 옵션[65] 기업 교육 및 마케팅을 위한 현실적인 AI 아바타 전문[65] 구독 기반, 월 약 $30부터 시작 구독에 따라 다름 60+
Vexub Vexub 2023 출시됨 프롬프트를 통한 텍스트-비디오 생성, 소셜 미디어를 위한 틱톡 및 유튜브 스토리텔링 형식에 집중[66] 텍스트 프롬프트로부터 AI 비디오(1~15분) 생성; 편집 및 음성 기능 포함[66] 구독 기반, 다양한 요금제 최대 약 15분 70+
InVideo AI InVideo 2021 출시됨 AI 기반 비디오 제작, 방대한 스톡 라이브러리, AI 말하는 아바타[65] 플랫폼별 템플릿을 갖춘 소셜 미디어 콘텐츠에 최적화[65] 무료 요금제 가능, 유료 요금제 월 $16부터 시작 콘텐츠 유형에 따라 다름 다수 (지정되지 않음)
Fliki Fliki AI 2022 출시됨 AI 아바타와 음성을 사용한 텍스트-비디오, 광범위한 언어 및 음성 지원[65] 65개 이상의 AI 아바타와 70개 언어로 된 2,000개 이상의 음성 지원[65] 무료 요금제 가능, 유료 요금제 월 $30부터 시작 구독에 따라 다름 70+
런웨이 Gen-2 런웨이 AI 2023 출시됨 텍스트, 이미지 또는 비디오로부터 다중 모드 비디오 생성[67] 고품질 비주얼, 스타일화 및 스토리보드와 같은 다양한 모드[67] 무료 체험, 유료 요금제 (세부 사항 미지정) 최대 16초 다수 (지정되지 않음)
Pika Labs Pika Labs 2024 베타 동적 비디오 생성, 카메라 및 동작 맞춤 설정[68] 사용자 친화적, 자연스러운 동적 생성에 집중[68] 베타 기간 동안 현재 무료 유연함, 프레임 연속을 통한 더 긴 비디오 지원 다수 (지정되지 않음)
런웨이 Gen-3 Alpha 런웨이 AI 2024 알파 향상된 시각적 충실도, 실사적인 인간, 정교한 시간적 제어[69] 정밀한 키 프레임 설정 및 업계 수준의 맞춤 설정을 갖춘 초현실적 비디오 생성[69] 무료 체험 가능, 기업용 맞춤형 가격 클립당 최대 10초, 연장 가능 다수 (지정되지 않음)
구글 Veo 구글 2024 출시됨 구글 제미나이 프롬프트, 성우 연기, 음향 효과, 배경 음악. 영화 스타일의 실사 비디오.[70] 매우 현실적이고 상세한 캐릭터 모델/장면/클립을 생성할 수 있으며, 어울리는 성우 연기, 주변 소음 및 배경 음악을 제공함. 연속성을 가진 클립 연장 능력.[71] 다양함 ($250 구글 Pro/Ultra AI 구독 및 추가 AI 크레딧 충전) 개별 클립당 8초 (단, 클립을 별도로 이어가거나 연장할 수 있음) 50+
오픈AI 소라 오픈AI 2024 알파 깊은 언어 이해, 고품질 영화적 비주얼, 멀티샷 비디오[72] 상세하고 역동적이며 감정적으로 표현력 있는 비디오 생성 가능; 안전 조치와 함께 개발 중[72] 가격 미공개 더 긴 비디오 생성 기대; 지속 시간 미정 다수 (지정되지 않음)
런웨이 Gen-4 런웨이 2025 출시됨 장면 간 일관된 캐릭터,[73] 세계 일관성,[74] 카메라 제어, 물리 시뮬레이션 여러 샷에서 일관된 캐릭터, 사물 및 환경을 갖춘 5~10초 클립 생성[75] 크레딧 기반 구독, 유료 요금제의 일부 5~10초 다수 (지정되지 않음)
파이어플라이(Firefly) 어도비 2024 출시됨 프롬프트 기반 편집, 카메라 동작 제어, 제3자 모델[76] 프롬프트 또는 참조 비디오가 있는 단일 프레임으로부터 모션 생성[77] 크레딧 기반 구독 최대 5초
Kling 콰이쇼우 2024 출시됨
Seedance 2.0 바이트댄스 Seed 2026 출시됨 프롬프트-비디오[78] 알려진 인물 및 자산으로부터 유사성 극대화. 5~15초 다수 (지정되지 않음)
Flux Kontext 블랙 포레스트 랩스 (BFL) 2024
미니맥스 미니맥스 2024
HappyHorse 1.0 알리바바 2026 미정 프롬프트-비디오[79] 알려진 인물 및 자산으로부터 유사성 극대화. 최대 15초 다수 (지정되지 않음)

같이 보기

[편집]

각주

[편집]
  1. Artificial Intelligence Index Report 2023 (PDF) (보고서). Stanford Institute for Human-Centered Artificial Intelligence. 98쪽. Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.
  2. Melnik, Andrew; Ljubljanac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge (2024년 5월 6일). Video Diffusion Models: A Survey. arXiv:2405.03150 [cs.CV].
  3. 1 2 Wodecki, Ben (2023년 8월 11일). Text-to-Video Generative AI Models: The Definitive List. AI Business. Informa. 2024년 11월 18일에 확인함.
  4. CogVideo, THUDM, 2022년 10월 12일, 2022년 10월 12일에 확인함
  5. Davies, Teli (2022년 9월 29일). Make-A-Video: Meta AI's New Model For Text-To-Video Generation (영어). Weights & Biases. 2022년 10월 12일에 확인함.
  6. 1 2 Monge, Jim Clyde (2022년 8월 3일). This AI Can Create Video From Text Prompt (영어). Medium. 2022년 10월 12일에 확인함.
  7. Meta's Make-A-Video AI creates videos from text. www.fonearena.com. 2022년 10월 12일에 확인함.
  8. google: Google takes on Meta, introduces own video-generating AI. The Economic Times. 2022년 10월 6일. 2022년 10월 12일에 확인함.
  9. Nuh-uh, Meta, we can do text-to-video AI, too, says Google. The Register. 2022년 10월 12일에 확인함.
  10. Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction (영어). paperswithcode.com. 2022년 10월 12일에 확인함.
  11. Papers with Code - Text-driven Video Prediction (영어). paperswithcode.com. 2022년 10월 12일에 확인함.
  12. page, Will Douglas Heavenarchive. The original startup behind Stable Diffusion has launched a generative AI for video (영어). MIT Technology Review. 2025년 10월 17일에 확인함.
  13. Wiggers, Kyle (2023년 6월 9일). Runway's Gen-2 shows the limitations of today's text-to-video tech (미국 영어). TechCrunch. 2025년 10월 17일에 확인함.
  14. Luo, Zhengxiong; Zhang, Yya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. arXiv:2303.08320 [cs.CV]. 이름 목록에서 |이름2=이(가) 있지만 |성2=이(가) 없음 (도움말)
  15. Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. arXiv:2303.08320 [cs.CV].
  16. Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom. Adobe Inc. 2024년 10월 10일. 2024년 11월 18일에 확인함.
  17. Yirka, Bob (2024년 1월 26일). Google announces the development of Lumiere, an AI-based next-generation text-to-video generator.. Tech Xplore. 2024년 11월 18일에 확인함.
  18. Text to Speech for Videos. Synthesia.io. 2023년 10월 17일에 확인함.
  19. Nuñez, Michael (2024년 6월 12일). Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race (미국 영어). VentureBeat. 2024년 11월 18일에 확인함.
  20. Fink, Charlie. Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video (영어). Forbes. 2024년 11월 18일에 확인함.
  21. Franzen, Carl (2024년 6월 12일). What you need to know about Kling, the AI video generator rival to Sora that's wowing creators (미국 영어). VentureBeat. 2024년 11월 18일에 확인함.
  22. ByteDance joins OpenAI's Sora rivals with AI video app launch. Reuters. 2024년 8월 6일. 2024년 11월 18일에 확인함.
  23. Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora. Yahoo! Finance. 2024년 9월 2일. 2024년 11월 18일에 확인함.
  24. Requiroso, Kelvene (2024년 12월 15일). Lightricks' LTXV Model Breaks Speed Records, Generating 5-Second AI Video Clips in 4 Seconds (미국 영어). eWEEK. 2025년 7월 24일에 확인함.
  25. Text2Video-Zero, Picsart AI Research (PAIR), 2023년 8월 12일, 2023년 8월 12일에 확인함
  26. Kemper, Jonathan (2024년 7월 1일). Runway's Sora competitor Gen-3 Alpha now available (미국 영어). THE DECODER. 2024년 11월 18일에 확인함.
  27. Generative AI's Next Frontier Is Video (영어). Bloomberg.com. 2023년 3월 20일. 2024년 11월 18일에 확인함.
  28. OpenAI teases 'Sora,' its new text-to-video AI model (영어). NBC News. 2024년 2월 15일. 2024년 11월 18일에 확인함.
  29. Kelly, Chris (2024년 6월 25일). Toys R Us creates first brand film to use OpenAI's text-to-video tool (미국 영어). Marketing Dive. Informa. 2024년 11월 18일에 확인함.
  30. Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong (2023년 8월 4일). Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network. 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT). IEEE. 108–114쪽. doi:10.1109/CCPQT60491.2023.00024. ISBN 979-8-3503-4269-7.
  31. Announcing Black Forest Labs (미국 영어). Black Forest Labs. 2024년 8월 1일. 2024년 11월 18일에 확인함.
  32. Forlini, Emily Dreibelbis (2024년 9월 18일). Google's veo text-to-video AI generator is coming to YouTube shorts. PC Magazine. 2024년 11월 18일에 확인함.
  33. Subin, Jennifer Elias,Samantha (2025년 5월 20일). Google launches Veo 3, an AI video generator that incorporates audio (영어). CNBC. 2025년 5월 22일에 확인함.
  34. Fink, Charlie. LTX Video Breaks The 60-Second Barrier, Redefining AI Video As A Longform Medium (영어). Forbes. 2025년 7월 24일에 확인함.
  35. Lightricks' latest release lets creators direct long-form AI-generated videos in real time (미국 영어). SiliconANGLE. 2025년 7월 16일. 2025년 7월 24일에 확인함.
  36. Shahaf, Tal (2025년 10월 23일). Lightricks unveils powerful AI video model challenging OpenAI and Google (영어). Ynetglobal. 2025년 10월 25일에 확인함.
  37. Baptista, Eduardo (2026년 2월 13일). ByteDance's new AI video model goes viral as China looks for second DeepSeek moment. 로이터. 2026년 2월 14일에 확인함.
  38. Maddaus, Gene (2026년 2월 13일). After AI Video of ‘Tom Cruise’ Fighting ‘Brad Pitt’ Goes Viral, Motion Picture Association Denounces ‘Massive’ Infringement on Seedance 2.0.
  39. Milmo, Dan; Pulver, Andrew (2026년 2월 13일). ‘It’s over for us’: release of new AI video generator Seedance 2.0 spooks Hollywood The Guardian 경유.
  40. Maddaus, Gene (2026년 2월 13일). After AI Video of ‘Tom Cruise’ Fighting ‘Brad Pitt’ Goes Viral, Motion Picture Association Denounces ‘Massive’ Infringement on Seedance 2.0.
  41. Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (2020년 12월 17일). A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 1–5쪽. doi:10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
  42. Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo (2024년 1월 3일). Human Motion Aware Text-to-Video Generation with Explicit Camera Control. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE. 5069–5078쪽. doi:10.1109/WACV57701.2024.00500. ISBN 979-8-3503-1892-0.
  43. Singh, Aditi (2023년 5월 9일). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 32–36쪽. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
  44. 1 2 3 4 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan (2024년 9월 8일). T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. arXiv:2407.05965 [cs.CV].
  45. 1 2 3 4 Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping (August 2018). From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification. 2018 24th International Conference on Pattern Recognition (ICPR). IEEE. 1695–1700쪽. doi:10.1109/ICPR.2018.8545513. ISBN 978-1-5386-3788-3.
  46. Placido, Dani Di. Google's AI Passed The 'Will Smith Eating Spaghetti' Test (영어). Forbes. 2025년 6월 3일에 원본 문서에서 보존된 문서. 2025년 6월 1일에 확인함.
  47. 1 2 Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital (2020년 12월 17일). A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 1–5쪽. doi:10.1109/PICC51425.2020.9362485. ISBN 978-1-7281-7590-4.
  48. 1 2 3 4 Singh, Aditi (2023년 5월 9일). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 32–36쪽. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
  49. Singh, Aditi (2023년 5월 9일). A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 32–36쪽. arXiv:2311.06329. doi:10.1109/AIRC57904.2023.10303174. ISBN 979-8-3503-4824-8.
  50. ქურასბედიანი, ალექსი (2025년 6월 9일). AI-Generated Photo Of Ukrainian Children In Military Uniforms Circulated Online | Mythdetector.com (미국 영어). 2025년 6월 16일에 확인함.
  51. Fake Ukraine ad urges kids to report relatives enjoying Russian music (영어). euronews. 2025년 3월 28일. 2025년 6월 16일에 확인함.
  52. Photos of Ukrainian children generated by artificial intelligence (영어). behindthenews.ua. 2024년 6월 26일. 2025년 6월 16일에 확인함.
  53. Fake Ukrainian TV advert urges children to report relatives listening to Russian music.
  54. Deepfake video of Zelenskyy could be 'tip of the iceberg' in info war, experts warn (영어). NPR. 2022년 3월 16일. 2025년 6월 16일에 확인함.
  55. Ukraine war: Deepfake video of Zelenskyy telling Ukrainians to 'lay down arms' debunked (영어). Sky News. 2025년 6월 16일에 확인함.
  56. 'Kaur vs KORE': Sunny Leone is all set to play double role in an AI-driven feature film - Report. The Times of India. 2025년 9월 24일. ISSN 0971-8257. 2025년 10월 26일에 확인함.
  57. Farzeen, Sana (2025년 9월 24일). Exclusive: Sunny Leone sets trend with AI-driven feature film 'Kaur vs KORE' (영어). India Today. 2025년 10월 26일에 확인함.
  58. Sunny Leone takes on dual role as human and AI avatar in 'Kaur vs KORE' (영어). @mathrubhumi. 2025년 9월 24일. 2025년 10월 26일에 확인함.
  59. Sharma, Manoj (2025년 10월 26일). From Mahabharat to Hanuman: Collective Artists Network's Vijay Subramaniam on how AI is shaping India's entertainment future (영어). Fortune India. 2025년 10월 26일에 확인함.
  60. PTI (2025년 8월 20일). Anurag Kashyap slams producer Vijay Subramaniam over AI generated film ‘Chiranjeevi Hanuman’ (영어). The Hindu. ISSN 0971-751X. 2025년 10월 26일에 확인함.
  61. AI-generated film Chiranjeevi Hanuman announced, Vikramaditya Motwane not pleased about it: ‘So it begins’ (영어). Hindustan Times. 2025년 8월 19일. 2025년 10월 26일에 확인함.
  62. Mahabharat: Ek Dharmayudh OTT release: When and where to watch India's first AI-powered mythological series. The Economic Times. 2025년 10월 23일. ISSN 0013-0389. 2025년 10월 26일에 확인함.
  63. 'With AI Mahabharat, viewers will get to experience the same story in a new way'. The Times of India. 2025년 10월 18일. ISSN 0971-8257. 2025년 10월 26일에 확인함.
  64. Ramachandran, Naman (2025년 10월 10일). AI-Powered ‘Mahabharat’ Trailer Bows Ahead of India Debut (EXCLUSIVE) (미국 영어). Variety. 2025년 10월 26일에 확인함.
  65. 1 2 3 4 5 6 Top AI Video Generation Models of 2024 (영어). Deepgram. 2024년 8월 30일에 확인함.
  66. 1 2 Vexub – Text-to-video AI generator. Vexub. 2025년 6월 25일에 확인함.
  67. 1 2 Runway Research | Gen-2: Generate novel videos with text, images or video clips (영어). runwayml.com. 2024년 8월 30일에 확인함.
  68. 1 2 Sharma, Shubham (2023년 12월 26일). Pika Labs' text-to-video AI platform opens to all: Here's how to use it (미국 영어). VentureBeat. 2024년 8월 30일에 확인함.
  69. 1 2 Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation (영어). runwayml.com. 2024년 8월 30일에 확인함.
  70. Meet Flow, AI-powered filmmaking with Veo 3. blogs.google.com. 2025년 5월 20일. 2025년 7월 6일에 확인함.
  71. Google Veo DeepMind. google.com. 2025년 7월 6일에 확인함.
  72. 1 2 Sora | OpenAI. openai.com. 2024년 8월 30일에 확인함.
  73. Nuñez, Michael (2025년 3월 31일). Runway Gen-4 solves AI video’s biggest problem: character consistency across scenes (미국 영어). VentureBeat. 2025년 7월 21일에 원본 문서에서 보존된 문서. 2025년 10월 17일에 확인함.
  74. Runway’s New Gen-4 AI System Promises the Most Predictable Media Creation Yet | No Film School (영어). nofilmschool.com. 2025년 10월 17일에 확인함.
  75. Wiggers, Kyle (2025년 3월 31일). Runway releases an impressive new video-generating AI model (미국 영어). TechCrunch. 2025년 10월 17일에 확인함.
  76. Mehta, Ivan (2025년 12월 16일). Adobe Firefly now supports prompt-based video editing, adds more third-party models (미국 영어). TechCrunch. 2026년 3월 7일에 확인함.
  77. Mehta, Ivan (2025년 12월 16일). Adobe Firefly now supports prompt-based video editing, adds more third-party models (미국 영어). TechCrunch. 2026년 3월 7일에 확인함.
  78. Ha, Anthony (2026년 2월 15일). Hollywood isn't happy about the new Seedance 2.0 video generator (미국 영어). TechCrunch. 2026년 3월 7일에 확인함.
  79. Ha, Anthony (2026년 4월 10일). Alibaba’s HappyHorse tops Seedance, offering glimpse into China’s race for AI talent (미국 영어). South China Morning Post. 2026년 4월 10일에 확인함.