어도비가 영상 업스케일이 가능한 AI ‘Video GigaGAN’을 발표했다고 과학기술매체 기가진이 전했다. VideoGigaGAN은 기존의 영상 업스케일 AI와 비교해 선명한 묘사가 가능할 뿐 아니라 프레임 간 흐트러짐도 억제할 수 있다고 한다.어도비는 Video GigaGAN의 성능을 보여주는 예로서 128×128 픽셀의 영상을 가로 세로 8배의 1024×1024 픽셀로 업스케일한 데모를 공개했다.위의 사진은 오리지날 영상(왼쪽)과 업스케일 후의 영상(오른쪽)을 크기를 갖춘 상태로 나열한 것이다. 고화질로 업스케일돼 있음을 알
애플 연구팀이 오픈소스 언어모델 ‘OpenELM(Open-source Efficient Language Models)’을 공개했다고 과학기술매체 기가진이 전했다. 공개된 모델에는 애플 디바이스에서 동작할 수 있도록 변환하는 코드도 준비돼 있어, 언어 모델을 애플 디바이스 상에서 로컬로 실행시킬 수 있다고 한다.OpenELM은 270M(파라미터 수: 2억 7000만), 450M(파라미터 수: 4억 5000만), 1_1B(파라미터 수: 11억), 3B(파라미터 수: 30억) 등 4개 모델로 구성된다. 오픈AI의 GPT-4나 애트로픽의
마이크로소프트가 작은 규모로 큰 성능을 발휘하는 언어 모델 ‘Phi-3’ 제품군을 출시했다고 과학기술매체 기가진이 전했다. 그 중에서도 가장 크기가 작은 Phi-3-mini는 오픈 모델로 무료로 상업적 사용이 가능하다고 한다.2023년 12월에 출시된 전 모델 ‘Phi-2’는 당시 최대 25배 크기의 모델과 동등 이상의 성능을 발휘할 수 있다고 했다.이번 ‘Phi-3’ 제품군 발표와 동시에 Phi-3 제품 중 크기가 가장 작은 모델인 38억(3.8B) 파라미터의 ‘Phi-3-mini’가 출시돼 애저(Azure) AI 모델 카탈로그에
AI는 다양한 분야에 진출하고 있으며, 물론 엔터테인먼트 업계에서도 활용하고 있다. 이런 가운데 각본부터 연출, 영상 제작까지 모두 AI를 이용한 영화가 처음으로 등장해 주목을 끈다.더 선에 따르면, 완전 생성 AI로 만든 기념비적인 첫 번째 작품의 제목은 ‘Next Stop Paris’로 파리를 배경으로 한 로맨스물이라고 한다. 스토리는 결혼식 날 신랑에게 버림받은 여자가 상심을 안고 파리로 향하는 기차 안에서 다른 남자를 만나 새로운 로맨스가 시작된다는 내용이다.이 영화는 이미지와 문장으로 동영상을 만드는 런웨이(Runway)
어도비는 미국 시간 4월 15일, 동영상 편집 소프트웨어 ‘어도비 프리미어 프로(Adobe Premiere Pro)’에 2024년 내에 새로운 생성 AI 기능을 추가한다고 발표했다고 C넷 등이 전했다.여기에는 동영상에 물체를 추가하거나 제거할 수 있는 ‘Object Addition & Removal’, 동영상을 길게 만들기 위해 프레임을 추가할 수 있는 ‘Generative Extend’, 텍스트나 참조 이미지에서 동영상을 생성해 스토리보드나 B-롤 제작에 도움이 되는 ‘Text to Video’가 있다.어도비는 또 생성 AI를 통
미국 텍사스대학교 오스틴 캠퍼스 연구팀이 훈련 데이터에 없는 작업을 수행하는 제로샷 학습(zero-shot learning)으로 음성 편집과 음성 합성이 가능한 AI ‘보이스크래프트(VoiceCraft )’를 발표했다고 과학기술매체 기가진이 전했다.이번에 발표된 ‘VoiceCraft’는 텍스트와 이미지의 멀티모달 모델에서 영감을 얻어 제로샷 학습으로 텍스트에서 음성 출력(Text-to-Speech)과 음성 합성, 음성 편집을 가능하게 한 뉴럴 코덱 언어 모델(Neural Codec Language Models)이다.VoiceCraf
SF의 세계에 나오는, 인간과 같은 성격을 지니고 인간처럼 사고하고 행동하는 AI의 개발이 활발하게 행해지고 있다.과학매체 Neuroscience News에 따르면, 일본 나고야대학 연구팀은 Chat(챗)GPT와 같은 생성 AI에 성격을 부여해 ‘죄수의 딜레마(prisoner’s dilemma)’ 게임을 하게 해 생존 경쟁을 벌이게 했다. 그러자 처음에는 이기적이고 자신의 이익만을 추구하던 AI그룹이 세대를 거치면서 서서히 팀워크를 중시하고 협조 마인드를 지닌 성격으로 진화하는 모습을 관찰하는 데 성공했다고 한다.죄수의 딜레마란?어
구글의 인공지능(AI) 연구소인 구글 딥마인드가 개발한 바둑 AI ‘알파고(AlphaGo)’는 2016년에 당대 세계 최고 기사인 이세돌 9단을 꺾는 등 괄목할 만한 성과를 거두었다. 이 바둑 특화 AI의 탄생으로 인간 바둑 기사들의 기력도 향상되고 있는 것으로 보고되고 있다고 과학기술매체 기가진은 보도했다.기가진이 인용한 스웨덴 작가 헨릭 칼슨(Henrik Karlsson)의 분석에 따르면, AI가 등장하기 전인 1950년대부터 2010년대 중반까지 바둑 프로기사들의 기력은 한계에 다다랐으며, 더 이상 발전할 수 없는 수준이었다.
마이크로소프트 위협분석센터(MTAC)가 지난 4일 중국이 AI 생성 콘텐츠를 악용해 미국, 한국, 인도의 선거를 방해할 계획이라는 내용의 보고서를 발표했다고 기가진이 전했다.이 보고서에 따르면, 중국은 가짜 SNS 계정을 이용해 유권자들에게 분열의 씨앗을 뿌리고 있으며, 이미 2024년 1월에 치러진 대만 총통 선거에서 AI 생성 콘텐츠를 통한 선거 방해 행위를 실행한 바 있다고 한다.MTAC는 2023년 9월 중국 정부가 2022년 미국 중간선거에 영향을 미치기 위해 중국 공산당 계열의 SNS 계정이 미국 유권자로 위장해 활동하고
페이스북, 인스타그램 등 SNS를 개발 및 운영하는 메타(Meta)가 AI가 생성한 동영상, 음악, 이미지 등의 콘텐츠에 ‘Made with AI’라는 라벨을 붙이겠다고 발표했다.메타는 페이스북이나 인스타그램과 같은 플랫폼의 콘텐츠 삭제 및 유지 결정을 내릴 때 잘못된 판단을 내리지 않기 위해 감독위원회라는 독립적인 판정 기관을 두고 있다. 이 회사는 “기존 콘텐츠를 보다 광범위하게 반영하고 라벨을 통해 콘텐츠에 대한 맥락을 제공하기 위해 접근 방식을 업데이트할 필요가 있다”는 감독위원회의 피드백을 바탕으로 페이스북, 인스타그램,
광학 위장이라는 기술은 이미 영화나 만화, 게임에서는 익숙한 기술이지만, 현실 세계에서도 이 기술을 실현하려는 시도가 계속되고 있다. 그 중 하나가 투명 방패(Invisibility Shield)라는 제품인데, 이 입방체의 방패는 배경과 동화되어 뒤에 들어간 사람의 모습을 사라지게 한다.런던에 기반을 둔 기업 ‘인비저빌러티 쉴드('Invisibility Shield)’는 전작 투명 쉴드를 수년 만에 업그레이드 한 ‘Invisibility Shield 2.0’을 발표했다고 과학기술매체 New Atlas가 전했다.이 버전에서는 이전보다
대화형 AI(인공지능) ‘Chat(챗) GPT’의 개발사인 미국 스타트업 오픈AI는 29일(현지 시간) 사람의 목소리를 재현하는 생성 AI를 개발했다고 발표했다. 15초 분량의 음성 샘플을 불어넣고 문자를 입력하면 화자와 똑같은 음성을 합성할 수 있다. 모국어가 아닌 외국어로 교체도 할 수 있다.니혼게이자이신문 보도에 따르면, 이번에 개발된 것은 ‘보이스 엔진(Voice Engine)’이다. 오픈AI는 2022년 하반기 음성 AI를 개발했고, 이미 챗 GPT에도 음성 입출력 기능을 탑재했다. 합성 음성 기술을 발전시켜 보다 사실적인
미국 매사추세츠공과대학(MIT) 연구팀이 DALL-E 3와 Stable Diffusion과 같은 인기 있는 이미지 생성 AI의 확산 모델을 단순화하여 생성되는 이미지의 품질을 유지하면서 생성 속도를 최대 30배까지 가속화하는 기술을 공개했다고 과학기술매체 Live Science가 보도했다.대부분의 이미지 생성 AI에 사용되는 확산 모델은 어떤 이미지인지 설명하는 캡션이나 메타데이터가 붙은 이미지를 학습 데이터로 사용해 텍스트 프롬프트에서 정확한 이미지를 생성할 수 있도록 훈련된다.이 과정에서 확산 모델은 먼저 무작위 이미지를 노이즈
Chat(챗)GPT 개발사인 오픈AI는 텍스트 입력을 통해 고화질의 동영상을 생성하는 AI ‘Sora’도 개발하고 있다. 최근 이 Sora로 생성한 동영상 실례를 대량 공개했다.Sora는 텍스트 입력만으로 최장 1분간의 동영상을 생성할 수 있는 AI다. 동영상 생성 시 물리법칙을 시뮬레이션 하는 것이 특징으로, 피사체를 위화감 없이 움직이거나 카메라 앵글을 역동적으로 변화시킬 수 있다.과학기술매체 기가진에 따르면, 오픈AI는 이미 여러 아티스트를 대상으로 Sora의 시험 버전을 제공하고 있으며, 아티스트의 피드백을 통해 그 개발을
구글 연구팀이 사진 1장과 음성을 입력함으로써 음성에 맞춰 손짓 발짓을 섞어 말하는 리얼한 동영상을 생성할 수 있는 AI 프레임워크 ‘VLOGGER’를 발표했다고 과학기술매체 기가진이 보도했다.이 보도에 따르면, 구글 리서치에서 인체 3D와 생성 AI 연구를 하고 있는 엔릭 코로나 이끄는 연구팀은 확산 모델이라 불리는 기계학습 모델의 일종을 활용해 ‘VLOGGER’를 개발했다.VLOGGER에서 동영상을 생성하기 위해서 필요한 것은 기본이 되는 이미지 데이터와 거기에 맞춘 음성 데이터다. 최초의 네트워크에서는 음성 데이터로부터 취득된
미국 신문사 뉴욕타임스(NYT)가 인공지능(AI) 기업 오픈AI를 저작권 침해로 고소한 문제를 둘러싸고 양사의 공방이 격렬해지고 있다. 오픈AI는 NYT의 증거 중 일부가 부정확하다며 소송 취하를 요구했지만, 이에 대해 NYT는 “오픈AI의 주장은 잘못됐다”고 반박하고 있는 것으로 알려졌다.니혼게이자이신문 보도에 따르면, 오픈AI는 2월 말 제출된 증거는 “NYT가 보수를 주고 고용한 사람이 오픈AI의 제품을 해킹해 얻은 것”이라며 법원에 소송 일부를 기각해달라고 요청했고, NYT는 3월 11일 “(오픈AI의 주장은) 해킹이라는 단
최근 영국 런던에 있는 크롬웰 병원에서 두 건의 척수 수술에 애플의 VR 헤드셋 ‘애플 비전 프로(Vision Pro)가 사용됐다. 수술에 입회한 의사들로부터는 “혁명적인 툴”이라는 호평이 나왔다고 IT정보매체 기즈모도는 전했다.보도에 따르면, 애플 비전 프로를 수술 중에 장착하고 있던 사람은 담당 의사가 아니라 수술 보조 의사. 애플 비전 프로를 통해서, 수술실내에 표시된 버추얼 스크린으로 수술 상황의 진척을 모니터링하거나 수술 툴을 선택하기도 했다.수술에 사용된 소프트웨어는 수술용 AI(인공지능) 앱을 제공하는 eXeX가 개발했
생성 AI(인공지능)를 개발하는 미국 스타트업 오픈AI는 13일(현지 시간), 프랑스 르몽드와 제휴한다고 발표했다. 대화형 AI ‘Chat(챗) GPT’가 기사 데이터를 학습해 기사를 요약하는 업무에서의 협력이라고 한다. 금전적인 측면 등 계약의 구체적인 내용은 밝히지 않았다고 니혼게이자이신문은 전했다.오픈AI는 르몽드 외에 스페인 언론매체 엘 파이스 등의 발행사 프리사와도 제휴했다. 기사 요약은 몇 달 안에 사용할 수 있게 된다. 이용자가 최신 소식을 물어보면 챗GPT가 요약 본을 작성한다. 회답에는 출처와 원래의 기사로 유도하는
최근 실생활에 활용되는 인공지능 모델이 시간이 지남에 따라 성능이 점차 떨어지는 현상이 다수 발견되었고, 이에 따라 지속가능한 인공지능 학습 기술에 대한 필요성이 커지고 있다. AI 모델이 꾸준히 정확한 판단을 내리는 것은 더욱 안전하고 신뢰할 수 있는 인공지능을 만들기 위한 중요한 요소이다. KAIST는 전기및전자공학부 황의종 교수 연구팀이 시간에 따라 데이터의 분포가 변화하는 드리프트 환경에서도 인공지능이 정확한 판단을 내리도록 돕는 새로운 학습 데이터 선택 기술을 개발했다고 14일 밝혔다. 최근 인공지능이 다양한 분야에서 인간
유럽연합(EU) 입법기관인 유럽의회는 13일 세계 최초로 포괄적인 인공지능(AI) 규제 법안을 통과시켰다고 경제지 포브스 등이 전했다.EU의 AI법에서는 중요한 인프라나 의료기기에 이용되는 고위험 AI 시스템은 보다 엄격한 규제의 대상이 돼, ‘리스크의 평가와 억제’, 데이터 이용에 관한 투명성, 인간에 의한 감시 철저가 요구된다.학교나 직장에서의 감정인식 시스템 등 일부 AI 애플리케이션은 ‘시민의 권리를 위협한다’는 이유로 전면 금지된다.공공장소에서 사람들을 식별하는 데 사용되는 생체인증 시스템은 법 집행기관이 인신매매나 성적