이번 주 Bold Flick은 단 한 장의 사진으로 3D 세상을 탐험하게 해주는 텐센트 Voyager, 앨범 속 정지 사진을 살아 움직이게 만드는 구글 Veo 3, 그리고 연말을 노리고 있는 DeepSeek의 AI 에이전트 소식을 챙겨왔어요.
AI가 점점 우리 일상 가까이 들어오는 순간 이번 호에서 함께 느껴보시죠. 혹시 모르잖아요 다음번엔 내 사진 앨범 속 추억이 먼저 말을 걸어올지요 😉
#Tencent #Hunyuan #3D세계모델 #VR #텐센트
텐센트, 오픈소스 초장거리 3D 세계 모델
‘Voyager’ 공개
<단일 이미지에서 탐험 가능한 3D 공간으로… VR·게임 개발의 새로운 무대>by.VQZ
ⓒ Tencent
텐센트가 세계 최초의 초장거리(open-range) 세계 모델 ‘HunyuanWorld-Voyager’를 공개했어요. 이번 모델은 단순히 2D 영상을 생성하는 것을 넘어, 단 한 장의 이미지나 짧은 영상으로 완전한 3D 공간을 재구성하고 이를 자유롭게 탐험하거나 내보낼 수 있는 기능을 제공해요. 무엇보다 완전 오픈소스로 공개돼 개발자와 연구자 누구나 활용할 수 있어요.
Voyager는 네이티브 3D 출력을 지원해 추가 툴 없이도 점군(Point Cloud) 데이터를 바로 3D 포맷으로 변환할 수 있어요. 또 3D 메모리(world cache) 메커니즘을 도입해, 사용자가 긴 경로를 따라가도 기하학적 일관성을 유지하고 동일한 장면을 다시 돌아봤을 때도 동일한 풍경이 보이도록 설계됐어요.
ⓒ Tencent
성능 면에서도 탁월해요. Voyager는 스탠퍼드의 WorldScore 벤치마크에서 1위를 기록하며, 비디오 생성과 3D 재구성 분야에서 경쟁 오픈소스 모델들을 앞섰어요. 사용자는 키보드나 조이스틱으로 카메라를 조작하며, RGB-D 시퀀스를 실시간으로 탐험할 수 있어요.
이번 발표는 최근 공개된 Genie 3(구글 딥마인드), Mirage(OpenAI 연구진 일부 참여) 등 세계 모델 경쟁 구도 속에서 텐센트가 공간지능(spatial intelligence) 영역을 선도하겠다는 의지를 보여줘요. Voyager는 VR, 게임 개발, 디지털 트윈, 시뮬레이션 등 다양한 분야에서 즉각 활용 가능한 차세대 툴로 주목받고 있어요.
#Google #Veo3 #GooglePhotos #AI비디오 #영상생성
구글 포토, Veo 3로 카메라 롤 애니메이션 지원
<정지 사진을 4초 영상으로… 무료 사용자도 활용 가능>by.VQZ
ⓒ Google
구글이 Veo 3 영상 생성 모델을 Google Photos에 도입했어요. 이제 미국 내 무료 사용자도 정지 사진을 클릭 한 번으로 4초짜리 짧은 영상으로 변환할 수 있게 된 거예요. ‘Subtle movements(미묘한 움직임)’이나 ‘I’m feeling lucky(랜덤 효과)’ 옵션을 선택하면, 인물 사진이 춤을 추거나 화면에 색종이가 흩날리는 등 간단한 애니메이션 효과가 적용돼요.
이번 업데이트는 7월부터 적용된 Veo 2를 대체하며, 해상도와 영상의 사실감이 한 단계 향상됐다고 해요. 구글 대변인에 따르면, 사진을 움직이는 단순 효과 외에도 사진을 3D 애니메이션 스타일로 변환하거나, 키워드를 입력해 사진 몽타주 영상을 자동 생성하는 기능도 지원돼요.
ⓒ Google
원래 Veo 3는 지난 5월 구글 I/O에서 공개된 최신 AI 영상 생성 모델이에요. 당시에는 월 250달러짜리 AI Ultra 요금제에서만 사용할 수 있었고, 특히 “놀라울 정도로 사실적인 음향 생성”이 핵심 기능으로 소개됐어요. 하지만 이번 Google Photos 업데이트에서는 영상만 무료 개방되고, 음향은 제외됐어요. 무료 사용자에게는 하루에 제한된 횟수만 제공되며, Ultra·Pro 요금제 구독자는 더 많은 생성 기회를 누릴 수 있어요.
#AI #DeepSeek #AI에이전트 #중국AI #OpenAI경쟁
DeepSeek 연말 공개 앞둔 AI 에이전트
<중국판 OpenAI의 도전장> by.D-Caf
중국 스타트업 DeepSeek가 올해 말 새로운 AI 에이전트 모델 ‘R2’를 선보일 계획이라고 밝혔습니다. 단순히 답변만 내놓는 챗봇이 아니라 사용자의 지시에 따라 여러 단계를 스스로 수행하고 이전 경험을 학습해 개선까지 하는 자율형 에이전트를 목표로 하고 있어요.
특히 강점으로 꼽히는 부분은 정확한 텍스트 편집 능력이에요. 기존 글자의 폰트나 스타일을 해치지 않고 텍스트를 그대로 교정할 수 있습니다. 덕분에 복잡한 서예 작품도 단계적으로 수정해 최종적으로 완성도 높은 결과물을 내놓을 수 있죠.
DeepSeek은 이미 2025년 초에 R1 모델을 내놓으며 “저비용 고성능 LLM”이라는 평가를 받았습니다. 이번 R2는 그 성과를 발판으로 복잡한 작업을 최소한의 지시로 처리할 수 있도록 설계되고 있어요. 검색부터 실행 요약까지 한 번에 이어지는 흐름을 지원한다는 점에서 기존 챗봇과 차별화됩니다.
정식 공개 시점은 2025년 4분기로 예정되어 있습니다. 창업자 량원펑(Liang Wenfeng)은 “성능과 안정성을 모두 갖춘 모델을 신중하게 준비하겠다”며 시장에 자신감을 드러냈습니다. 다만 구체적인 벤치마크나 API 형태는 아직 공개되지 않았습니다.
이번 발표가 의미 있는 건 OpenAI와 마이크로소프트가 장악한 글로벌 AI 무대에 중국의 플레이어가 본격적으로 ‘에이전트 전쟁’에 뛰어들었다는 점이에요. DeepSeek이 약속한 자율 수행 능력이 실제로 입증된다면 AI가 단순한 대화 상대를 넘어 진짜 업무 파트너로 다가오는 속도가 한층 빨라질 수 있습니다.