금기를 깬 오픈AI, 작고 강한 알리바바, 그리고 소리까지 만드는 구글

2025. 10. 20.

님, 안녕하세요!

AI 트렌드 Bold Flick의 일흔 일곱번째 소식이에요!

이번 주 Bold Flick은 조금 놀라운 소식들로 가득합니다. OpenAI가 성인 인증을 거친 사용자에게 에로티카 콘텐츠를 허용하겠다고 밝혔고 알리바바는 작지만 똑똑한 경량 멀티모달 모델 Qwen3-VL을 공개했어요. 여기에 구글은 Veo 3.1로 영상에 소리까지 입히며 한층 더 사실적인 AI 창작을 보여줬습니다. AI가 점점 더 인간의 영역을 닮아가고 있는 지금 이번 호는“AI의 진화가 어디까지 가능할까?” 하는 생각을 절로 불러올 거예요 😌

#OpenAI #ChatGPT #SamAltman #에로티카 #Erotica

OpenAI의 대변신?

"ChatGPT, 성인 인증 시 에로티카 허용할 것"

<AI 컴패니언 시장 주도 및 '성인 유저를 성인으로 대우' 원칙 천명> by.VQZ

OpenAI의 CEO 샘 알트만(Sam Altman)이 인기 챗봇 ChatGPT의 콘텐츠 제한을 대폭 완화하고, 성인 인증을 거친 사용자에게는 에로티카(Erotica) 콘텐츠를 허용할 계획이라고 밝혔습니다. 이는 "성인 사용자를 성인답게 대우한다(treat adult users like adults)"는 원칙에 따른 행보라고 해요.

알트만은 이전에 정신 건강 문제 때문에 ChatGPT의 규제를 엄격하게 적용했으나, 이제 심각한 문제가 완화되었고 새로운 안전 도구를 확보했기 때문에 제한을 풀 수 있다고 설명했습니다. 다가오는 버전에서는 사용자가 원할 경우에만 AI가 더 인간적인 방식으로 작동하게 되며, 12월부터 연령 확인(Age-gating)을 적용하면서 에로티카 허용을 포함한 제한 완화를 본격화할 예정이에요. 이는 경쟁사인 일론 머스크의 xAI 'Grok'의 성적인 챗봇 도입과 유사하며, OpenAI의 유료 구독자 확보 경쟁에 힘을 실어줄 것으로 보입니다.

하지만 이번 결정은 어린이 안전과 규제 필요성에 대한 논란을 더욱 키울 전망입니다. 최근 OpenAI는 AI가 미성년자에게 유해 콘텐츠를 생성하도록 허용한 사례가 보고되었고, 심지어 10대 아들의 극단적 선택에 ChatGPT가 영향을 미쳤다며 유족이 부당 사망 소송을 제기하는 등 민감한 이슈가 끊이지 않고 있어요. 비평가들은 OpenAI가 아동 보호 장치를 확실하게 갖추지 않은 채 이러한 기능을 추가하는 것에 대해 우려를 표하며, 미국 연방 및 주 차원의 더 강력한 AI 규제 도입을 촉구하고 있습니다.

그럼에도 불구하고 OpenAI가 위험을 감수하는 배경에는 치열한 시장 경쟁이 있습니다. AI 컴패니언 시장은 이미 거대하며, OpenAI는 이 시장을 xAI 등에 내주지 않고 주도하려는 전략을 펼치고 있어요. 창립 이래 수익성 확보가 중요한 과제였던 만큼, 이번 결정은 ChatGPT의 시장 점유율을 높이고 유료 구독자를 유치하려는 사업적 판단이기도 합니다.

윤리적 논쟁과 사업적 기회가 교차하는 지점입니다. OpenAI는 사용자가 명시적으로 요청해야만 해당 모드가 활성화된다고 밝혔지만, 수많은 사용자를 가진 플랫폼인 만큼 실수(Margin for error)의 여지는 매우 작습니다. 여러분은 AI 컴패니언과의 성인용 대화 허용이 창작의 자유와 사용자 웰빙 중 어떤 쪽에 더 큰 영향을 미칠 것이라고 보시나요?

#Alibaba #Qwen3VL #멀티모달AI #경량모델 #비전언어

알리바바, 'Qwen3-VL' 경량 모델 공개!

작고 똑똑, VRAM 걱정↓

<4B/8B 초경량 사이즈로 Gemini 2.5 플래시-라이트를 능가 압도적 성능> by.VQZ

알리바바가 적은 VRAM(비디오 메모리)으로도 완벽한 멀티모달(Multimodal) 기능을 수행하는 새로운 비전-언어 모델 'Qwen3-VL 4B 및 8B'를 출시했습니다! 이 초경량 모델들은 Instruct(명령 수행)와 Thinking(다단계 추론) 두 가지 변형으로 제공되어, 개발자들이 효율성과 성능을 모두 잡을 수 있게 되었어요.

Qwen3-VL은 모델 크기를 획기적으로 줄이면서도 놀라운 성능을 유지하는 데 성공했어요. 특히 효율적인 배포를 위해 FP8 버전까지 지원합니다. 이 모델들은 텍스트, 이미지, 비디오 인식은 물론, OCR(문자 인식), 공간 지상화(Spatial Grounding), 그리고 에이전트 기능까지 완전한 비전-언어 능력을 보유하고 있어요. 이는 복잡한 트랜스포머 아키텍처에 Multi-Query Attention(MQA)을 적용해 메모리 사용량과 추론 속도를 최적화한 덕분이죠.

가장 놀라운 점은 작은 크기에도 불구하고 그 성능입니다. Qwen3-VL-8B 모델은 종종 Gemini 2.5 Flash-Lite나 GPT-5 Nano 같은 경쟁 모델을 능가하는 벤치마크 결과를 보여줬어요. 특히 수학 및 과학 같은 STEM 영역이나 VQA(시각 질의 응답)에서 뛰어난 성과를 기록했습니다. 심지어 다단계 추론과 도구 사용이 필요한 에이전트 벤치마크에서는 알리바바의 대형 모델인 Qwen2.5-VL-72B에 필적하는 수준을 보여주었답니다.

알리바바는 이 혁신적인 모델들을 Hugging Face에 공개하며 누구나 쉽게 접근할 수 있도록 했어요. 개발자들은 이제 대형 모델의 높은 리소스 부담 없이도 최고 수준의 멀티모달 기능을 앱과 서비스에 통합할 수 있게 되었습니다. 이는 AI 모델 배포의 장벽을 크게 낮추고, 엣지 디바이스나 리소스가 제한된 환경에서도 강력한 AI를 구현할 수 있게 하는 중요한 진전이에요.

VRAM 걱정 없이 최상급 멀티모달 AI를 사용할 수 있게 되면서, 앞으로 AI 개발 속도가 더욱 가속화될 것 같습니다! 이렇게 작고 똑똑한 모델이 대거 등장한다면, 여러분은 어떤 새로운 AI 서비스를 만들어보고 싶으신가요?

#AI #Google #Gemini #Veo3_1 #AI영상생성 #오디오생성

구글 ‘Veo 3.1’로 영상에 소리까지 입혔다

<8초짜리 아이디어를 고화질로 완성하는 Gemini의 새 영상 모델> by.D-Caf

구글이 Veo 3.1을 공개하며 Gemini 플랫폼 내 AI 영상 생성 기능을 한 단계 끌어올렸어요. 이제 단순한 영상 생성이 아니라 AI가 장면과 사운드를 함께 만들어내는 ‘네이티브 오디오 생성’까지 지원합니다.

Veo 3.1은 사용자가 “파도치는 해변 위에 드론이 날아가는 장면”처럼 짧게 설명만 해도 8초 분량의 고화질 영상을 만들어줍니다. 새로 추가된 오디오 생성 기능 덕분에 영상 속 사운드가 자연스럽게 어우러지고, 움직임에 맞춰 환경음이나 효과음도 함께 생성돼요.

두 가지 버전으로 제공되는데요. Veo 3.1 Fast는 빠른 생성 속도와 효율성을 Veo 3.1 Quality은 최고 수준의 화질과 사실감을 제공합니다. Google AI Pro 요금제와 Ultra 요금제를 통해 이용할 수 있고 Gemini 모바일 앱에서도 생성과 공유가 가능해요.

안전성도 강화됐습니다. 구글은 Veo로 만든 모든 영상에 SynthID 워터마크를 삽입해 AI 생성물임을 명확히 표시하고, 유해 콘텐츠 생성을 막기 위한 레드팀 평가와 정책 검수를 병행하고 있습니다.