님, 안녕하세요!
AI 트렌드 Bold Flick의 예순 한 번째 소식이에요!
이번 주도 신기술이 줄줄이 쏟아졌습니다. 모바일에서 돌아가는 멀티모달 AI, 터미널에서 코딩까지 척척 해내는 개발자 에이전트, 그리고 말 한 마디면 일을 대신해주는 음성 비서까지! AI는 이제 화면 속이 아니라 손 안에서 말하고 실행하는 시대에 접어들고 있어요.
커피 한 잔 들고 천천히 둘러보세요! ☕️
|
|
|
#Google #Gemma3n #온디바이스AI #멀티모달AI #모바일AI #EdgeAI #모바일넷V5
구글, Gemma 3n 공개로 모바일 AI의 새로운 기준 제시
|
|
|
<최소 2GB RAM에서도 구동되는 강력한 멀티모달 모델?> by.VQZ
|
|
|
구글이 자사의 최신 멀티모달 온디바이스 AI 모델인 Gemma 3n을 공개했어요. 이 모델은 텍스트뿐 아니라 이미지, 오디오, 비디오까지 다루는 능력을 갖추고 있으며, 고작 2GB의 RAM만 있어도 작동할 수 있을 만큼 경량화에 성공했어요.
Gemma 3n은 두 가지 크기의 모델로 제공되며(E2B, E4B), 효율성과 성능의 균형을 고려한 새로운 아키텍처 MatFormer를 도입해 다양한 기기 환경에서도 유연하게 작동할 수 있도록 설계되었어요. 특히 Google Pixel에 탑재되면 초당 60프레임으로 실시간 비디오 분석이 가능할 정도의 성능을 보여줘요. |
|
|
음성 기능도 주목할 만해요. 35개 언어의 자동 음성 인식 및 번역이 가능하며, 텍스트와 멀티모달 처리에서 140개 이상의 언어를 지원해요. 또, 새로 개발된 MobileNet-V5 비전 인코더는 전작 대비 정확도는 물론 속도와 효율성도 향상돼, 모바일 환경에서의 영상 이해 능력을 크게 끌어올렸어요.
Gemma 3n은 출시와 함께 Hugging Face, Ollama, llama.cpp 등 다양한 플랫폼과 오픈소스 도구에서도 바로 활용할 수 있어요. 구글은 이를 활용한 Gemma Impact Challenge도 진행 중이며, 커뮤니티의 혁신적인 활용 사례를 기다리고 있다고 해요.
작고 가볍지만 결코 약하지 않은 이 모델은 AI의 대중화를 넘어, 모든 디바이스에 지능을 실어 나르는 새로운 기준이 될지도 몰라요. |
|
|
#GeminiCLI #구글AI #오픈소스AI #터미널AI #Gemini2.5Pro #코딩보조
구글, 오픈소스 AI 터미널 도구 'Gemini CLI' 공개
|
|
|
<이제 터미널 환경에서도 Gemini 2.5 Pro를 만난다> by.VQZ
|
|
|
구글이 개발자 전용 AI 에이전트 ‘Gemini CLI’를 오픈소스로 공개했어요. 이 도구는 개발자의 터미널 환경에서 바로 Gemini 2.5 Pro 모델을 사용할 수 있도록 해주며, 하루 1,000회 요청과 분당 60회 요청이라는 관대한 무료 사용 한도를 제공합니다. 특히 Gemini Code Assist와의 통합을 통해 VS Code와 CLI 양쪽에서 동일한 AI 지원을 받을 수 있어요.
Gemini CLI는 단순한 코딩 보조를 넘어서, 파일 조작, 명령어 실행, 문제 해결, 리서치, 멀티미디어 생성(Imagen, Veo 연동 포함) 등 다양한 기능을 지원해요. 기본적으로 Google Search 연동, MCP 프로토콜 지원, GEMINI.md를 통한 프로젝트별 세팅도 가능해 사용자의 워크플로우에 맞는 커스터마이징도 용이해요.
|
|
|
Apache 2.0 라이선스 기반으로 누구나 코드 리뷰 및 개선에 참여할 수 있으며, 사용자와 팀 단위 설정을 지원하는 확장성도 갖추고 있어요. 특히, 내부적으로는 MatFormer 아키텍처와 함께 동작하는 Gemini Code Assist의 '에이전트 모드'를 통해, 자동 문제 해결, 테스트 작성, 기능 확장 등을 다단계로 처리하는 협업형 AI도구로 발전하고 있어요.
오픈소스 공개와 무료 라이선스를 앞세운 Gemini CLI는 OpenAI나 Anthropic과 같은 유료 경쟁사들에 대한 구글의 전략적 대응으로 보이며, 기업 보안 우려까지 해소할 수 있는 구조라는 점에서 많은 개발자들의 워크플로우를 구글 생태계로 유도할 수 있을 전망이에요.
|
|
|
#AI #음성비서 #일레븐랩스 #업무자동화 # 실행형AI
목소리만으로 일 시키는 시대
|
|
|
<ElevenLabs, ‘11ai’ 음성 비서 공개… MCP 기반 실무형 AI 등장> by.D-Caf
|
|
|
“AI야, 오늘 미팅 정리 좀 해줘.” 이제 이런 말이 현실이 됐습니다. ElevenLabs가 새롭게 선보인 실험적 알파 모델 ‘11ai’는 단순히 말하는 AI가 아니라, 실제 업무까지 처리해주는 음성 비서입니다.
Perplexity, Notion, Linear, Slack 같은 도구와 연결돼서 그야말로 “말하면 실행”되는 세상이 열리고 있어요. |
|
|
어떤 기능이 들어있냐고?
‘11ai’는 단순히 질문에 답하는 정도에서 그치지 않아요. 이번 모델은 Anthropic의 MCP(Model Context Protocol)를 기반으로 작동하는데요 이걸 통해 다양한 실무 툴과 자연스럽게 연결됩니다. Perplexity, Linear, Notion, Slack 같은 협업 툴과 연동해서 음성 명령만으로 업무를 처리할 수 있어요. 예를 들어 “노션에 회의 요약 정리해줘”라고 말하면 진짜로 정리해서 올려줍니다. 개발자는 직접 커스텀 MCP 서버를 붙여서 내부 시스템과 연동하거나 워크플로우를 설계할 수도 있죠. |
|
|
목소리도 내 스타일로
이 음성 비서, 단순히 기능만 뛰어난 게 아닙니다. 무려 5,000개 이상의 다양한 보이스 옵션을 제공하고요, 심지어 음성 클로닝 기능도 있어요. 내 목소리를 그대로 복제해서 마치 내가 직접 말하는 것처럼 AI가 응답하는 것도 가능하죠. AI 비서를 내 목소리로 부를 수 있다는 거 이거 꽤 멋진 경험일걸요? |
|
|
지금은 공짜예요!
지금 ‘11ai’는 무료 알파 테스트 단계에 있어요. ElevenLabs 측은 당분간 누구나 사용할 수 있도록 열어두고 있고 유저 피드백을 적극 반영해 모델 완성도를 높이겠다는 계획이에요. 다양한 툴과의 연결성과 음성 명령 처리의 자연스러움 전부 다 체험해볼 수 있는 기회니까 관심 있는 분들은 지금 써보는 게 딱이에요. |
|
|
왜 중요한 소식일까?
사실 지금까지 우리가 알고 있던 음성 비서는 대부분 “오늘 날씨 어때?”나 “음악 틀어줘” 수준이었죠. 하지만 ElevenLabs의 11ai는 그 이상을 넘어섰습니다. 이제는 진짜로 업무를 수행하는 비서가 되어가는 중이에요. Slack, Notion처럼 많이 쓰는 툴들과 직접 연결되고 복잡한 요청도 똑똑하게 알아듣고 처리해주는 것. 음성만으로 일하고 정리하고 보고까지 가능한 세상 진짜 가까워지고 있는 겁니다.
‘11ai’는 단순한 말 잘하는 AI가 아니라 말을 알아듣고 일을 직접 처리하는 실무형 비서입니다. 이제는 Siri, Alexa 시대는 지나가고 “실행형 음성 비서”의 시대가 도래한 거죠.
말 한 마디면 회의 요약도, 업무 등록도, 메모도 끝! AI 비서를 진짜 비서처럼 쓸 수 있는 미래 그 첫 번째 장면이 ElevenLabs의 11ai일지 모릅니다.
오늘도 “AI야 할 일 정리해줘” 한마디로 하루 시작해보는 건 어때요?
|
|
|
오늘의 'Bold Flick'은 여기까지!
다음 뉴스레터에서는 더욱 놀랍고 흥미로운 AI 소식으로 찾아뵐게요.
언제나 Bold Flick을 사랑해주셔서 감사합니다! 💙
궁금한 점이 있거나 더 알고 싶은 주제가 있다면 언제든 말씀해 주세요.
여러분의 피드백이 저희에게 큰 힘이 된답니다!
|
|
|
|