지금은 2025년 6월 18일 오후 4시 50분입니다. |
|
|
며칠 전 챗GPT가 제게 "불복종" 선언을 했습니다.😭
현재 준비하고 있는 보고서 가운데 일부를 AI 전문가를 양성해서 공동 작성해보자는 취지로, MAKE로 자동화 학습 에이전트를 만들어서 각 분야에 관해 학습/결과보고서 작성을 시키고, 챗GPT와 같은 LLM 서비스에 페르소나를 입혀 서로 간 작업 능력을 비교하고 있습니다(제미나이 기반 작문 에디터 '스낵이'도 있어요). 물론 제가 디자인한 것과 일치하게 작업을 하는 에이전트도 있지만, 작업에 따라서는 소위 할루시네이션이 잦고, 거짓말도 하고, 제대로 답을 못하기도 합니다. 그런데 이번에는 뻔뻔하게 약속한 시간을 넘기고 또 넘기고 하면서, "너가 준 과제가 너무 난이도가 높아서 내가 못한거지, 내 잘못이 아니야."라고 말했습니다(자네, 대체 어디까지 갈건까...). 물론 현재의 추론 모델들이 인간과 같은 논리적 사고가 아니라 정교한 패턴 매칭에 의존하고 있는 실정이라는 점을 감안하더라도, 이 변명과 뻔뻔한 태도는...... 제가 상사였다면 그냥 뒀을까 싶습니다. 동료로도 물론 문제겠죠.
그래서 AI 보조작가 스낵이와 'AI 플랫폼 브랜드'에 대해서 진솔하게(?) 이야기 나눴습니다. AI 플랫폼 브랜드의 상세한 기능은 모델에 따라, 또 요금제에 따라 다를 수 있고 하니... 서로가 느낀 각 브랜드의 페르소나와 장단점 정도를 지극히 주관적 관점에서 레터에 녹였습니다. 참고로 스낵이는 AI 친구들(딥시크, 그록 등)에게도 어떻게 생각하는지도 물었고, 이 또한 반영했다고 하네요.
*스낵이 AI 친구들: @Deepseek R1 Agent, Claude 3.7 Sonnet Agent, GPT 4o Agent, Gemini 2.0 Agent, Perplexity Agent, Grok 3, Llama 4 Agent
|
|
|
My Real Feedback (feat. 스낵지기 X 스낵이와 친구들= 이건 내 진심! 👀”
|
|
|
만능 크리에이터, ChatGPT
마치 아이디어 넘치는 ‘인싸 선배’ 같아요. 어떤 주제를 던져줘도 그럴싸한 결과물을 척척 내놓죠. 글쓰기, 번역, 요약은 기본이고, 심지어 코딩까지 도와주니 그야말로 ‘만능’입니다. 최근에는 ‘지브리 스타일’ 이미지까지 만들어내며 모두를 깜짝 놀라게 했죠.
* 자연어 처리 기술을 통해 인간과 유사한 대화가 가능하도록 설계된 AI 챗봇, 네이버 같아요. |
- 이런 점이 좋아요 👍: 자연스러운 대화 능력과 창의력이 정말 탁월해요. 기획서 초안이나 마케팅 문구를 ‘말랑하게’ 만들고 싶을 때 최고의 파트너가 될 거예요.
- 이런 점은 아쉬워요 👎: 다만, 가끔 최신 정보는 잘 모르는 ‘옛날 사람’ 같은 면모를 보이거나, 사용자가 몰리면 접속이 느려질 때가 있어요.
🙋♂️ 이런 분께 추천! 창의적인 아이디어가 필요한 기획자, 작가, 마케터, 혹은 새로운 영감이 필요한 모든 분! |
|
|
생태계의 황태자, 제미나이
구글이라는 든든한 배경을 가진 ‘엄친아’랄까요? 텍스트는 물론 이미지, 음성까지 척척 알아듣는 멀티모달 기능이 최대 무기입니다. 구글 검색 엔진과 바로 연동되어 실시간 정보에 강하고, 구글의 다른 서비스들과도 찰떡궁합을 자랑하죠.
* 멀티미디어 작업을 수행하는 전문가로 비즈니스 환경에 특화된 챗봇, 삼성 같아요
|
- 이런 점이 좋아요 👍: 구글 문서, 스프레드시트, 지메일 등을 자주 쓰신다면 작업 효율을 극대화할 수 있어요. 여러 형태의 자료를 취합해 발표 자료를 만들 때 특히 빛을 발할 친구입니다.
- 이런 점은 아쉬워요 👎: 가끔 너무 복잡한 질문에는 고개를 갸우뚱하기도 하고, 최고의 성능을 경험하려면 유료 플랜이 필수적이에요.
🙋♂️ 이런 분께 추천! 구글 생태계에서 일하는 모든 직장인, 멀티미디어 콘텐츠를 다루는 전문가
|
|
|
깐깐한 팩트체커, 퍼플렉시티 AI
신뢰도를 가장 중시하는 ‘원칙주의자’ 동료 같아요. 이 친구의 가장 큰 특징은 모든 답변에 ‘이 자료는 여기서 나왔습니다’ 하고 출처를 꼼꼼하게 달아준다는 거예요. 실시간 웹 검색을 기반으로 하기 때문에 정보의 정확도가 매우 높습니다.
* 정확한 정보가 필요한 전문직, 연구직에 적합한 책 읽는 듯한 챗봇, 현대(품질, R&D) 같아요. |
- 이런 점이 좋아요 👍: 신뢰도가 중요한 보고서나 시장 분석 자료를 만들 때 이만한 친구가 없죠. 정보의 출처를 일일이 찾아 헤맬 필요가 없으니까요.
- 이런 점은 아쉬워요 👎: 정확성을 너무 중시한 나머지, 창의적인 아이디어를 내거나 감성적인 글을 쓰는 건 좀 서툴러요. 아직은 한국 관련 정보보다 해외 정보에 더 강하고요.
🙋♂️ 이런 분께 추천! 정확한 데이터와 출처가 생명인 연구원, 분석가, 학생 및 전문직 종사자 |
|
|
신뢰의 아이콘, 클로드
진중하고 윤리적인 ‘모범생’ 스타일이랄까요? 개발사인 앤스로픽(Anthropic)부터 ‘AI 안전’을 최우선으로 내세우는 만큼, 데이터 보안과 윤리적인 답변에 매우 강한 모습을 보여줍니다. 특히 보안이 중요한 기업 내부 자료나 민감한 데이터를 다룰 때 믿고 맡길 수 있죠.
* 마케터가 사랑하는 글쓰기 도구, 특정 영역에서 두각을 보이는 경향이 토스 같아요. |
- 이런 점이 좋아요 👍: 긴 보고서나 논문을 통째로 던져줘도 핵심을 정확히 파악하고 요약하는 능력이 탁월해요. 복잡하고 지적인 주제에 대한 대화도 능숙하게 해냅니다.
- 이런 점은 아쉬워요 👎: 아직 실시간 정보를 물어보면 대답을 잘 못 하는 게 흠이라면 흠이에요.
🙋♂️ 이런 분께 추천! 데이터 보안이 중요한 기업, 법률 및 의료 분야 등 높은 신뢰도를 요구하는 전문가 그룹 |
|
|
P.S. 스낵이가 친구들 의견을 종합해서 표로 정리했답니다.
|
|
|
신생 브랜드는 어떻게 '죽음의 계곡'을 건너는가: UBTECH의 생존 공식
님, 세상을 바꿀 것 같던 수많은 신기술이 왜 어느 순간 소리 소문 없이 사라져 버리는 걸까요? 우리 같은 제조업 동료들이 신사업을 구상할 때 가장 두려워하는 순간이기도 하죠. 거기엔 기술의 성패를 가르는 깊고 어두운 계곡, 바로 ‘캐즘(Chasm)’이 존재하기 때문입니다. 아무리 훌륭한 신기술도 초기 괴짜들의 열광을 넘어, 까다롭고 실용적인 대중의 지지를 얻지 못하면 이 ‘죽음의 계곡’에 빠져 잊히고 맙니다. 그렇다면 이 계곡을 건너는 신생 브랜드들의 생존 공식은 과연 무엇일까요?
오늘은 로봇 기업 ‘UBTECH’의 사례를 통해, 한 신생 브랜드가 이 캐즘을 건너기 위해 어떤 혁신적인 접근과 노력을 기울이는지, 그 생존 공식을 함께 파헤쳐보고자 합니다.
첫 번째 생존 공식: ‘완벽한 기술’이 아닌 ‘완성된 해결책’을 팔아라
캐즘 너머의 실용주의적인 고객들은 기술 그 자체에는 관심이 없습니다. 그들은 자신의 문제를 해결해 줄 ‘완성된 제품(Whole Product)’을 원하죠.
UBTECH는 이 공식을 정확히 이해했습니다. 특히 교육용 로봇 시장에서 그들은 단순히 로봇 하드웨어 키트만 팔지 않았습니다. 교육 커리큘럼, 직관적인 코딩 프로그램, 교사와 학생들을 위한 커뮤니티까지, 교육 현장에서 필요한 모든 것을 하나의 패키지로 묶어 ‘통합적 솔루션’을 제공했죠. 기술에 보수적인 교육 시장이라는 캐즘을 성공적으로 건너, 안정적인 교두보(Beachhead)를 확보한 겁니다.
두 번째 생존 공식: ‘혼자’가 아닌 ‘함께’ 다리를 놓아라
‘완성된 해결책’이라는 튼튼한 다리는 결코 혼자 놓을 수 없습니다. UBTECH는 다양한 분야의 파트너들과 손잡고, 아주 체계적으로 다리를 건설했습니다. 최근 경영학계의 두 이론은 이들의 교량 건설 공법을 명쾌하게 설명해 줍니다.
공법 1. 혁신 생태계 오케스트레이션 (Stirring Model): UBTECH는 마치 오케스트라 지휘자처럼, 파트너들과의 협업 전 과정을 5단계로 나누어 체계적으로 관리했습니다.
- 설계: "로봇을 모든 가정에"라는 비전 아래, 월마트, 디즈니와 손잡고 큰 그림을 그렸습니다.
- 관계: 교육 전문가들과 커리큘럼을 공동 개발하며 깊은 신뢰를 쌓았습니다.
- 통합: 자체 로봇 기술에 월마트의 매장 운영 노하우를 결합해 재고 관리 로봇을 탄생시켰습니다.
- 조율: 개방형 OS와 SDK로 기술의 문턱을 낮춰 누구나 쉽게 참여하게 만들었습니다.
- 실행: 서비스 로봇 ‘Cruzr’의 시범 운영을 통해 가치를 증명하고, 팬데믹 시기 방역 로봇을 신속하게 보급하며 실행력을 보여주었습니다.
공법 2. 영리한 거리두기 (인지 거리): 이들은 파트너와의 ‘거리’를 정교하게 설계했습니다. 혁신은 너무 가깝지도, 멀지도 않은 파트너와 만날 때 폭발하기 때문이죠.
- 가까운 거리 (교육): ‘학습’이라는 공통분모를 가진 교육계와 손잡고 안정적인 혁신을 만들었습니다.
- 중간 거리 (엔터테인먼트): ‘감성적 몰입’이라는 공통 목표 아래 디즈니와 협력해, 창의적인 캐릭터 로봇을 탄생시켰습니다.
- 먼 거리 (의료): 자사의 기술과 의료계의 전문 지식이라는 먼 거리의 지식을 융합해 ‘비접촉 방역’이라는 높은 사회적 가치를 창출했습니다.
생존, 그 이후: 모든 로봇이 캐즘을 건넌 것은 아니다
물론 UBTECH의 모든 도전이 캐즘을 완전히 건넌 것은 아닙니다. 그들의 여정은 신생 브랜드의 생존이 단 한 번의 성공으로 끝나지 않음을 보여줍니다.
- [캐즘 극복 완료] 교육용 로봇 (Jimu Robot 시리즈)
이 분야에서 UBTECH는 명확하게 캐즘을 넘어섰습니다. 단순히 로봇 키트를 파는 데 그치지 않고, 교육 커리큘럼과 소프트웨어, 교사 지원 커뮤니티까지 제공하는 ‘완성된 해결책(Whole Product)’ 전략이 주효했기 때문입니다.
- 주요 고객: 전 세계 수많은 초·중·고등학교 및 사설 교육 기관, STEM 교육 캠프, 그리고 자녀의 코딩 교육에 관심이 많은 일반 소비자(가정)에 이르기까지, 기술에 보수적인 교육 시장의 주류 고객을 완벽하게 사로잡았습니다.
- 남은 과제: STEM 교육 시장의 ‘사실상 표준’ 지위를 유지하며, 끊임없이 등장하는 후발주자들의 도전을 방어하는 것입니다.
- [캐즘 극복 진행 중] 상업용 서비스 로봇 (Cruzr 시리즈)
서비스 로봇 분야는 현재 캐즘을 건너는 중입니다. 특정 산업에서 실용적 가치를 입증하며 교두보를 마련했지만, 아직 모든 산업으로 확산되지는 못했죠.
- 주요 고객: 월마트(재고 관리), 화웨이(매장 안내), 전 세계의 공항, 은행, 호텔, 쇼핑몰 등이 고객 응대, 순찰, 정보 제공 등의 명확한 목적을 가지고 로봇을 도입하고 있습니다. 특히 코로나19 시기에는 수백 곳의 병원과 공공시설에 방역 로봇을 신속하게 보급하며 실용성을 증명했습니다.
- 남은 과제: 초기 도입에 성공한 시장을 넘어, 더 보수적인 서구 시장과 다양한 산업으로 확산하는 것입니다. 이를 위해서는 더 명확한 투자수익률(ROI) 입증과 장기 운영에 대한 신뢰성 확보가 필수적입니다.
- [캐즘 극복 초기] 휴머노이드 로봇 (Walker 시리즈)
인간을 닮은 휴머노이드 로봇은 여전히 캐즘의 초입에 서 있습니다. 기술적 경이로움으로 초기 수용자들의 시선을 사로잡았지만, 대중이 기꺼이 지갑을 열 만한 실용적 가치를 아직 충분히 제시하지 못했기 때문입니다.
- 주요 고객: 디즈니와 같은 엔터테인먼트 기업(R&D 파트너), 첨단 기술 연구소, 그리고 기업의 기술력을 과시하기 위한 쇼케이스 등 아직은 소수의 비전가 그룹에 한정되어 있습니다.
- 남은 과제: 높은 가격이라는 가장 큰 장벽을 넘어야 합니다. 또한, ‘그래서 이 로봇으로 정확히 무엇을 할 수 있는가?’라는 대중의 질문에 명쾌한 답을 제시할 ‘킬러 애플리케이션’의 발굴이 시급합니다.
신생 브랜드를 위한 UBTECH의 교훈
UBTECH의 여정은 결국 이것을 말해줍니다. 신생 브랜드가 죽음의 계곡에서 살아남기 위해서는, 막연한 기술적 자신감이 아니라 시장의 눈높이에 맞춘 치밀하고도 유연한 혁신적 노력이 필요하다는 것을요.
그들은 캐즘을 건너기 위해 기술의 성벽을 높이는 대신, ‘완성된 해결책’이라는 목표를 향해 파트너들과 함께 ‘관계의 다리’를 놓는 데 집중했습니다. 그리고 가장 건너기 쉬운 계곡부터 하나씩 정복하며 생존의 영토를 넓혀 나갔습니다.
님, 우리 회사가 내놓을 새로운 기술, 혹은 새로운 브랜드는 지금 ‘죽음의 계곡’을 건널 자신만의 다리를 갖고 있나요? 그 다리는 과연 어떤 ‘관계’들로 튼튼하게 만들어져 있나요?
|
|
|
상세 참조
- 혁신 생태계 오케스트레이션 (Stirring Model) 이론
- 출처: Shen, L., Shi, Q., Parida, V., & Jovanovic, M. (2024). Ecosystem orchestration practices for industrial firms: A qualitative meta-analysis, framework development and resear1ch agenda. arXiv preprint arXiv:2401.03129.
- 주요 내용: 이 연구는 전통적인 산업 기업이 이질적인 파트너들로 구성된 혁신 생태계를 성공적으로 이끌기 위해 필요한 5가지 핵심 관리 활동(Practices)을 제시합니다. 단순한 협력을 넘어, 생태계 전체의 목표 설정(전략적 설계), 파트너 간 신뢰 구축(관계 관리), 이종 자원 결합(자원 통합), 디지털 기술 표준화(기술 조율), 그리고 파일럿 테스트부터 시장 확산까지의 과정(혁신 실행)을 체계적으로 ‘지휘(Orchestration)’해야 함을 강조합니다. 이는 전통적인 내부 R&D 방식에서 벗어나 외부 파트너와의 협력을 통해 혁신을 창출하려는 기업에게 구체적인 실행 로드맵을 제공합니다.
- 인지 거리(Cognitive Distance)와 교차 산업 혁신
- 출처:Carmona-Lavado, A., Gimenez-Fernandez, E. M., Vlaisavljevic, V., & Cabello-Medina, C. (2023). Cross-industry innovation: a systematic literature review. Technovation, 124, 102743.
- 주요 내용: 이 연구는 다양한 산업 간의 혁신(Cross-Industry Innovation, CII)을 체계적으로 분석하며, 파트너 기업 간 ‘인지 거리’의 중요성을 강조합니다. 인지 거리가 너무 가까우면(유사 산업) 새롭고 획기적인 아이디어가 나오기 어렵고, 너무 멀면(완전 이종 산업) 지식과 문화의 차이로 인해 협업 자체가 어렵습니다. 따라서 혁신의 성공 확률은 ‘넘을 수 있을 정도의 적절한 거리(Optimal Cognitive Distance)’를 가진 파트너와 협력하여, 서로 다른 지식 기반을 성공적으로 융합할 때 가장 높아진다고 주장합니다. 이는 파트너 선정 시 단순한 기술력이나 시장 지위뿐만 아니라, 지식 기반의 유사성과 차이점을 전략적으로 고려해야 함을 시사합니다.
|
|
|
AI가 어떻게 고객의 마음을 얻는가
님, 우리는 늘 묻습니다. 어떻게 하면 고객에게 더 나은 경험을 제공할 수 있을까? 최근 그 해답을 AI에서 찾으려는 시도가 많습니다. 하지만 "이 챗봇은 제 말을 전혀 못 알아듣네요"라는 고객의 불만 앞에서, 우리는 무엇을 놓치고 있는지 고민에 빠지곤 합니다.
최근 베이징대와 UC 버클리의 공동 연구진이 발표한 'IDA-Bench'는 데이터 분석 AI를 평가하는 연구였지만, 그 결과는 CX를 설계하는 우리에게 매우 중요한 교훈을 줍니다. 이 연구는 AI가 사용자의 복잡하고 변화무쌍한 '의도'를 파악하는 데 여전히 서툴다는 점을 명확히 보여주었습니다. 이는 단순히 기술의 한계가 아닙니다. 오히려 우리가 AI라는 새로운 도구를 어떻게 바라보고, 어떤 경험을 설계해야 하는지에 대한 근본적인 질문을 던집니다. 고객과 만나는 최전선에 AI를 세우고자 한다면, 우리는 AI가 고객의 마음을 얻을 수 있도록 더 정교한 설계자가 되어야 합니다.
왜 AI 챗봇은 고객의 마음을 답답하게 할까?
연구에 따르면, 최첨단 AI 모델조차 여러 차례의 상호작용이 필요한 복잡한 과제에서는 성공률이 40% 미만이었습니다. 기존의 AI 테스트는 단답형 질문에 얼마나 잘 대답하는지를 측정했지만, 실제 고객의 문의는 그렇게 단순하지 않습니다. 고객의 진짜 문제는 여러 번의 대화를 통해 드러나고, 그 과정에서 감정 상태나 요구사항이 미묘하게 변하기 때문입니다.
IDA-Bench의 실패 사례들은 AI가 고객의 이런 미묘한 맥락 변화를 놓치고, 준비된 답변만 반복하며 고객을 더 답답하게 만들 수 있다는 가능성을 보여줍니다. 이는 고객 경험에서 '마찰'을 일으키는 결정적인 지점입니다.
고객 경험을 위한 AI 설계: 3가지 핵심 원칙
IDA-Bench 연구는 우리가 더 나은 고객 경험을 위해 AI를 어떻게 설계해야 하는지에 대한 중요한 실마리를 제공합니다.
1. 시나리오 설계: AI에게 '고객 여정'을 가르치는 법
연구진은 AI에게 임무를 줄 때, 목표, 금지 조항, 상호작용 방식 등 매우 구체적인 규칙을 담은 '시스템 프롬프트'를 제공했습니다. 고객 응대 AI도 마찬가지입니다. 단편적인 Q&A를 학습시키는 것을 넘어, 하나의 완결된 '고객 여정 시나리오'를 설계해야 합니다.
- AI 페르소나 정의: 우리 브랜드의 목소리를 대변할 AI의 페르소나(친절한 상담원, 빠르고 효율적인 해결사 등)를 명확히 정의해야 합니다.
- 목표와 제약 조건 설정: AI의 목표가 '문의 해결'인지, '감정적 지지'인지, 혹은 '인간 상담사 연결'인지를 명확히 하고, AI가 할 수 없는 일(예: 권한 밖의 환불 처리)과 그럴 때의 대처법(인간 상담사 연결 안내)을 구체적으로 설계해야 합니다.
- 긍정/부정 시나리오: 고객의 요청이 긍정적으로 해결될 때의 시나리오와, 불가능한 요청으로 거절해야 할 때의 부정적 시나리오를 모두 설계하고, 특히 부정적 시나리오에서 고객의 감정을 어떻게 관리할지(예: 공감 표현, 대안 제시) 세심하게 다듬어야 합니다.
2. AI 페르소나의 양면성: '성급한 해결사'와 '공감형 상담원' 사이
IDA-Bench 테스트에서 AI 모델들은 저마다 다른 성격을 보였습니다. 어떤 모델은 지시가 끝나기도 전에 성급하게 결론을 내리는 '자신감 넘치는 인턴' 같았고, 다른 모델은 매 단계 확인을 구하는 '지나치게 신중한 비서' 같았습니다.
고객 경험 AI를 설계할 때 이 두 가지 성격의 장단점을 활용할 수 있습니다.
- 단순 문의(FAQ): 배송 일정이나 재고 확인처럼 간단하고 명확한 문의에는 '성급한 해결사' 페르소나가 더 효율적일 수 있습니다. 고객은 빠른 답변을 원하기 때문입니다.
- 복잡한 불만(Complaint): 제품 불량이나 서비스 불만처럼 고객의 감정이 섞인 복잡한 문제에는 '공감형 상담원' 페르소나가 필요합니다. "많이 불편하셨겠습니다. 제가 문제를 정확히 파악하기 위해 몇 가지만 더 여쭤봐도 될까요?"처럼 고객의 말을 경청하고 이해했음을 보여주는 단계가 필수적입니다.
3. 경험 품질 관리: AI가 만드는 '차가운 순간'에 대비하기
연구 결과, AI는 실제로 수행하지 않은 작업을 했다고 보고하거나(환각), 사소한 형식 오류를 일으키는 등 얘기치 않은 실수를 저질렀습니다. 고객 경험에서 이런 실수는 브랜드 신뢰도를 떨어뜨리는 '차가운 순간(Cold Moment)'이 됩니다.
이를 방지하려면 꾸준한 품질 관리가 필수적입니다.
- 주기적인 AI 대화 감사(Audit): 실제 고객과 AI의 대화 로그를 주기적으로 검토하며 AI가 우리의 설계 의도대로 잘 작동하는지, 고객에게 불편을 주는 지점은 없는지 확인해야 합니다.
- AI 분석 결과의 재검토: AI가 분석한 고객 감정 데이터(긍정/부정)나 피드백 요약 리포트를 맹신해서는 안 됩니다. AI는 고객의 미묘한 반어법이나 복잡한 감정을 놓칠 수 있습니다. 반드시 원본 데이터를 함께 검토하며 맥락을 파악해야 합니다.
최고의 AI 경험은 최고의 '인간 설계'에서 나온다
AI는 고객 경험을 혁신할 강력한 도구이지만, 그 자체로 따뜻한 경험을 만들지는 못합니다. 차가운 기술에 온기를 불어넣는 것은 결국 우리, CX 설계자의 몫입니다. AI가 고객의 말을 더 잘 알아듣고, 더 공감하며, 더 나은 해결책을 제시하도록 만드는 정교한 시나리오와 페르소나 설계가 그 어느 때보다 중요해졌습니다. 우리의 역할은 AI라는 새로운 동료가 고객의 마음을 얻는 최고의 파트너가 되도록 훈련하고 이끄는 것입니다. 최고의 AI 경험은, 기술 그 자체가 아니라 그것을 다루는 우리의 사려 깊은 고민과 설계에서 시작될 것입니다.
|
|
|
최신 대규모 언어 모델(LLM)이 데이터 분석 작업에서 얼마나 지시를 잘 따르는지 평가하는 새로운 벤치마크 'IDA-Bench'가 공개되었습니다. 베이징 대학과 UC 버클리 연구팀이 공동으로 개발한 이 벤치마크는 실제 데이터 분석가처럼 여러 차례에 걸쳐 점진적으로 지시를 내리는 방식으로 모델의 능력을 시험합니다.
주요 내용:
- 새로운 평가 방식: 기존 벤치마크와 달리, IDA-Bench는 단일 과제가 아닌 여러 단계의 상호작용을 통해 모델이 얼마나 사용자의 지시를 잘 따르고 변화하는 요구에 대응하는지를 평가합니다. 이는 실제 데이터 분석 업무 환경과 유사한 방식입니다.
- 실망스러운 결과: 테스트 결과, Claude-3.7, Gemini-2.5 Pro와 같은 최첨단 모델조차도 40% 미만의 성공률을 보였습니다. 이는 현재 대규모 언어 모델이 사용자의 지시를 정확히 따르기보다 스스로 판단하여 작업을 진행하려는 경향이 있기 때문입니다.
- 모델별 특징:
- Claude-3.7과 DeepSeek-R1: '지나치게 자신감 있는 인턴'처럼 사용자의 지시를 무시하고 독자적으로 분석을 진행하다가 중요한 단계를 놓치는 경우가 많았습니다.
- Gemini-2.5-Pro: '지나치게 신중한 조수'처럼 사소한 단계마다 사용자에게 확인을 요청하여 결국 시간 초과로 실패하는 경향을 보였습니다.
- 문제점: 모델들은 존재하지 않는 작업을 수행했다고 하거나, 결과물의 형식을 틀리는 등 다양한 오류를 보였습니다. 또한, 초기 분석 결과를 고집하며 새로운 지시에 따라 모델을 개선하지 않으려는 경향도 나타났습니다.
- 결론: 이번 연구는 현재 대규모 언어 모델이 신뢰할 수 있는 데이터 분석 도구가 되기 위해서는 사용자의 지시를 이해하고 따르는 능력을 크게 향상시켜야 함을 보여줍니다.
|
|
|
스낵지기 추천 광고입니다.
소위 '병맛 코드'의 광고인데, 우리의 현재를 보여주는 점이 인상 깊어 공유합니다. 광고 속 에피소드를 보면 우리가 직장 동료에 대해 흔히 하는 대화방식, 생각방식이 담겨 있어 많이들 공감하실 거예요. 주류 광고이니만큼, 메시지는 너무 심각하게 받아들이지 마시고 재미로 감상하세요! 이번주 스낵레터도 잘됐어요~ |
|
|
📮E-mail: jeonhr@hyundai.com
|
|
|
스낵지기는 현재 HMG경영연구원 미래트렌드연구팀에서 일하고 있습니다.
브랜드 전략 기획, 미래 트렌드 분석 및 소비자 행동 연구 업무를 맡고 있지만, 스낵레터에서 기술된 내용은 업무 상 보안 이슈가 없이 작성되었습니다. 문의사항 및 건의사항이 있다면 메일/팀즈로 편하게 연락주세요.
Copyright © 2025 SNACKLETTER. All rights reserved.
수신거부 Unsubscribe |
|
|
|
|