[Startup:CON 연사 릴레이 인터뷰] K-콘텐츠 중심지 서울에서 개최되는 한국 콘텐츠 업계를 대표하는 글로벌 스타트업 콘퍼런스 <스타트업콘> 개막이 이제 얼마 남지 않았다. 올해 11회째를 맞이하는 스타트업콘은 CONTENT X EVERYTHING, BEYOND IMAGINATION(콘텐츠 X 모든 것, 상상의 한계를 뛰어넘다)를 주제로 오는 9월 25일(목)~ 26일(금) 서울 성수동에 위치한 스위트스팟 스테이지 성수(피치스도원)에서 개최된다.
올해는 구글과 엔비디아 등 글로벌 빅테크 기업 관계자를 비롯해 갤럭시코퍼레이션, SAMG엔테테인먼트 등 콘텐츠 선도기업 관계자, 한국형 소버린 AI 개발팀에 선정된 NC AI, 업스테이지, 과학 커뮤니케이터 궤도, 테크셀레스터 배우 이제훈 등이 연사자로 참여해 AI 기반 콘텐츠 혁신 사례와 산업간 융합의 확장성, 기술과 콘텐츠 결합으로 기존 상식을 뛰어넘는 다양한 사례 등을 소개할 예정이다. 그 밖에 국내외 선도기업과 투자자 30명이 참석하는 1:1 밋업도 함께 진행된다. 이에 스타트업콘 주요연사 7인 릴레이 인터뷰를 통해 미리 듣는 기회를 갖고자 한다. 이번 인터뷰 대상은 키릿 타다카(Kirit Thadaka) 엔비디아 프로덕트 매니저다.

◇ AI 진화와 합성데이터의 부상=키릿 타다카(Kirit Thadaka) 엔비디아 프로덕트 매니저는 AWS와 합성 데이터 스타트업 그레텔(Gretel)을 거쳐 엔비디아에서 근무하기까지 다양한 규모의 기업에서 AI를 경험했다. 그는 지난 10년간 AI의 본질은 변하지 않았지만 규모와 속도는 전혀 다른 차원으로 진화했다고 진단했다. 데이터 부족을 돌파하는 합성 데이터, 엣지 추론을 가능케 한 양자화와 프레임워크, 그리고 다중 모달 인터페이스의 대두가 그 변화를 이끌었다는 것이다.
스타트업과 빅테크를 모두 경험한 그는 “혁신은 스타트업, 안정적 스케일은 빅테크”라며 각 환경의 강점을 명확히 구분했다. 타다카 매니저는 “고품질 데이터 확보, 온디바이스 추론, 자연어 인터페이스”라는 숙제는 과거에도 현재에도 핵심이라고 강조했다. 다른 점은 스케일이다. 그는 “모델 사전 학습 토큰은 수조 단위로 커졌고 디바이스는 더 큰 모델을 위해 고도화된 기법을 요구하며 인터페이스는 텍스트를 넘어 오디오, 이미지, 비디오로 확장됐다”고 설명했다.
타다카 매니저가 합성 데이터에 주목한 이유는 AI 프로젝트에서 직접 겪은 데이터 부족 문제 때문이었다. 그는 머신러닝(ML) 프로젝트에서 데이터 희소성이라는 병목 현상을 겪으면서 합성 데이터가 전체 AI 분야에 단번의 도약을 제공할 수 있다고 확신했다. 그런 믿음으로 출시한 그레텔 데이터 디자이너(Gretel Data Designer)는 대규모로 고품질 합성 데이터를 생성하는 복합형 시스템으로 실제 데이터가 부족하거나 민감한 상황에서 안전하고 대표성 있는 데이터셋을 가능하게 했다. 이 프로젝트는 합성 데이터의 실용성과 기업 적용 가능성을 입증한 사례로 꼽힌다. 그레텔은 올해 엔비디아에 인수됐다.
◇ 합성데이터 가능성과 한계는?=합성 데이터는 무한한 가능성을 열어주지만 해결해야 할 과제도 남아 있다. 타다카 매니저는 합성 데이터의 가장 큰 제약으로 기업 데이터에 대한 접근성 부족을 꼽았다. 민감한 정보를 노출하지 않으면서도 실제 데이터의 패턴과 분포를 충실히 보존하는 합성 트윈(synthetic twins)을 만드는 일은 여전히 어렵다는 것이다.
그는 향후 5년 내에 두 가지 큰 변화가 있을 것으로 예측했다. 첫째 개인정보 보호를 위한 규제가 강화되면서 기업들이 합성 데이터를 활용할 수밖에 없게 될 것이며 둘째, 파운데이션 모델과 오픈소스 생태계의 발전으로 합성 데이터의 품질이 실제 데이터와 거의 차이가 없을 만큼 높아질 것이란 것. 타다카 매니저는 합성 데이터가 실제 데이터를 완전히 대체하기보다는 보완재로서 역할을 할 때 가장 효과적이라고 강조했다. 특히 데이터 내의 패턴이나 상관관계가 중요한 경우 합성 데이터는 개인정보를 보호하면서도 모델 학습에 필요한 유용성을 제공할 수 있다. 그는 “제한된 현실 데이터를 보강하는 용도로도 유용하다”며 “반대로 현실적 분포와 동떨어진 합성 데이터는 모델 성능 저하로 이어지므로 하이브리드 접근이 필수적”이라고 덧붙였다.
헬스케어, 금융, 법률 등 규제가 엄격한 산업에서 합성 데이터는 어떻게 활용될 수 있을지에 대한 질문에 그는 신뢰를 얻기 위한 2단계 접근법을 공유했다. 1단계에서는 전문가가 설계한 합성 데이터로 AI가 제공할 수 있는 비즈니스 가치를 입증하고 2단계에서 신뢰를 얻은 후 실제 데이터를 바탕으로 합성 데이터 생성기를 학습시키는 방식이다. 그는 “규제 산업에서는 합성 데이터가 민감한 세부를 드러내지 않으면서도 충분히 현실적이고 개인정보를 지키는지 여부가 핵심”이라고 말했다.
기업 환경에서 합성 데이터 파이프라인을 구축할 때는 지속적인 생성을 가장 중요한 요소로 꼽았다. 그는 “합성 데이터를 일회성 데이터셋으로 취급하는 것이 흔한 실수”라며 “새로운 데이터를 지속적으로 생성하고 이를 AI 시스템에 다시 투입해 모델을 지속적으로 개선하는 피드백 루프를 구축해야 한다”고 강조했다. 진정한 힘은 이러한 선순환 구조를 만드는 데서 나온다는 것이다.
◇ AI 미래와 한국의 역할은?=타다카 매니저가 합성 데이터에 주목하는 또 다른 이유는 데이터 프라이버시와 개인화 서비스라는 상충된 목표를 동시에 달성할 수 있기 때문이다. 그는 “사용자의 원본 데이터가 아닌 합성 데이터 기반의 개인화 시스템을 구축하면 개인정보를 보호하면서도 정밀한 맞춤형 서비스를 제공할 수 있다”고 강조했다. 그는 더 나아가 정책 입안자들이 합성 데이터 사용을 장려하거나 의무화해 균형을 잡아야 한다고 제안했다.
또 그는 자율적으로 데이터를 생성하고 학습하는 자기 개선 AI(Self-Improving AI Systems)의 잠재력과 위험성도 짚었다. 인간 개입(Human-in-the-loop)의 중요성을 강조하며 배포 전 인간의 엄격한 승인이 필요한 환경과 자유로운 실험이 가능한 개방적 환경을 분리하는 계층적 접근이 필요하다고 조언했다.
타다카 매니저는 끝으로 향후 5년간 합성 데이터와 에이전트 개인화 분야에서 가장 큰 변곡점은 로컬 AI가 될 것이라고 전망했다. 현지 언어, 방언, 문화적 뉘앙스를 반영하는 모델이 중요해진다는 의미다. 그는 “한국 기업들이 서구권에서 학습된 모델에 의존하기보다 한국적 맥락에 맞춰 튜닝된 맞춤형 거대언어모델(LLM)에 투자해야 한다”고 조언했다. 이를 통해 합성 데이터와 개인화 시스템이 한국 사용자의 현실을 정확하게 반영할 수 있다는 설명이다.
<스타트업콘 행사 개요>
- 일시 : 2025년 9월 25일(목) ~ 26일(금)
- 장소 : 스위트스팟 스테이지 성수(피치스 도원)
- 프로그램 : 콘퍼런스, 워크숍, 배틀필드(IR 피칭), 1:1 밋업, 네트워킹
- 참가신청 : 스타트업콘 홈페이지 | https://startupcon.kr
※ 본 기사는 한국콘텐츠진흥원 협찬으로 제공됩니다.