x

이메일로 만나보는 스타트업 가이드

투자, 행사, 정부사업 등 스타트업 생태계 소식을 이메일로 편하게 받아보세요.

중국 기업 바이두가 4월 15일 이미지 생성 AI 모델인 어니-이미지(ERNIE-Image)와 어니-이미지-터보(ERNIE-Image-Turbo)를 공개했다. 두 모델은 누구나 다운로드할 수 있는 형태로 공개됐으며 고품질 일러스트와 실사풍 이미지를 생성할 수 있다.

어니-이미지는 파라미터 수 80억 DiT 모델로, 텍스트 프롬프트를 바탕으로 고품질 이미지를 생성할 수 있다. 어니-이미지-터보는 어니-이미지에 강화학습을 적용해 생성 스텝 수를 50스텝에서 8스텝으로 줄인 모델.

어니-이미지는 실사풍 이미지와 일러스트풍 이미지 외에도 만화나 포스터 등도 생성할 수 있다. 어니-이미지는 문자 묘사에 강점을 지닌 건 물론 여러 오브젝트를 지시에 따라 제어할 수 있다는 점도 강조되고 있다.

보통 이미지 생성 AI는 프롬프트를 자세하게 작성할수록 고품질 이미지를 생성하기 쉬워지지만 긴 프롬프트를 작성하는 데는 시간이 걸리기 때문에 많은 사용자가 짧은 문장을 입력해 이미지를 생성하고 있다. 이 문제를 해결하기 위해 어니-이미지에는 짧은 프롬프트에 내용을 추가해 긴 프롬프트를 생성하는 프롬프트 인핸서(Prompt Enhancer)가 내장되어 있다.

프롬프트 인핸서는 미니스트랄 3B(Ministral 3B)를 기반으로 파인튜닝된 30억 파라미터 언어 모델이며 다른 모델로 교체하는 것도 가능하다. 어니-이미지 개발을 주도한 지아샹 리우(Jiaxiang Liu)는 프롬프트 품질은 언어 모델 품질에 따라 강화된다며 커뮤니티가 프롬프트 인핸서를 얼마나 발전시킬 수 있을지 흥미롭게 지켜보고 있다며 향후 성능 향상에 기대감을 드러냈다.

어니-이미지와 어니-이미지-터보는 각종 벤치마크 테스트에서도 높은 점수를 기록하고 있다. 원아이지-벤치(OneIG-Bench)에서 영어 프롬프트 기반 이미지 생성 성능을 비교한 테스트에서는 Z-이미지(Z-Image)와 GPT 이미지 1 하이(GPT Image 1 [High])를 상회하는 점수를 기록했다.

어니-이미지와 어니-이미지-터보는 무료로 공개되어 있다. 실행에는 VRAM 24GB가 필요하다. 라이선스는 아파치 라이선스 2.0이다. 또 이미 콤피유아이(ComfyUI)가 어니-이미지 실행을 지원하고 있어 모델을 다운로드해 로컬에서 생성하는 것도 가능하다. 관련 내용은 이곳에서 확인할 수 있다.

뉴스 레터 구독하기

Related Posts

No Content Available
Next Post