실사‧문자에 강하다…中 Qwen-Image-2.0 출시

알리바바의 AI 연구팀인 Qwen(Tongyi Lab)이 화상 생성 AI인 Qwen-Image-2.0을 2월 10일 발표했다. Qwen-Image-2.0은 Qwen-Image와 Qwen-Image-Edit을 통합한 모델로 사실적인 이미지나 문장을 포함한 이미지 생성에 특화되어 있다.

Qwen-Image-2.0은 기존 Qwen-Image 시리즈에 비해 생성 이미지 품질이 향상됐다. 알리바바가 운영하는 AI 블라인드 테스트 서비스(AI Arena)에서는 텍스트에서 이미지를 생성하는 태스크나 이미지를 편집하는 태스크에서도 Gemini-2.5-Flash-Image-Preview(Nano Banana)를 능가하며 Gemini-3-Pro-Image-Preview(Nano Banana Pro)에 필적하는 점수를 기록했다.

Qwen-Image-2.0은 기존 Qwen-Image 시리즈에 비해 모델 크기가 작아졌으며 고속 추론이 가능하다고 한다. 또 1000토큰 입력에 대응하며 요소 배치를 세밀하게 지정하면서 슬라이드 이미지를 생성할 수도 있다.

Qwen-Image-2.0을 사용하면 이미지 안에 복수 이미지를 포함하는 복잡한 구성에서도 무리 없이 처리가 가능하다. 숲 실사풍 이미지도 생성할 수 있으며 긴 문장을 포함한 이미지도 생성 가능하다. 인물 배치를 세밀하게 지정해 포스터를 생성할 수 있으며 정보 밀도가 높은 슬라이드도 생성할 수 있다. 나아가 각 컷별 대사나 구도를 지정하면서 만화를 생성하는 것도 가능하다. 편집 태스크도 실행 가능하며 별개 사진에 찍힌 피사체를 사진 1장으로 통합하는 것도 가능하다.

Qwen-Image-2.0은 Qwen Chat에서 사용 가능하다. 한편 지금까지의 Qwen-Image 시리즈는 누구나 다운로드 가능한 오픈 모델로도 공개됐지만 아직 Qwen-Image-2.0 모델 데이터는 공개되지 않았다. 관련 내용은 이곳에서 확인할 수 있다.