OpenAI, GPT-4o 이미지 생성 기능 공개

이미지 생성 기술, GPT-4o에 통합되다

OpenAI는 새로운 이미지 생성 시스템을 GPT-4o에 통합해, AI가 내장된 지식 기반과 대화 맥락을 활용하여 이미지를 생성할 수 있게 했다고 발표했다. 이 통합으로 인해 AI가 상황에 맞고 정확한 비주얼을 제공할 수 있는 능력이 한층 강화되었다.

새로운 이미지 생성 시스템의 주요 기능

OpenAI는 이번 업데이트를 통해 다음과 같은 기능들을 강조했다:

  • 이미지 내 텍스트를 정확히 표현 가능
  • 대화형 피드백으로 이미지를 세밀하게 수정하면서 스타일 일관성 유지
  • 최대 20개의 복잡한 객체를 포함하는 고급 프롬프트 지원
  • 업로드된 참고 이미지를 기반으로 비주얼 생성
  • GPT-4o의 학습 데이터를 활용한 이미지 제작 가능

이 시스템은 사용자가 자연스럽게 대화를 통해 이미지를 정교하게 수정할 수 있게 하고, 연속 작업에서도 일관성을 보장한다.

제한점 및 해결 과제

새로운 이미지 생성 시스템은 다양한 잠재력을 가지고 있지만 한계도 존재한다:

  • 긴 이미지에서는 가끔 크롭 이슈 발생
  • 모호한 프롬프트가 부정확한 정보를 생성할 가능성
  • 복합적인 개념을 동시에 정확히 표현하는 데 어려움
  • 비라틴 문자 표현 문제
  • 수정 요청이 비의도적으로 다른 부분에 변화를 초래하거나 새로운 오류를 생성

이를 바탕으로 OpenAI는 앞으로 이러한 문제들에 대한 개선 작업을 심화해나갈 계획이다.

비즈니스 및 커뮤니케이션 활용성 확대

이번 업데이트로 AI 이미지는 단순한 장식적 용도를 넘어 비즈니스와 커뮤니케이션에 실질적으로 활용될 가능성을 열었다. 이를 안전하고 효과적으로 활용하기 위해 OpenAI는 다음과 같은 사용 가이드라인을 권장했다:

  • 메타데이터를 통해 투명성 유지
  • 적절한 대체 텍스트 제공
  • 사용자 의도에 부합하는 이미지를 제작
  • 독창적인 시각 요소 구현

새로운 기능과 앞으로의 전망

현재 이 기능은 ChatGPT 사용자들에게 제공되고 있으며, 다양한 플랜에서 접근 가능하다. API 접근권은 곧 추가될 예정이다. 이미지 생성에 평균 약 1분이 소요된다.

사실적이고 효과적인 이미지를 생성하며, AI 기술이 실생활에서 어떤 방향으로 발전해 나가는지 확인할 수 있는 사례로 주목받고 있다.

출처 : 원문 보러가기