GPT-4와 GPT-4o의 OCR 성능 비교 : 테스트 결과 공개

이전 GPT-4 Turbo 모델에서 아쉬웠던 한국어 OCR 기능이 대폭 개선되었습니다! 업무에 적용 가능한 GPT-4o의 강화된 OCR 기능을 소개합니다!🔥

# 엑셀기능 # VBA

작성자 :
오빠두엑셀
최종 수정일 : 2024. 05. 16. 02:38
URL 복사
메모 남기기 : (8)

GPT-4와 GPT-4o의 OCR 성능 비교 : 테스트 결과 공개

2024년 5월 13일, OpenAI에서 GPT 4o를 공개했습니다. GPT 4o 에서 "o"는 "omni(모든)"의 약자로, 기존 GPT-4 모델의 텍스트를 중심으로 한 기능을 넘어, '텍스트, 이미지, 음성'의 다양한 데이터를 처리할 수 있게 되었습니다.

Screenshot_21
2024년 5월 13일, OpenAI에서 GPT-4o 모델을 발표했습니다.

OpenAI의 발표에 따르면, GPT-4o는 기존 GPT 4 Turbo 대비 50% 저렴한 비용과 2배 이상 향상된 처리 속도를 자랑하며, 특히 비전(이미지) 인식 기능과 비영어권 언어에 대한 토큰 효율성이 개선(한국어의 경우 1.7배)되었다고 합니다. 이 외에 GPT-4와 GPT-4o 모델의 자세한 차이점은 유튜브 및 여러 커뮤니티에서 자세히 정리된 글을 참고해주세요.


OpenAI ChatGPT 4o 소개
(https://openai.com/index/hello-gpt-4o/)

OpenAI 포럼 ChatGPT 4o 소개 요약글
(https://community.openai.com/t/announcing-gpt-4o-in-the-api/744700)


저는 이번에 발표한 GPT-4o의 개선 사항 중, 특히 '비전 인식 기능'과 '처리 속도'의 개선점에 초점을 맞추어 기존 GPT-4 Turbo 모델과 성능 차이를 비교해 보았습니다.

이전 GPT 4 Turbo 모델에서는 Vision 기능을 제공했으나, 영수증이나 사업자 등록증과 같은 이미지의 OCR (텍스트 인식) 성능이 많이 부족했습니다. 특히 한국어 인식률이 매우 저조했고, 숫자를 잘못 인식하는 치명적인 실수도 종종 발생하여 업무에 바로 적용하기에는 많이 부족했는데요.

그러나 이번에 발표한 GPT-4o 모델로 테스트한 결과, 텍스트 인식 정확도는 84% → 98%로 크게 향상되었으며, 처리속도 역시 기존 10초 → 4.6초로 2배 이상 빨라졌습니다. 또한 한국어 토큰 사용 효율성이 20% 개선되었고, 따라서 GPT 4 Turbo 모델과 비교시 약 60% 정도 저렴하게 이용할 수 있게 되었습니다.

GPT4-GPT4o-비교
GPT4 vs GPT4o 텍스트 OCR 성능 비교표

자세한 테스트 결과는 아래 내용을 참고해주시고, 엑셀과 GPT-4o 모델을 활용하는 방법은 조만간 라이브 특강으로 진행할 예정이오니 많은 관심과 참여 부탁드립니다.

GPT 4o API 사용 전 준비사항

2024년 5월 16일 기준, GPT-4o API는 $5 이상 금액을 충전한 사용자에게만 제공됩니다.

사용한 프롬프트

  1. 사업자 등록증
    You are an Optical Character Recognition machine.
    You will extract all the characters from the image provided by the user, and you will only privide the extracted text in your response.
    As an OCR machine, You can only respond with the extracted text according to the following intruction.
    * Answer in Table Format.
    * Organize each entry into a separate row, with the entry name and data in order.
    1. 사업자 등록번호
    2. 법인명(상호)
    3. 대표자(성명)
    4. 개업연월일
    5. 법인등록번호(생년월일)
    6. 사업장 소재지
    7. 사업의 종류
  2. 영수증
    You are an Optical Character Recognition machine.
    You will extract all the characters from the image of receipt provided by the user, and you will only privide the extracted text in your response.
    As an OCR machine, You can only respond with the extracted text according to the following intruction.
    * Fill in "상호", "사업자번호" if applicable, otherwise answer "N/A"
    * Repeat "상호", "사업자번호", "총액" in each row.
    * "금액" is the final amount including VAT(부가세).
    * Answer in Table Format consists of "상호 | 사업자번호 | 총액 | 상품명 | 금액"

1. 사업자 등록증 (개인)

  • GPT-4-Turbo : 9.89초 / 81% / 1458Token (=20.4원)
  • GPT-4o : 5.28초 / 100% / 1407Token (=9.8원)

오빠두-사업자등록증_1

사업자등록증

2. 사업자 등록증 (법인)

  • GPT-4-Turbo : 12.5초 / 84% / 1489Token (=20.8원)
  • GPT-4o : 5.48초 / 100% / 1395Token (=9.7원)

주식회사-오빠두엑셀-사업자등록증_1

사업자등록증-법인

3. 식당 영수증

  • GPT-4-Turbo : 10.2초 / 87% / 643Token (=9원)
  • GPT-4o : 3.7초 / 98% / 552Token (=3.8원)

2013-09-22-155623

Screenshot_18

4. 이마트 영수증 (저해상도)

  • GPT-4-Turbo : 9.4초 / 86% / 682Token (=9.5원)
  • GPT-4o : 3.7초 / 97% / 680Token (=4.7원)

2010-03-24-211702Screenshot_20

5. 구매 영수증 (사진)

  • GPT-4-Turbo : 7.6초 / 86% / 1078Token (=15원)
  • GPT-4o : 4.9초 / 97% / 1035Token (=7.2원)

2022-12-20-151800

Screenshot_16

5 5 투표
게시글평점
8 댓글
Inline Feedbacks
모든 댓글 보기
8
0
여러분의 생각을 댓글로 남겨주세요.x