GPT-4와 GPT-4o의 OCR 성능 비교 : 테스트 결과 공개
2024년 5월 13일, OpenAI에서 GPT 4o를 공개했습니다. GPT 4o 에서 "o"는 "omni(모든)"의 약자로, 기존 GPT-4 모델의 텍스트를 중심으로 한 기능을 넘어, '텍스트, 이미지, 음성'의 다양한 데이터를 처리할 수 있게 되었습니다.

OpenAI의 발표에 따르면, GPT-4o는 기존 GPT 4 Turbo 대비 50% 저렴한 비용과 2배 이상 향상된 처리 속도를 자랑하며, 특히 비전(이미지) 인식 기능과 비영어권 언어에 대한 토큰 효율성이 개선(한국어의 경우 1.7배)되었다고 합니다. 이 외에 GPT-4와 GPT-4o 모델의 자세한 차이점은 유튜브 및 여러 커뮤니티에서 자세히 정리된 글을 참고해주세요.
OpenAI ChatGPT 4o 소개
(https://openai.com/index/hello-gpt-4o/)
OpenAI 포럼 ChatGPT 4o 소개 요약글
(https://community.openai.com/t/announcing-gpt-4o-in-the-api/744700)
저는 이번에 발표한 GPT-4o의 개선 사항 중, 특히 '비전 인식 기능'과 '처리 속도'의 개선점에 초점을 맞추어 기존 GPT-4 Turbo 모델과 성능 차이를 비교해 보았습니다.
이전 GPT 4 Turbo 모델에서는 Vision 기능을 제공했으나, 영수증이나 사업자 등록증과 같은 이미지의 OCR (텍스트 인식) 성능이 많이 부족했습니다. 특히 한국어 인식률이 매우 저조했고, 숫자를 잘못 인식하는 치명적인 실수도 종종 발생하여 업무에 바로 적용하기에는 많이 부족했는데요.
그러나 이번에 발표한 GPT-4o 모델로 테스트한 결과, 텍스트 인식 정확도는 84% → 98%로 크게 향상되었으며, 처리속도 역시 기존 10초 → 4.6초로 2배 이상 빨라졌습니다. 또한 한국어 토큰 사용 효율성이 20% 개선되었고, 따라서 GPT 4 Turbo 모델과 비교시 약 60% 정도 저렴하게 이용할 수 있게 되었습니다.

자세한 테스트 결과는 아래 내용을 참고해주시고, 엑셀과 GPT-4o 모델을 활용하는 방법은 조만간 라이브 특강으로 진행할 예정이오니 많은 관심과 참여 부탁드립니다.
GPT 4o API 사용 전 준비사항
2024년 5월 16일 기준, GPT-4o API는 $5 이상 금액을 충전한 사용자에게만 제공됩니다.
https://platform.openai.com/settings/organization/billing/overview (계정 청구 페이지)
https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o (GPT 4o API 사용 안내)
사용한 프롬프트
- 사업자 등록증
You are an Optical Character Recognition machine.
You will extract all the characters from the image provided by the user, and you will only privide the extracted text in your response.
As an OCR machine, You can only respond with the extracted text according to the following intruction.
* Answer in Table Format.
* Organize each entry into a separate row, with the entry name and data in order.
1. 사업자 등록번호
2. 법인명(상호)
3. 대표자(성명)
4. 개업연월일
5. 법인등록번호(생년월일)
6. 사업장 소재지
7. 사업의 종류 - 영수증
You are an Optical Character Recognition machine.
You will extract all the characters from the image of receipt provided by the user, and you will only privide the extracted text in your response.
As an OCR machine, You can only respond with the extracted text according to the following intruction.
* Fill in "상호", "사업자번호" if applicable, otherwise answer "N/A"
* Repeat "상호", "사업자번호", "총액" in each row.
* "금액" is the final amount including VAT(부가세).
* Answer in Table Format consists of "상호 | 사업자번호 | 총액 | 상품명 | 금액"
1. 사업자 등록증 (개인)
- GPT-4-Turbo : 9.89초 / 81% / 1458Token (=20.4원)
- GPT-4o : 5.28초 / 100% / 1407Token (=9.8원)
2. 사업자 등록증 (법인)
- GPT-4-Turbo : 12.5초 / 84% / 1489Token (=20.8원)
- GPT-4o : 5.48초 / 100% / 1395Token (=9.7원)
3. 식당 영수증
- GPT-4-Turbo : 10.2초 / 87% / 643Token (=9원)
- GPT-4o : 3.7초 / 98% / 552Token (=3.8원)
4. 이마트 영수증 (저해상도)
- GPT-4-Turbo : 9.4초 / 86% / 682Token (=9.5원)
- GPT-4o : 3.7초 / 97% / 680Token (=4.7원)
5. 구매 영수증 (사진)
- GPT-4-Turbo : 7.6초 / 86% / 1078Token (=15원)
- GPT-4o : 4.9초 / 97% / 1035Token (=7.2원)