- https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o
- [text, image, audio, video] -> {GPT-4o} -> [text, image, audio]
- 그간 보이스 채팅은 세가지로 개별 모델 작동 되었는데... 이젠 하나의 모델로 통합!
- 즉, "글자-시각-청각" 을 인지하여~ 일괄적으로 처리하는 하나의 신경망이 등장 했다는것!!!
- (API 상으로 아직은 여전히 txt, img 만 지원하는데... 곧 추가 된다고 함)
-
import base64 # url 업로드 없이, 이미지 요청 하는법 with open("/test.png", "rb") as img: img64 = base64.b64encode(img.read()).decode("utf-8") res = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"}, {"role": "user", "content": [ {"type": "text", "text": "What's the area of the triangle?"}, {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img64}"}}, ]} ], temperature=0.0, ) # 비디오(frames) 요청 하는법 ....
- 텍스트, 오디오, 비쥬얼 등등 다양한 입력약식을 통합하면... AI 모델의 복합적인 성능이 크게 향상된다고 함.
- 여윽시 Multi-Modal 방식으로 접근하니~ 정보를 인식하고 처리하는 방식이 보다 포괄적으로 되었다 함!
- 인간을 이해하고 상호 작용이 가능해졌다... ㄷㄷㄷ
- https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding
- ...
- https://cookbook.openai.com/examples/whisper_prompting_guide
- https://cookbook.openai.com/examples/whisper_processing_guide
- https://cookbook.openai.com/examples/whisper_correct_misspelling
- ...
- https://cookbook.openai.com/examples/third_party/how_to_automate_s3_storage_with_functions
- ...
- ...
-끝-
'AI' 카테고리의 다른 글
Lang🦜 (feat. teddynote) (0) | 2024.10.24 |
---|---|
ElevenLabs Docs (0) | 2024.09.25 |
OpenAI Doc2 (0) | 2024.05.25 |
OpenAI Cookbook (CHAT COMPLETIONS) (0) | 2024.05.24 |
OpenAI API & Lib (0) | 2024.05.24 |