मुख्य कंटेंट तक स्किप करें

विज़न, PDF और फ़ाइल इनपुट

मध्यम

Claude मल्टीमोडल है: आप एक संदेश में छवियाँ और दस्तावेज़ (जैसे PDF) शामिल कर सकते हैं और उनके बारे में प्रश्न पूछ सकते हैं — डेटा निकालें, एक चार्ट का वर्णन करें, एक अनुबंध का सारांश दें, एक स्क्रीनशॉट पढ़ें।

फ़ाइल भेजने के तीन तरीक़े

  1. Base64 — बाइट्स को अनुरोध में इनलाइन एनकोड करें। एक-बार के लिए सबसे सरल।
  2. URL — किसी होस्ट की गई फ़ाइल की ओर इंगित करें।
  3. Files API — एक बार अपलोड करें, फिर इसे कई अनुरोधों भर में file_id द्वारा संदर्भित करें (बड़ी फ़ाइलों को फिर से अपलोड करने से बचाता है)।
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]

PDF भी इसी तरह काम करते हैं (एक document content block); Claude पाठ और दृश्य लेआउट पढ़ सकता है, और आप यह अनुरोध कर सकते हैं कि उत्तर दस्तावेज़ में कहाँ से आया, इसके लिए उद्धरण वापस मिलें।

यह किसमें बेहतरीन है

  • निष्कर्षण — इनवॉइस, फ़ॉर्म, तालिकाओं से स्ट्रक्चर्ड डेटा निकालें (स्ट्रक्चर्ड आउटपुट के साथ जोड़ें)।
  • दृश्यों को समझना — चार्ट, आरेख, स्क्रीनशॉट, UI।
  • दस्तावेज़ Q&A — उद्धरणों के साथ एक लंबे PDF भर में प्रश्न पूछें।

टिप्स

  • वही बड़ा दस्तावेज़ बार-बार भेजते समय file_id के साथ पुनः उपयोग करें — सस्ता और तेज़।
  • रिज़ॉल्यूशन/आकार मायने रखते हैं — बहुत बड़ी छवियाँ डाउनस्केल की जा सकती हैं; सीमाएँ जाँचें।
  • निकाले गए आँकड़े सत्यापित करें — विज़न मज़बूत है पर अचूक नहीं; महत्वपूर्ण आँकड़ों की स्पॉट-जाँच करें (भ्रम)।

आगे