الرؤية وملفات PDF وإدخال الملفات
Claude متعدّد الوسائط: يمكنك تضمين الصور والمستندات (مثل ملفات PDF) في رسالة وطرح أسئلة عنها — استخراج بيانات، أو وصف مخطّط بياني، أو تلخيص عقد، أو قراءة لقطة شاشة.
ثلاث طرق لإرسال ملف
- Base64 — رمّز البايتات داخل الطلب مباشرةً. الأبسط للحالات الفردية.
- URL — أشِر إلى ملف مُستضاف.
- Files API — ارفع مرة واحدة، ثم أحِل إليه عبر
file_idفي طلبات كثيرة (يتجنّب إعادة رفع الملفات الكبيرة).
# Conceptual: an image content block alongside text (see docs for exact fields)
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": b64}},
{"type": "text", "text": "What does this chart show? Give the top 3 takeaways."},
],
}]
تعمل ملفات PDF بطريقة مماثلة (كتلة محتوى مستند)؛ ويستطيع Claude قراءة النصّ والتخطيط البصري، ويمكنك طلب استشهادات تعيد إلى الموضع في المستند الذي جاءت منه الإجابة.
فيمَ يبرع
- الاستخراج — استخرج بيانات منظَّمة من الفواتير والنماذج والجداول (اقرنه بـالمخرجات المنظَّمة).
- فهم العناصر البصرية — المخطّطات البيانية، والرسوم التوضيحية، ولقطات الشاشة، وواجهات المستخدم.
- الأسئلة والأجوبة على المستندات — اطرح أسئلة عبر ملف PDF طويل مع استشهادات.
نصائح
- أعِد الاستخدام عبر
file_idعند إرسال المستند الكبير نفسه مرارًا — أرخص وأسرع. - الدقّة/الحجم يهمّان — قد تُقلَّص الصور الكبيرة جدًا؛ تحقّق من الحدود.
- تحقّق من الأرقام المستخرجة — الرؤية قوية لكنها ليست معصومة؛ راجع الأرقام الحرجة بشكل عشوائي (الهلوسات).
التالي
- المخرجات المنظَّمة
- توليد ملفات حقيقية (docx/pptx/xlsx/pdf)
- الرموز والتسعير — الصور تكلّف رموزًا أيضًا