تنسيق المستندات

أفضل الممارسات لإعداد المستندات قبل رفعها إلى قاعدة معرفة البوت.

طريقة تنسيق مستنداتك تؤثر مباشرة على جودة استرجاع البوت للمعلومات وإجاباته منها. المستندات المنظمة جيداً تؤدي إلى ردود أدق وأكثر صلة.

قائمة تحقق سريعة

قبل رفع أي مستند، تأكد من:

  • العناوين تستخدم أنماط عناوين فعلية (وليس مجرد نص غامق أو كبير)
  • المحتوى منظم بتسلسل هرمي واضح
  • موضوع رئيسي واحد لكل مستند
  • لا توجد معلومات مهمة محصورة داخل صور
  • الملف بصيغة مدعومة (PDF، DOCX، TXT، MD، CSV)

مستندات Word

مستندات Word تعمل بشكل أفضل عند استخدام أنماط العناوين المدمجة:

الفرق الجوهري

  • صحيح: استخدام أنماط Heading 1 وHeading 2 وHeading 3 من لوحة الأنماط في Word
  • خاطئ: تكبير النص وتغليظه يدوياً ليبدو كعنوان

البوت يعتمد على أنماط العناوين لفهم بنية المستند. العناوين المنسقة يدوياً تبدو متشابهة للعين البشرية لكن البوت لا يستطيع تمييزها عن النص العادي.

البنية المقترحة

  • العنوان — عنوان المستند (استخدم نمط Title)
  • Heading 1 — الأقسام الرئيسية
  • Heading 2 — الأقسام الفرعية
  • Heading 3 — المواضيع التفصيلية ضمن الأقسام الفرعية
  • نص أساسي — الفقرات العادية

استخدم ميزات القوائم المدمجة في Word (المرقمة والنقطية) بدلاً من كتابة الأرقام يدوياً.

ملفات PDF

ملفات PDF الأصلية (مستحسن)

ملفات PDF الأصلية تُنشأ من مستندات رقمية (مُصدّرة من Word أو Google Docs وغيرها). يمكنك تحديد النص ونسخه منها. تُعالج بسرعة ودقة عالية.

ملفات PDF الممسوحة ضوئياً (دعم محدود)

ملفات PDF الممسوحة ضوئياً هي صور لمستندات ورقية. يعالجها النظام باستخدام تقنية OCR (التعرف البصري على الحروف)، لكن الدقة تتفاوت:

  • النصوص المكتوبة بخط اليد تُتعرف عليها بشكل ضعيف
  • المسح بدقة منخفضة ينتج أخطاء
  • التخطيطات المعقدة (أعمدة متعددة، جداول بحدود) قد تُقرأ بشكل خاطئ

عند الإمكان، استخدم المستند الرقمي الأصلي بدلاً من النسخة الممسوحة.

النص العادي وMarkdown

كلا الصيغتين تعملان بشكل جيد. للحصول على أفضل النتائج:

  • استخدم عناوين أقسام واضحة
  • افصل المواضيع بأسطر فارغة
  • استخدم تنسيقاً متسقاً للقوائم
  • عناوين Markdown (#، ##، ###) يُتعرف عليها وتُستخدم لبنية المستند

أزواج الأسئلة والأجوبة (صيغة CSV)

للمحتوى المنظم على شكل سؤال وجواب:

  • استخدم عمودين بالضبط: question وanswer
  • ضمّن رؤوس الأعمدة في الصف الأول
  • زوج سؤال وجواب واحد لكل صف
  • اجعل الإجابات موجزة وكاملة
question,answer
ما هي سياسة الإرجاع؟,يمكن إرجاع المنتجات خلال 30 يوماً من الشراء مع الإيصال الأصلي.
هل توفرون شحناً دولياً؟,نعم. نشحن إلى جميع دول الخليج. يستغرق التوصيل من 3 إلى 7 أيام عمل.

الصور في المستندات

البوت لا يستطيع قراءة النص داخل الصور. يشمل ذلك:

  • لقطات شاشة لنصوص أو جداول
  • الإنفوجرافيك مع تسميات نصية
  • الملاحظات المكتوبة بخط اليد والممسوحة ضوئياً
  • الرسوم البيانية مع تعليقات نصية

إذا كانت هناك معلومات مهمة في صورة، أضف نفس المعلومات كنص عادي في المستند.

الصور أيضاً تُبطئ المعالجة بشكل كبير. احذف الصور التزيينية (الشعارات، الخلفيات، الصور التوضيحية) قبل الرفع.

الأخطاء الشائعة

الخطأالأثرالحل
نص غامق بدلاً من أنماط العناوينالبوت لا يستطيع تحديد الأقسامطبّق أنماط Heading في Word
مواضيع متعددة في مستند واحد كبيراسترجاع محتوى غير ذي صلة مع الإجاباتقسّمه إلى مستندات منفصلة ومركّزة
معلومات مهمة في الصور فقطالبوت لا يستطيع الوصول للمعلوماتأضف نسخة نصية بجانب الصور
ملف PDF ممسوح مع وجود النسخة الرقميةدقة أقل ومعالجة أبطأارفع الملف الرقمي الأصلي
عدم حذف المستندات القديمةالبوت يعطي إجابات غير صحيحةاحذف أو استبدل الملفات القديمة
عدم وجود بنية واضحة للمستنددقة استرجاع ضعيفةأضف عناوين ونظّم المحتوى