تنسيق المستندات
أفضل الممارسات لإعداد المستندات قبل رفعها إلى قاعدة معرفة البوت.
طريقة تنسيق مستنداتك تؤثر مباشرة على جودة استرجاع البوت للمعلومات وإجاباته منها. المستندات المنظمة جيداً تؤدي إلى ردود أدق وأكثر صلة.
قائمة تحقق سريعة
قبل رفع أي مستند، تأكد من:
- العناوين تستخدم أنماط عناوين فعلية (وليس مجرد نص غامق أو كبير)
- المحتوى منظم بتسلسل هرمي واضح
- موضوع رئيسي واحد لكل مستند
- لا توجد معلومات مهمة محصورة داخل صور
- الملف بصيغة مدعومة (PDF، DOCX، TXT، MD، CSV)
مستندات Word
مستندات Word تعمل بشكل أفضل عند استخدام أنماط العناوين المدمجة:
الفرق الجوهري
- صحيح: استخدام أنماط Heading 1 وHeading 2 وHeading 3 من لوحة الأنماط في Word
- خاطئ: تكبير النص وتغليظه يدوياً ليبدو كعنوان
البوت يعتمد على أنماط العناوين لفهم بنية المستند. العناوين المنسقة يدوياً تبدو متشابهة للعين البشرية لكن البوت لا يستطيع تمييزها عن النص العادي.
البنية المقترحة
- العنوان — عنوان المستند (استخدم نمط Title)
- Heading 1 — الأقسام الرئيسية
- Heading 2 — الأقسام الفرعية
- Heading 3 — المواضيع التفصيلية ضمن الأقسام الفرعية
- نص أساسي — الفقرات العادية
استخدم ميزات القوائم المدمجة في Word (المرقمة والنقطية) بدلاً من كتابة الأرقام يدوياً.
ملفات PDF
ملفات PDF الأصلية (مستحسن)
ملفات PDF الأصلية تُنشأ من مستندات رقمية (مُصدّرة من Word أو Google Docs وغيرها). يمكنك تحديد النص ونسخه منها. تُعالج بسرعة ودقة عالية.
ملفات PDF الممسوحة ضوئياً (دعم محدود)
ملفات PDF الممسوحة ضوئياً هي صور لمستندات ورقية. يعالجها النظام باستخدام تقنية OCR (التعرف البصري على الحروف)، لكن الدقة تتفاوت:
- النصوص المكتوبة بخط اليد تُتعرف عليها بشكل ضعيف
- المسح بدقة منخفضة ينتج أخطاء
- التخطيطات المعقدة (أعمدة متعددة، جداول بحدود) قد تُقرأ بشكل خاطئ
عند الإمكان، استخدم المستند الرقمي الأصلي بدلاً من النسخة الممسوحة.
النص العادي وMarkdown
كلا الصيغتين تعملان بشكل جيد. للحصول على أفضل النتائج:
- استخدم عناوين أقسام واضحة
- افصل المواضيع بأسطر فارغة
- استخدم تنسيقاً متسقاً للقوائم
- عناوين Markdown (
#،##،###) يُتعرف عليها وتُستخدم لبنية المستند
أزواج الأسئلة والأجوبة (صيغة CSV)
للمحتوى المنظم على شكل سؤال وجواب:
- استخدم عمودين بالضبط:
questionوanswer - ضمّن رؤوس الأعمدة في الصف الأول
- زوج سؤال وجواب واحد لكل صف
- اجعل الإجابات موجزة وكاملة
question,answer ما هي سياسة الإرجاع؟,يمكن إرجاع المنتجات خلال 30 يوماً من الشراء مع الإيصال الأصلي. هل توفرون شحناً دولياً؟,نعم. نشحن إلى جميع دول الخليج. يستغرق التوصيل من 3 إلى 7 أيام عمل.
الصور في المستندات
البوت لا يستطيع قراءة النص داخل الصور. يشمل ذلك:
- لقطات شاشة لنصوص أو جداول
- الإنفوجرافيك مع تسميات نصية
- الملاحظات المكتوبة بخط اليد والممسوحة ضوئياً
- الرسوم البيانية مع تعليقات نصية
إذا كانت هناك معلومات مهمة في صورة، أضف نفس المعلومات كنص عادي في المستند.
الصور أيضاً تُبطئ المعالجة بشكل كبير. احذف الصور التزيينية (الشعارات، الخلفيات، الصور التوضيحية) قبل الرفع.
الأخطاء الشائعة
| الخطأ | الأثر | الحل |
|---|---|---|
| نص غامق بدلاً من أنماط العناوين | البوت لا يستطيع تحديد الأقسام | طبّق أنماط Heading في Word |
| مواضيع متعددة في مستند واحد كبير | استرجاع محتوى غير ذي صلة مع الإجابات | قسّمه إلى مستندات منفصلة ومركّزة |
| معلومات مهمة في الصور فقط | البوت لا يستطيع الوصول للمعلومات | أضف نسخة نصية بجانب الصور |
| ملف PDF ممسوح مع وجود النسخة الرقمية | دقة أقل ومعالجة أبطأ | ارفع الملف الرقمي الأصلي |
| عدم حذف المستندات القديمة | البوت يعطي إجابات غير صحيحة | احذف أو استبدل الملفات القديمة |
| عدم وجود بنية واضحة للمستند | دقة استرجاع ضعيفة | أضف عناوين ونظّم المحتوى |