"كل ما تريد أن تعرفه موجود على الإنترنت، لكنك لم تعثر عليه بعد..." مقولة تتردد منذ نشأة الانترنت... وقد يكون مبالغاً فيها أو سابقة لأوانها، لكن المؤكد أن الإنترنت يمثل أكبر مخزن للمعلومات في شتى أنواعها عرفته البشرية، ومتاح للجميع أينما كانوا وعلى ومدار الساعة. على ان سبر اغوار تلك الشبكة الهائلة وإيجاد ما نبحث عنه ليس امراً هيناً. ومن هنا أهمية محركات البحث Search Engines، التي تتجول بأذرعها العنكبوتية في أنحاء الإنترنت باستمرار ملتقطة معلومات عن الصفحات التي تعترضها، ثم تخزن الروابط في قاعدة بيانات ضخمة، تمكن الباحث من إيجاد تلك الصفحات لواسطة كلمات البحث التي يدخلها.
وتعتبر محركات البحث Search Engines الوسيلة الوحيدة للغوص في اعماق هذا المحيط الهائل من المعلومات والحصول على الصعيد الذي تريده، ولكن ليس كل من ركب البحر بحاراً إذا يواجه كثير من الأشخاص صعوبات في البحث عما يريدونه في الانترنت حيث يفاجأون عند البحث عن موضوع معين بآلاف النتائج Search results التي قد لا يتعلق اغلبها بالموضوع الذي يبحثون عنه.
وتحمل معظم محركات البحث معلومات وروابط عن صفحات الانترنت. فيمكن مثلاً لمحرك "غوغل" فهرسة أكثر من ثلاثة مليارات صفحة، لكن ذلك لا يمثل إلا 20 ٪ مما هو موجود ويمكن رؤيته فعلاً بواسطة الانترنت، كما يقول آلان شلاين، الاخصائي في أمور البحث بواسطة الانترنت، والذي يعطي ورش عمل تدريبية في مهارات البحث الالكتروني في أميركا وسائر أنحاء العالم، وهو مؤلف كتاب "إيجاده على الشبكة، الدليل الكامل للبحث بواسطة الانترنت" (Find It Online: The Complete Guide to online Research).
يقول آلان أن محركات البحث لا تبحث في جميع أنحاء الانترنت، ولا تبحث في كل صفحة في المواقع. "فا هي اذا هي تلك الأشياء التي لا تفهرسها؟ أنها لا تفهرس جيداً الصفحات التي يتم توليدها بطريقة ديناميكية dynamically generated، وهي لسوء الحظ، الآلية التي تستخدمها معظم المواقع الاحترافية الكبيرة. وحين تدخل محركات البحث إلى صفحة ما على الشبكة، فهي لا تفهرس منها في افضل الاحوال إلا أول 101 كيلوبايت.
كما ان هذه المحركات لا تفهرس الصفحات التي تحتاج إلى تسجيل وكلمة مرور، ولا تلك التي أضيفت آخيراً، فقد تمضي شهور أحياناً قبل أن تزور الصفحات الجديدة، إضافة إلى إنها لا تفهرس المعلومات الكامنة داخل صور أو ملفات فلاش. ثم انها صعيفة في فهرسة المواقع ذات الأطر Frames، كما انها لا تفهرس المعلومات الكامنة في قواعد البيانات Databases على المواقع على رغم ان معظم المعلومات الموسوعية المفيدة تكمن فيها.
وتقول شركة برايت بلانيت (Bright Planet) أن نحو 8000 تيرابايت من المعلومات تختفي في اعماق الإنترنت بينما لا يصل إلى السطح سوى 2 تيرابايت (كل واحد تيرابايت يساوي 1 تريليون بايت (6777261159901)، أو مليون مليون بايت. وتشكل قواعد البيانات الخاصة بمواضيع معينة حوالي نصف مواقع أعماق الانترنت هذه. ولذلك فالمعضلة الحالية تكمن في أن المعلومات التي لا تعثر عليها تعتبر معلومات غير موجودة ولا يتحمل أحد تلك الخسارة في الإقتصاد الحالي الذي سمي باقتصاد المعلومات.
كابوس البحث!
وتتطلب عملية البحث في أي مكتبة دليلاً أو أسلوباً محدداً للبحث لكن في حال الانترنت وشبكات الكومبيوتر الداخلية لا تتوافر في الغالب أدوات فعالة وجاهزة للبحث والاستكشاف ضمن مواد ضخمة تراوح بين النصوص والصور والوسائط المتعددة أحياناً.
ولأن معالم الإنترنت تتغير بصورة مستمرة فتغيب مواقع وتظهر أخرى بتقنيات جديدة مثل اعتمادها قواعد البيانات وغيرها من التقنيات التي دخلت في عالم مواقع وصفحات الإنترنت. ولذلك فإن مهارات البحث بواسطة الإنترنت تحتاج إلى صقل الأسلوب وتجديد الأدوات (أي محركات البحث) بغرض الوصول إلى المعلومات المطلوبة التي يستهدفها البحث. ويفترض أن المستخدم يدرك أن عليه في معظم الأحوال البحث عن الكلمات الرئيسة في الموضوع الذي يبحث عنه، ويفضل عدم استخدام جمل مفيدة أو عبارات كثيرة بل يجب البحث غالباً عن كلمة أو كلمتين في موضوع معين. وتذكر طريقة البحث بالمنطق الجبري Bolean وذلك باستخدام عبارات تحدد نتائج البحث، فإذا أردنا لنتائج البحث عن شخصية كريتشارد نيكسون مثلاً، أن تتضمن موضوعاً إضافياً مثل اليابان سنعتمد عبارة Nixon and Japan لنحصل على كل ما يرتبط بموضوع نيكسون واليابان أو إذا أردنا استثناء زوجته باتريسيا نيكسون، من نتائج البحث سنعتمد Nixon not Patricia وعلينا ملاحظة الحرف الكبير لعبارات الجبر Not or and إلخ.
وتتعقد الامور إذا حاولنا التفتيش عن ملف متعدد الوسائط (Multimedia) مثل فيلم أو ملف صوتي او اغنية. علماً بأن الإنترنت صار عنياً بالفيديو الذي يبث منها كميات هائلة وهو ما عقد الامور، اذ باتت عملية فهرسة الوسائط المتعددة أكثر تعقيداً من فهرسة النصوص. ويفترض تحويل هذه الملفات إلى نصوص مثل فيديو البث التلفزيوني الذي يتضمن نصاً رقمياً يقدم إلى من يعاني مشاكل في السمع كما هو الحال مع أفلام الفيديو الرقمي DVD قبل فهرستها. وبالاعتماد على برامج التعرف على الحروف OCR يمكن تحويل هذه الملفات إلى نصوص، كما يمكن لبرامج التعرف على الكلام أن تحول الصوت المنطوق في الملفات الصوتية، ويمكن البحث في قاعدة البيانات عن مادة فيديو عن طريق توجيه البحث للعثور على صورة ما. ويتم ذلك بتحديد بيانات الفيديو Video data ولدى بعض محطات التلفزيون مئات الآلاف من ساعات الفيديو على أشرطة أو مخزنة رقمياً على أقراص مدمجة أو اقراص فيديو رقمي DVD وهناك محركات بحث معدودة تقوم بفهرسة واستعادة الفيديو على الإنترنت، لكنها تعتمد على الفيديو المضمن في صفحات "الويب" تحت كلمات يمكن البحث عن خلالها أي أن العملية هي عملية بحث عن نص وليس عن فيديو في ذاته وكذلك هو حال الصور على محركات البحث في الإنترنت.
والأمل معقود اليوم على مجموعة من الباحثين في جامعة كولومبيا يعملون على تطوير برامج للبحث في الفيديو عن مزايا محددة مثل اشكال مميزة أو ألوان معينة أو حركة خاصة، وتتيح هذه البرامج لمستخدميها مثلاً اختيار صورة ثابتة من مصدر ما ثم يطلب من البرنامج البحث عن نتائج مطابقة لها في إطارات الفيديو، أو يمكن رسم شكل تقريبي للملف المطلوب ثم يطلب من البرنامج البحث عن صور مطابقة له في مقاطع الفيديو. ولا تقتصر فائدة هذا البرنامج الذي صار جاهزاً للعمل على مواقع الويب أو محطات التلفزة التي تضم مكتبات هائلة من الفيديو على هذا الامر وحده بل هناك الكثير من الاستخدامات الطبية وغيرها التي تنتظره بفارغ الصبر. لكن الحلول التامة لم تصل بعد إلى مرحلة الحلم إلى حقيقة ويتاح البحث عن الفيديو ليقدم نتائج دقيقة تماماً.
من جهة اخرى، تحاول هيئة معايير الإنترنت W3.ORG بتعريف لغة XML على أنها طريقة لإنشاء البيانات ذات البنى Structured Data في ملف نصي، وما نعنيه بالبيانات ذات البنى هو ملفات مثل الجداول الإلكترونية Spreadsheets ودفاتر العناوين، والرسوم التقنية والصفقات المالية. وتقوم البرامج التي تولد هذه البيانات بتخزينها على أقراص بنسق ثنائي (1 و 0) BINARY أو بنسق نص. ويتيح النسق الاول مشاهدة البيانات دون الاعتماد على البرنامج الذي قام بتوليدها. ولغة XML هي طريقة أو إرشادات إلى تصميم نسق النص لتلك البيانات، لايجاد ملفات سهلة التوليد والقراءة على الكومبيوتر بصورة مستقلة عن نظام التشغيل. وهذه اللغة تحسين أداء صفحات الويب والتطبيقات المتفاعلة معها أو التي تعمل بتقنياتها حيث يتم التعامل مع هذه الملفات دون مشاكل في التوافق والتي تقدم لغة التعليم القابلة للتوسع XML، Extensible Markup Language كوسيلة مهمة للبحث الدقيق. حيث تتضمن صفحات الويب المكتوبة بلغة ترميز النص المترابط HTML معلومات عن كيفية عرض النص. لكن هذه اللغة لا تقدم لنا طريقة لوصف محتويات النص حيث يضيع المعنى بسبب الافتقار إلى تعليمه وتمييزه من حيث المعنى والمضمون. كما تقدم لغة XML نظاماً معيارياً لمستعرضات الويب والتطبيقات الاخرى للتعرف على البيانات في العلامات البرمجية TAGS. وستحل هذه اللغة معضلة البحث بواسطة الويب فبدلاً من البحث ضمن كامل النص في صفحة ما يمكن لمحركات البحث اعتماد علامات برمجية للغة XML لتحديد أي جزء من الصفحات يجب أن يجري البحث فيه للوصول إلى نتائج دقيقة. فمثلاً، يمكن للبحث عن شخص مشهور أن يورد نتائج تتضمن جامعات أو شوارع أو مدناً تحمل إسمه، إضافة إلى موضوعات عدة مثل المحاضرات عنه.
وتقوم في الوقت الراهن معظم أدوات البحث بفهرسة الوثائق الاعتمادية مثل النصوص وملفات تحرير النص كوورد وملفات ادوبي PDF، وهي محركات بحث نصية من دون بنية خاصة بينما تقدم لغة XML حلاً لتخزين البيانات ذات البنى يمكن اعتمادها في قواعد البيانات وتقديم طرق متطورة للوصول إلى هذه البيانات. وسيكون في الإمكان الحصول على البيانات مهما كانت صغيرة أو معقدة لتقديم تقارير تجيب عن أسئلة وعمليات بحث كثيرة مثل الاستفسار في شركة هن عدد سلع معينة تم بيعها في شهر محدد من العام المنصرم مثلاً إذا فالبحث عن النص يدور حول الوثائق بصورة كليه أما لغات الاستفسار query languages في قواعد البيانات فتسعى خلف أنواع أخرى من البيانات مثل حقل مفرد بعلامة برمجية معينة TAG أو سجل يضم حقولاً متعددة. كما أن البحث في النص يجلب قائمة من الوثائق تحمل في طياتها معلومات هي نتيجة البحث، بينما تجلب لغات الاستفسار بيانات استخلصت من وثيقة مثل حقل معلم أو سجلات متعددة.