كــــــلــــمة و رؤيــــــــا

ضغط البيانات

معن حيدر:

- هو ليس الضغط الجوي ولا هو ضغط الدم، بل هو إجراء يتم على البيانات المتداولة في عالم الإنترنت والكومبيوتر ووسائل التواصل
يسمى ضغط البيانات Data compression.
في البدء أودّ أنْ أنوّه إلى مثال عملي:
تظهر لنا على شاشة الموبايل أحيانًا رسالة تقول (إنّ ذاكرة الموبايل امتلأتْ)، وتطلب منا أن نعيد ترتيبها، فندخل إلى ما يسمى ملفاتي My files لنجد قائمة تحلّل ذاكرة الموبايل:
1-نظام التشغيل، تطبيقات البرامج Apps، وبرامج أخرى: وهي أساسية لتشغيل الموبايل، لا يمكن مسحها.
2-الصور وتسجيلات الصوت والفيديو والوثائق والملفات الأخرى: وهي تخصّنا ويمكن التصرف بها. ومن عادتي أنْ أمسحها أسبوعياً.
و الشيء نفسه يمكن تطبيقه على الكومبيوتر في الموبايل الذي أستخدمه يستحوذ نظام التشغيل والتطبيقات على 60% تقريبًا من ذاكرة الموبايل (حوالي 20 جيجا بايت من أصل 32 جيجا بايت).
فإذا علمنا أنّ كلا من نظام التشغيل وتطبيقات البرامج هي عبارة عن ملفات تنفيذية، وأنّه تمّ (ضغطها) لتقليل حجمها، وأنّه لولا ذلك لشغلتْ ذاكرة الموبايل كله.
وإذا علمنا أيضًا أنّ كل ما نتداوله على وسائل التواصل من: صُوَر وتسجيلات صوتية وفيديوهات ووثائق نصيّة، نخزّنه أو نقوم بإعادة إرساله إلى الأصدقاء، تُسمى ملفات الوسائط المتعددة، وأنّه تمّ (ضغطها) أيضًا لتقليل حجمها وتسريع نقلها
إذا علمنا ذلك نعلم لماذا نحتاج ضغط البيانات وما هي أهميته
تقنيًا: يهدف ضغط البيانات إلى تصغير حجمها لتقليل الحيّز الذي تشغله على قرص التخزين، وتقليص الوقت اللازم لنقلها عبر الإنترنت وبالتالي تخفيض التكاليف
-ربما يكون أقرب مثال مجازي يتبادر لذهننا تشبيهًا لعملية الضغط هو طيّ الأوراق أو الرسائل
ولكنه مثال بعيد من الناحية التقنية
أما أقرب مثال عمليّ فهو الاختزال Shorthand المعروف لدى الصحفيين خاصة أثناء متابعتهم المؤتمرات الهامة، وهو طريقة للكتابة بسرعة عن طريق استخدام اختصارات أو رموز أو أشكال
-يتم ضغط البيانات عن طريق إعادة هيكلتها باستخدام عدد (بتات) أقل من تلك المستخدمة في الأصل
بواسطة برنامج يستخدم خوارزمية Algorithm يقوم بتقليل حجم البيانات بشكل فعّال
وبالمقابل يضمن إمكانية استعادة الملفات، أي فك الضغط.
وهناك العديد من الخوارزميات الخاصة بضغط البيانات (سأضع في أول تعليق قائمة بأهمها)
++يمكن تقسيم طريقة الضغط إلى نوعين:
+النوع الأول: ضغط بدون فقدان بيانات Loseless ويُستخدم للملفات الهامة كبرامج التشغيل ومعلومات قاعدة البيانات وملفات تطبيقات البرامج
المبدأ الأساسي الذي تعمل عليه خوارزميات الضغط بدون فقدان هو حذف غير الضروري منها وإزالة التكرار داخل البيانات لتقليل الحجم الملف الكلي، باستخدام تقنيات النمذجة الإحصائية التي تحدّد احتمالية ظهور حرف أو عبارة. يمكن بعد ذلك استخدام هذه النماذج الإحصائية لإنشاء رموز لأحرف أو عبارات معينة بناءً على احتمالية حدوثها، وتعيين أقصر الرموز للبيانات الأكثر شيوعًا.
بحيث يمكن إعادة بناء الملف الأصلي دون ضياع أي جزء من المعلومات.
كانت أوّل خوارزمية ضغط دون فقدان البيانات، هي خوارزمية شانون-فانو Shannon-Fano، في عام 1949.
بعد ذلك، طوّر ديفيد هوفمانHuffman الطالب في معهد ماساتشوستس للتكنولوجيا خوارزمية ضغط بدون فقدان البيانات في عام 1952
في هذه الخوارزمية، يتم تعيين رمز متغير الطول لإدخال أحرف مختلفة، يرتبط طول الرمز بعدد مرات استخدام الأحرف. تُعطى الأحرف الأكثر شيوعًا أصغر الرموز (Codes)، وتعطى رموز أطول للأحرف الأقل تكرارًا.
حيث يتم تمثيل الأحرف (أو النماذج Symbols) الأكثر تكرارًا بشكل عام باستخدام وحدات بت أقل من الأحرف الأقل تكرارًا.
وقد استنبط خوارزميته هذه من نظرية تردد الحروف Letter frequency أو تواتر تكرار الحروف
((تردد الحروف هو عدد المرات التي تظهر فيها أحرف الأبجدية في المتوسط في اللغة المكتوبة. يعود تحليل تردد الحروف إلى عالم الرياضيات العربي الكندي (801-873 م)، الذي طوّر رسميًا طريقة لكسر الشيفرة)) ويكيبيديا
وربما يكون كود مورس هو أول تطبيق عملي لتردد الحروف
من البرامج التي تعتمد على خوارزمية هوفمان: Winzip أو stuffit أو لـ Unix folk ، gzip .
تتضمن تنسيقات (الضغط بدون فقد): PNG للصور و FLAC للصوت و ZIP للبيانات التي تُستخدم لملفات البرامج في Windows.
++النوع الآخر: الضغط مع فقدان البيانات Lossy:
يحقق نسب ضغط أعلى بكثير على حساب جودة الملف.
يخفّض الحجم عن طريق حذف المعلومات غير الضرورية، مثل تقليل عدد الألوان في صورة ما أو تقليل عدد العيّنات في ملف صوتي. مما يؤدي إلى خسارة في جودة الصورة أو ملف الصوت
++ أما بالنسبة لضغط الوسائط المتعددة: الصور والصوت والفيديو.
نطرًا لكمية المعلومات (البيانات) الهائلة التي تتضمنها تلك الوسائط، وطبيعتها الديناميكية (المتغيرة مع الزمن)، فإنّه يتم ضغط معظم ملفات الصور والصوت والفيديو باستخدام تنسيقات الضغط مع فقدان البيانات Lossy
يتم استخدام تنسيقات مثل: JPEG للصور/ و MP3 للصوت/ و MPEG للفيديو
ونطرًا لخصوصية ضغط الوسائط المتعددة وتعقيداته سأفرد له منشورًا لاحقًا
هوامش:
1-تُظهر التحليلات الحديثة أن ترددات الحروف تميل إلى التباين، حسب الكاتب والموضوع.
يمكن حساب تكرار الحرف Letter، والكلمات ذات الحرفين bigram، والكلمات ذات الحروف الثلاث trigram، وتكرار الكلمات، وطول الكلمة، وطول الجملة
لمؤلفين محددين، واستخدامها لإثبات أو دحض تأليف النصوص، حتى بالنسبة للمؤلفين الذين لا تختلف أساليبهم كثيراً
2- على سيرة طيّ الورق فقد حصل معي منذ سنوات عدة حادثة طريفة وغريبة، كان حاضرًا عليها أحد الزملاء اكتشفنا فيها (ورقة مطوية) في مكان ما، قال لي صاحبي أنها رصد... وسأوافيكم بالتفاصيل لاحقًا (وإن كنت لا أؤمن بها).