تقنية الـ Web Scraping.. كيف تكتب سكربت للحصول على بيانات أشهر المواقع؟

WEB SCRAPING ARAGEEK
عز الدين عادل
عز الدين عادل

6 د

تخيل أنك صاحب متجر لبيع منتج ما يريد أن يعرف الأنواع المتاحة قبل أن يشرع في شراء بضاعته. يمكنك فعل ذلك من خلال موقع أمازون كمثال عن طريق البحث و تدوين البيانات يدويًا. الأمر شاق و ممل للغاية أليس كذلك؟ ماذا إن أخبرتك أنك تستطيع جمع كل تلك البيانات بشكل منسق و بتفاصيل دقيقة كموديل و سعر و تقييم المنتج. ذلك من خلال تقنية Web Scraping.

في عالم مليء بالبيانات حيث أصبح سعر كمية قليلة من البيانات القَيِّمة قد يضاهي أحيانًا أسعار الذهب. تستخدم تقنية Web Scraping تقنيات الأتمتة مخلوطة بالذكاء الاصطناعي لجمع عدد هائل من البيانات في وقت قصير. دعونا نتعرف على تقنية الـ Web Scraping، وكيف تمثل عصًا سحرية لجامعي البيانات.


ما هي تقنية Web Scraping؟

Web Scraping, إذا ترجمناها للمعنى الحرفي فهي تعني كشط مواقع الويب لاستخراج البيانات المخفية. بمعنى آخر, هي تقنية تستخدم برامج أوتوماتيكية لجمع البيانات المنثورة بشكل غير منظم داخل أكواد HTML الخاصة بمواقع الويب. حيث يتم جمعها بشكل منظم داخل جداول Excel أو بناء قاعدة بيانات تجمع كل تلك البيانات لتستخدمها في عدة مهام سنذكرها لاحقًا.

هناك عدة طرق لتطبيق تقنية Web Scraping. يمكنك استخدام خدمات إلكترونية تقوم هي بمهام Web Scraping أو الاستفادة من الـ API التي تطلقها شركات محددة. أيضًا إذا كنت تمتلك الخبرة الكافية في البرمجة, فيمكنك إنشاء كود كامل يقوم بمهام جمع البيانات بالطريقة التي تريدها. لحسن الحظ, أكبر الشركات أمثال Facebook و Twitter و غيرها, توفر API أو برامج خاصة بها تخولك للوصول إلى بياناتها بشكل منظم دون الحاجة إلى استخدام تقنيات خارجية. لكن بالطبع هناك بعض المواقع التي لا توفر تلك الإمكانية. إما خوفًا من المخترقين أو لأنهم لا يملكون تلك التقنية بعد. وهنا يصبح الحل الأمثل هو استخدام تقنية Web Scraping لاستخراج البيانات.


الـ Crawler والـ Scraper.. ما هما؟

ذو صلة

تتألف تقنية Web Scraping من جزأين, الزاحف (Crawler) و الكاشط (Scraper).

  • الزاحف (Crawler): تصف الكلمة نفسها. هي خوارزمية ذكاء اصطناعي تزحف في أنحاء المواقع بحثًا عن البيانات المراد استخراجها. من خلال الروابط التي توفرها له.
  • الكاشط (Scraper): هي أداة تقوم على استخراج البيانات من الموقع بعدة طرق مختلفة تختلف تلك الطرق وفقًا لحجم البيانات و درجة تعقيدها.

كيف تعمل تقنية Web Scraping؟

الـ Web Scraping تقوم على جمع البيانات التي تريدها من خلال التوغل داخل أكواد بناء الموقع. قد يحدد المستخدم البيانات التي يريدها وقد لا يحدد. الأفضل دائمًا هو تحديد ماذا تريد أن تستخرج من بيانات من الموقع المستهدف. لنعود إلى المثال الذي بدأنا به. ربما ترغب في جمع البيانات الخاصة بمنتج محدد على موقع أمازون. قد تحتاج فقط إلى الحصول على اسم الشركة المصنعة للمنتج أو السعر فقط مع تجاهل البيانات الخاصة بتقييمات الزبائن و عناوين فروع الشركة. تحديد البيانات المطلوبة يسرع من عملية استخراج البيانات و يزيد من دقتها.

تبدأ العملية من خلال توفير رابط الموقع المطلوب استخراج بياناته. ومن ثم يبدأ الـ Scraper في تحليل أكواد الـ HTML الخاصة ببناء الموقع. بعض برامج الـ Web Scraping المتقدمة تعمل على تحليل أكواد التنسيق CSS و البرمجة Javascript أيضًا. بعد انتهاء مرحلة التحليل, يتم تحديد البيانات المطلوبة والعمل على جمعها بشكل منظم بالصيغة التي يختارها المستخدم. غالبًا ما تخرج البيانات في صيغة CSV أي شيت Excel.


ما هي أنواع الـ Web Scrapers؟

تختلف أنواع Web Scrapers من طريقة بنائها و طريقة عملها. بداية من بنائها بنفسك او استخدام ملحقات المتصفحات أو برامج الكمبيوتر. وحتى الخدمات السحابية و عمليات جمع البيانات المحلية.
Web Scrapers مبنية يدويًا: تتطلب هذه الطريقة معرفة جيدة ومتقدمة بلغات البرمجة، ومع ازدياد مطالبك تزداد المعرفة المطلوبة لتنفيذها. لكن بالطبع هناك برامج جاهزة بُنيت يدويًا من قبل الآخرين يمكنك استخدامها دون معرفة مسبقة بالبرمجة.

ملحقات المتصفحات: تعدّ الطريقة الأسهل. فهي تتألف من ملحق تتم إضافته لمتصفحك لتستطيع استخراج البيانات في أثناء استخدامك للمواقع. لكنه محدود بعدة أمور لأنه يعمل من خلال متصفحك و لا يملك الصلاحيات والموارد الموجودة على جهازك لاستخدام طرق متقدمة في جمع البيانات.

برامج الـ Web Scraping: على الجانب الآخر تتفوق برامج الكمبيوتر على ملحقات المتصفحات نظرًا لإتاحة جميع موارد الجهاز لها. لذلك يمكنها أداء عمليات أكثر تعقيدًا لجمع البيانات كما أنها لا تزال تملك سهولة الوصول و لا تتطلب معرفة عميقة بلغات البرمجة.

خدمات Web Scraping السحابية: بدلًا من استهلاك موارد جهازك يمكنك اللجوء إلى الخدمات السحابية التي تمكنك من الوصول إلى أجهزة متقدمة في مكان آخر تقوم هي بعمليات Scraping و تنتج لك البيانات المطلوبة بالشكل المطلوب. دون الحاجة لاستهلاك جهازك لتتمكن من أداء مهام أخرى.

عمليات Web Scraping المحلية: تعتمد بشكل كبير على موارد جهازك. فعند قيامك بعمليات تتطلب مساحة كبيرة من الذاكرة العشوائية Ram تتسبب في بطء جهازك بشكل كبير.


لغة Python, لماذا تعد الأكثر شيوعًا لعمليات Web Scraping؟

تسيطر الموضة على لغات البرمجة كما تسيطر على الملابس. حيث أصبحت لغة Python موضة اللغات. نظرًا لأسباب لا تحصى أهمها سهولة تعلم اللغة وقلة التعقيدات. كما تملك اللغة قوة كبيرة للقيام بعمليات دقيقة ومعقدة بشكل مثالي. لكن السبب الأهم الذي يجعلها اللغة الأكثر شيوعًا لإتمام عمليات Web Scraping هو توفر عدة مكتبات رائعة متخصصة في هذا المجال. مثل مكتبة Scrapy، هي المكتبة الأكثر شيوعًا لعمليات Scraping. تعد المكتبة الأمثل لجمع البيانات و كذلك سهولة تعاملها مع API الخاصة بالشركات. و أيضًا مكتبة Beautiful soup التي تعد مكتبة عالية الدقة في جمع البيانات.


فيم تستخدم تقنية Web Scraping؟

تملك تقنية Web Scraping قيمة كبيرة في عدة صناعات. تفقد هذه المجالات التي تستخدم تلك التقنية.

1- مراقبة الأسعار
تستخدم الشركات تقنية Web Scraping لجمع بيانات منتجاتهم و منتجات منافسيهم لمقارنة الأسعار وتحديد ما إذا كانت استراتيجية التسعير الخاصة بهم تسير على الطريق الصحيح. ومن ثم يعملون على إصلاح عملية التسعير لتحقيق أكبر مكاسب.

2- دراسة السوق
سابقًا كانت تتم دراسة السوق بطرق عديدة مثل جمع الآراء و الاستبيانات و غيرها. لكن في عصر البيانات أصبحت الشركات تستخدم تقنيات Web Scraping لجمع بيانات عملائها وتحليلها لمعرفة ما يجذب الزبائن وتحديد الاستراتيجية الصحيحة.

3- مراقبة الأخبار
خدمات جمع بيانات الأخبار تقدم تقارير مفصلة لأصحاب المواقع الإخبارية بمساعدتهم في عملهم اليومي لتغطية أخبار الساعة. قد تعد هذه الخدمة أساسية لمن تمثل التغطية الخبرية مصدر رزقهم. لكن يمكن الاستفادة منها أيضًا في مجالات أخرى مشابهة.

4- مراقبة المشاعر
يمكن أن تستنبط من خلال البيانات ما هي مشاعر المستهلكين تجاه منتجاتك. حيث أصبحت ضرورة لا غنى عنها. من خلال تقنية Web Scraping تعمل الشركات على تحليل البيانات الصادرة من منصات التواصل الاجتماعي مثل تفاعل المستهلكين و عدد الإعجابات. مراقبة مشاعر المستهلكين تجاه المنتجات الخاصة بهم.

5- التسويق بالبريد الإلكتروني
يعد جمع إيميلات المستخدمين العملية الأهم ضمن عمليات التسويق باستخدام البريد الإلكتروني. حيث تأتي تقنية Web Scraping لتكشف لك عن كم كبير من إيميلات المستخدمين من خلال تحليل بيانات منصات التواصل و المواقع الإلكترونية. و من ثم تبدأ عملية إرسال كم هائل من رسائل البريد الترويجية لأصحاب هذه الإيميلات.

لا يمكن تغطية جميع جوانب تلك التقنية في هذه المقالة, فلا يزال هناك المزيد من التفاصيل حولها بالإضافة إلى التقنيات المرتبطة بها بشكل مباشر أو غير مباشر. لكن بالتأكيد إذا كنت تتساءل يومًا ما عن تقنيات جمع البيانات, فها هي بدايتك مع أحد أهم تلك التقنيات.

عبَّر عن رأيك

إحرص أن يكون تعليقك موضوعيّاً ومفيداً، حافظ على سُمعتكَ الرقميَّة واحترم الكاتب والأعضاء والقُرّاء.

ذو صلة
متعلقات