لماذا تمنع وسائل الإعلام الذكاء الاصطناعي من أرشيف الإنترنت

0 0 2 دقائق

نحو 245 مؤسسة إعلامية حول العالم في تسعة بلدان تحاول حجب روبوتات الزحف التابعة لـ”Internet Archive”. وهذه برامج آلية تلتقط المحتوى من صفحات الويب، وتعرضه وتؤرشفه في الواجهة العامة لـ”Internet Archive” المعروفة باسم “Wayback Machine”.

اعلان

يضم الأرشيف أكثر من تريليون صفحة إنترنت تعود أرشفتها إلى عام 1996، ما يجعله واحدا من أكبر مصادر المعلومات العامة في العالم. وتشمل هذه الصفحات مقالات قديمة لوسائل إعلام كبرى مثل “CNN” و”The New York Times” و”The Guardian” و”USA Today”.

تُستخدم هذه الصفحات لأغراض متعددة، على سبيل المثال كمصادر أولية للمؤرخين، أو لإثبات التعديلات التي أُدخلت على المواد بعد نشرها.

عدة مؤسسات إعلامية تدفع الآن باتجاه حجب روبوتات الزحف، بعد أن بدأت شركات الذكاء الاصطناعي تستخدم محتوى الأرشيف لتدريب النماذج اللغوية الكبيرة “LLMs” من دون دفع مقابل عادل أو الحصول على إذن.

أكثر من 20 مؤسسة إعلامية كبرى تحجب بالفعل روبوت الزحف الرئيسي “ia_archiverbot” الذي يستخدمه “Internet Archive” لـ”Wayback Machine”، بحسب تحليل أجرته شركة “Originality AI” المتخصصة في رصد محتوى الذكاء الاصطناعي.

مع ذلك، يتم حجب واحد على الأقل من روبوتات الزحف الأربعة التابعة للأرشيف من جانب 241 موقع أخبار عالمي. ويعود جزء كبير من هذه المواقع المحجوبة إلى شركة “USA Today Co”، أكبر ناشر صحف في الولايات المتحدة، ما يعني أن مئات الصحف المحلية أزيحت عمليا من السجل التاريخي.

مخاطر استخدام الأرشيف لتدريب أنظمة الذكاء الاصطناعي

يوفّر المحتوى الإخباري المؤرشف كميات ضخمة من النصوص والصور عالية الجودة لتدريب نماذج الذكاء الاصطناعي الكبيرة على كتابة أقرب إلى أسلوب البشر. ويتاح هذا المحتوى عبر عناوين “URL” وواجهات “API” التي تسمح للبرامج المختلفة بالتواصل في ما بينها وطلب البيانات، لتعمل كجسر يربط بين الأنظمة.

هذا يجعل وصول شركات الذكاء الاصطناعي إلى البيانات المؤرشفة وتدريب النماذج عليها أكثر سهولة.

ومن مزايا محتوى “Internet Archive” أنه منظم ومؤرّخ ومُسند إلى مصادره مسبقا.

وقد رُصد بالفعل الكثير من بيانات “Internet Archive” في مجموعات البيانات الأساسية المستخدمة لتدريب أنظمة الذكاء الاصطناعي. لكن هذا يمثل نقطة ضعف كبيرة بالنسبة للمؤسسات الإخبارية التي رفعت دعاوى على شركات مثل “Perplexity” و“OpenAI” بتهمة انتهاك محتمل لحقوق النشر.

وقال غراهام جيمس، المتحدث باسم صحيفة “The New York Times”، نقلا عن موقع “The Next Web”: “المشكلة أن محتوى “Times” الموجود على “Internet Archive” يُستغل من جانب شركات الذكاء الاصطناعي في انتهاك لقانون حقوق النشر، للمنافسة معنا بشكل مباشر”.

وأضاف: “تستثمر “Times” قدرا هائلا من الموارد في إنتاج صحافة أصلية، ولا يجوز استخدام هذا العمل من دون إذن منا”.

من جهتها، اتخذت مؤسسات أخرى مثل “The Guardian” موقفا أكثر حذرا، عبر تقييد وصول الأرشيف إلى محتواها بدلا من حظره بالكامل.

“Internet Archive” يؤكد أنه “أضرار جانبية”

يؤكد مدير “Wayback Machine”، مارك غراهام، أن مؤسسته ليست سوى “أضرار جانبية”، وأن المسؤول الحقيقي هي شركات الذكاء الاصطناعي التي تصل إلى المحتوى القديم عبر واجهات الأرشيف.

مع ذلك، اتخذ الأرشيف إجراءات خاصة به للحد من هذا الاستخدام، من بينها منع تنزيل كميات كبيرة من مواد بعض المواقع، وتقييد الاستخراج الآلي للبيانات في حالات معينة.

وشدد غراهام على أن الأرشيف يشكل أداة حيوية للحفظ، إذ من دونه يمكن تعديل المقالات غير المؤرشفة من دون تفويض أو مساءلة، سواء عبر تغيير أو حذف الاقتباسات، أو تصحيح الأخطاء، أو إعادة توجيه الادعاءات والتصريحات الرسمية.

وتقوم “Wayback Machine” حاليا برصد هذه التغييرات وتوثيقها.

وقد دفع هذا الوضع بعض وسائل الإعلام إلى محاولة العمل مع “Internet Archive” لإيجاد تسويات أو حلول وسط تقوم على تقييد الوصول بدلا من الحجب الكامل.

وبالمثل، أطلقت منظمة “Fight for the Future” غير الربحية والمدافعة عن الحقوق الرقمية عريضة، وقّعها بالفعل 100 صحفي يعملون حاليا، للاحتجاج على سياسات الحجب، في وقت تزداد فيه السجالات حول السجلات العامة وكتابة التاريخ.

فريق التحريرمنذ ساعتين

0 0 2 دقائق