پیامدهای ممنوعیت حرکت هوش مصنوعی (Implications of the AI Crawling Ban)
در ژوئیه سال ۲۰۲۵، شرکت کلادفلر (Cloudflare) اعلامیهای مهم صادر کرد. این شرکت تصمیم گرفت حرکتهای هوش مصنوعی را از طریق پیادهسازی یک جریان مبتنی بر اجازه (permission-based flow) مسدود کند، و به این ترتیب دسترسی آزاد و نامحدودی را که آموزش مدلهای هوش مصنوعی از آن بهرهمند بودند و بخش بزرگی از رشد فعلی هوش مصنوعی بر پایهٔ آن شکل گرفته بود، حذف کند.
این اقدام، پرسشهای انتقادی زیادی را دربارهٔ آیندهٔ آموزش مدلهای هوش مصنوعی، حقوق مالکیت فکری دادههای عمومی، و فرآیندهای دسترسی به دادهها به وجود آورد. برای بسیاری از افراد، این تصمیم بهمنزلهٔ نقطهای تعیینکننده در نبرد بر سر هوش مصنوعی بدون نظارت تلقی میشود، تغییری لرزهانگیز در رابطه بین مدلهای هوش مصنوعی و دادههایی که به آنها وابستهاند. برای دیگران، این تصمیم بیشتر شبیه به یک حرکت تجاری است تا اخلاقی، فرصتی برای ایجاد جریانهای درآمدی از هیچ.
امروز، قرار است تصمیم کلادفلر را بررسی کنیم، ببینیم چه چیزهایی را ممکن است تحت تأثیر قرار دهد، و دربارهٔ پیامدهایی که این اقدام برای سیستمهای هوش مصنوعی ایجاد کرده است صحبت کنیم.
نحوهٔ کار مدلهای زبانی بزرگ (LLM AI Models)
پیش از آنکه دربارهٔ رویکرد کلادفلر صحبت کنیم، باید بررسی کنیم که مدلهای زبانی بزرگ (LLMها) چگونه کار میکنند و چگونه این سیستمها از دادههای عمومی برای آموزش استفاده میکنند.
نوآوری کلیدی در پشت مدلهای زبانی بزرگ مدرن که توسط OpenAI و Claude پشتیبانی میشوند، معماری ترنسفورمر (Transformer Architecture) است. برخلاف روشهای قبلی که متن را بهصورت واژهبهواژه (token-by-token) پردازش میکردند، ترنسفورمرها کل دنباله را تحلیل کرده و وزن نسبی بین هر واژه را محاسبه میکنند. به عبارت دیگر، این معماری به کل جمله نگاه میکند و زمینه (context) میان اجزای سازنده را برقرار میسازد، و هم روابط بین واژهها را در قالب بافت ارتباطی مشخص میکند و هم احتمال ظاهر شدن واژهها یا عبارات مرتبط در همان زمینه را تعیین مینماید.
زمانی که این جمله از طریق یک مدل زبانی بزرگ (LLM) پردازش میشود، ابتدا این داده توکنایز (tokenize) میشود:
از این مرحله به بعد، داده به یک بردار تعبیهشده (embedded vector) با ابعاد بالا تبدیل میشود:
در این مرحله، مدل بردارهای تعبیهشده را از طریق یک مدل ریاضی عبور میدهد تا رابطه میان «پرسوجو» (Query – Q)، «کلید» (Key – K)، و «مقدار» (Value – V) را مشخص کند.
یک روش رایج برای انجام این کار، «محصول نقطهای مقیاسشده» (Scaled Dot Product) است — معادلهای که امتیاز توجه (Attention Score) را میان واژههای خاص تعیین میکند:
به بیان ساده، این روش جملهٔ ما را بررسی کرده و تعیین میکند که واژهای مانند “community” توجه بالایی نسبت به “largest”، “API” و “experts” دارد، در حالی که “Nordic” از نظر بافتی بهشدت با “APIs” مرتبط است.
از این نقطه، میتوان از مدل خواست جملهای مشابه تولید کند، و با استفاده از وزنهایی که تولید شدهاند، همراه با سایر سیستمهای محاسباتی مانند محاسبات چندسر توجه (multi-head attention) و شبکههای پیشخور (feed-forward networks)، جملهای مشابه قابل محاسبه خواهد بود.
چرا این موضوع مهم است
دلیل اینکه این موضوع اهمیت دارد، این است که این مدلها ذاتاً به زمینه (context) وابسته هستند. هرچه دادهٔ بیشتری در این فرآیند وارد کنید، دقت خروجی بیشتر خواهد شد. جملهٔ تکی که ارائه دادیم تنها میتواند تعداد محدودی ترکیب جدید تولید کند — و این ترکیبات تقریباً مشابه خواهند بود مگر در حد جایگزینی چند مترادف. برای تولید محتوایی که «مشتق اما اصیل» به نظر برسد (مفهومی که خود بهنوعی قابل بحث است)، نیاز به دادهٔ بیشتر است تا نویز، پیچیدگی و بافت بیشتری به واژگان مدل افزوده شود.
برای ارائهدهندگان مدلهای هوش مصنوعی، این امر منجر به نوعی رقابت نرم شده است: هرچه دادهٔ بیشتری در دسترس باشد، مدل بهتر خواهد بود و تنظیم دقیق آن برای رسیدن به نتایج خاص آسانتر میشود.
در برخی موارد، این دادهها در خود شرکت ارائهدهندهٔ مدل وجود دارند. برای مثال، یک سرویس شبکهٔ اجتماعی ممکن است مدل هوش مصنوعی خود را بر اساس دادههای کاربرانش آموزش دهد. در موارد دیگر، استفاده از دادهها مبهمتر است؛ مانند ادعای استفادهٔ فیسبوک از کتابهای دزدیشده برای آموزش مدل Llama متعلق به شرکت Meta.
برای چندین سال، شرکتهای هوش مصنوعی برای گردآوری مجموعهدادههای عظیم مورد نیاز برای آموزش مدلها، به دادههای در دسترس عمومی و خزیدن (web scraping) متکی بودهاند. این مجموعهدادهها موجب افزایش شدید پیچیدگی و توانایی مدلهای هوش مصنوعی شدهاند و پیشرفتهایی را در حوزههایی از پژوهشهای پزشکی تا شعر مولد رقم زدهاند.
اما مشکل اصلی اینجاست که هیچکدام از این دادهها واقعاً «جدید» نیستند. مدلهای هوش مصنوعی بهطور ذاتی مشتقشده هستند، و زمانی که مجموعهدادهها شامل آثار دارای حق نشر یا دادههایی باشند که خالقان و صاحبان آنها رضایت صریح ندادهاند، مشکلات بزرگی پدید میآیند، از جمله:
-
نقض حریم خصوصی دادهها، بهویژه در حوزههای تحت قوانین GDPR، جایی که افراد نمیتوانند رضایت صریح خود را برای استفاده از دادههایشان در آموزش اعلام کنند.
-
نگرانیهای مربوط به حق کپیرایت، در مواردی که مدلها با دادههای تحت حق نشر آموزش داده شدهاند و گاه خروجیهایی تولید میکنند که ادعا میشود ناقض همان حقوق هستند.
-
نگرانیهای حقوقی و اخلاقی دربارهٔ اصالت آثار هنرمندان و توانایی آنها در دسترسی به بازار.
تغییر مسیر
با در نظر گرفتن تمام این زمینه، میتوان دید چرا کلادفلر تصمیم گرفته است که شرایط را تغییر دهد. در حال حاضر، فضای داده عملاً مانند یک میدان آزاد است؛ جایی که کلادفلر هزینه میکند تا محتوا را ذخیره و ارائه دهد، سرویسها برای میزبانی محتوا هزینه میپردازند، کاربران اغلب بهصورت مستقیم یا غیرمستقیم برای تولید محتوا هزینه میکنند، و مدلهای هوش مصنوعی از این دادهها بهرایگان استفاده میکنند.
یک توافق رسمی میتواند این سیستم را دگرگون کند و اکوسیستمی شفاف ایجاد کند که میان نوآوری در سیستمهای هوش مصنوعی و محافظت از حقوق و داده تعادل برقرار نماید.
ممنوعیتی که توسط کلادفلر اجرا شده است، چند گروه خاص از افراد را تحت تأثیر قرار میدهد:
-
شرکتهای هوش مصنوعی مانند OpenAI، Anthropic و Google که از جذب داده در مقیاس وسیع برای مدلهای آموزشی خود استفاده میکنند.
-
تولیدکنندگان محتوا و صاحبان حقوق مالکیت فکری که اغلب بدون رضایتشان آثارشان در مدلهای هوش مصنوعی بازنمایی میشود.
-
ارائهدهندگان API که از مدلهای باز یا بسته برای ارائهٔ ویژگیها و خدمات خاص بهره میبرند.
نحوهٔ اجرای مسدودسازی خزندههای هوش مصنوعی
اجرای سیستم کلادفلر برای کنترل دسترسی هوش مصنوعی از چند روش استفاده میکند.
نخست، از روش فیلترسازی بر اساس شناسهٔ کاربر (User-Agent Filtering) استفاده میکند. این سیستم امضاهای شناختهشدهٔ خزندههای هوش مصنوعی را شناسایی و مسدود میکند، و بدین ترتیب، بخش عمدهای از دسترسیهای آشکار و رسمی را متوقف میسازد. برای ارائهدهندگانی که خزندههای خود را بهعنوان هوش مصنوعی معرفی میکنند، این فرایند عملاً باعث هدایت مجدد عملیات حرکت به یک سرویس یا سیستم دیگر میشود که بهطور خاص برای پیادهسازی هوش مصنوعی طراحی شده است، و اگر چنین جایگزینی وجود نداشته باشد، دسترسی بهطور کامل مسدود میشود.
با این حال، همهٔ ارائهدهندگان صادقانه عمل نمیکنند. برای آنهایی که سیستمهای خود را بهعنوان هوش مصنوعی معرفی نمیکنند، محدودسازی نرخ (Rate Limiting) و تحلیل الگوهای درخواست (Request Pattern Analysis) میتواند تفاوت میان درخواستهای انسانی و ماشینی را مشخص کند و رفتارهای غیرعادی را که نشانهٔ حرکت خودکار است تشخیص دهد. این روش بخش بزرگی از سیستمهایی را که خود را بهعنوان هوش مصنوعی معرفی نمیکنند شناسایی خواهد کرد.
در نهایت، فرآیند گستردهتری تحت عنوان فهرست کنترل دسترسی (Access Control List – ACL) پیادهسازی خواهد شد که به تولیدکنندگان محتوا امکان میدهد تا سیستم دقیقتری برای کنترل دسترسی خزندههای هوش مصنوعی داشته باشند. این سیستم آخر، روش اصلی برای پیادهسازی مدل «پرداخت بهازای هر کلیک» (Pay-per-click) است که اغلب از آن یاد میشود؛ سیستمی که اجازه میدهد ترافیک محدود و کنترلشده باشد.
پیامدها برای آموزش مدلها
مدلهای هوش مصنوعی برای گسترش آموزش خود و بهبود ارزش کلی داده به دادههای متنوع نیاز دارند. تغییر از وضعیت آزاد و بدون محدودیتی که تاکنون بر فضای هوش مصنوعی حاکم بوده، تغییری عظیم است — و تغییری که پیامدها و تأثیرات فراوانی به همراه دارد.
در وهلهٔ اول، هنگامی که آموزش مدل دیگر «رایگان» نباشد، احتمالاً شاهد مجموعهدادههای کوچکتر اما باکیفیتتری خواهیم بود. زمانی که ناچار باشید در انتخاب دادههای خود دقت بیشتری به خرج دهید، آن دادهها معمولاً گزینشیتر و باارزشتر خواهند بود. احتمالاً در آینده، نشانههای کمتری از «فروپاشی مدلهای هوش مصنوعی» مشاهده خواهد شد، زیرا محتوای تولیدشده توسط هوش مصنوعی معمولاً از نظر کیفیت و ارزش پایینتر از محتوای تولیدشده توسط انسان است.
این موضوع، همراه با افزایش هزینههای آموزش، بهاحتمال زیاد در کوتاهمدت منجر به مدلهایی گرانتر اما کارآمدتر خواهد شد.
همزمان با اینکه ارائهدهندگان هوش مصنوعی از دادهٔ رایگان فاصله میگیرند، ممکن است راهحلهای دیگری مانند تولید دادهٔ مصنوعی (Synthetic Data Generation) جایگزین کاهش دسترسی به دادهٔ رایگان شود. با این حال، باید توجه داشت که دادهٔ مصنوعی میتواند بهسرعت باعث افزایش «فروپاشی مدل» شود، بنابراین به احتمال زیاد این فقط یک راهحل موقت برای ارائهدهندگان خواهد بود، پیش از آنکه آنها به سمت روشهای پرداخت بهازای حرکت (Pay-per-Crawl) حرکت کنند.
پیامدها برای صاحبان حقوق مالکیت فکری (IP Holders)
برای صاحبان حقوق فکری و تولیدکنندگان محتوا، این موضوع یک پیروزی بزرگ محسوب میشود. درست مانند قوانین حریم خصوصی و حاکمیت دادهها (مانند GDPR، CCPA و غیره) که شرکتها را مجبور کردند تا دربارهٔ نحوهٔ ذخیرهسازی و دسترسی به دادهها بازنگری کنند، این تغییر بزرگ احتمالاً رابطهٔ میان داده و هوش مصنوعی را نیز متحول خواهد کرد.
اگرچه این تحول تمام مشکل را بهطور کامل حل نخواهد کرد، اما مانعی در برابر حرکت سادهٔ داده ایجاد میکند و در نتیجه، ارزش داده را بازمیگرداند و اولویتهای مدلها را به سمت اهدافی مشخصتر و قابل اجرا سوق میدهد.
احتمالاً این تحول، مسیرهای قانونی بیشتری برای محافظت از دادهها باز خواهد کرد. ما پیشتر نیز شاهد ادعاهایی مبنی بر نقض دادهها و حق کپیرایت توسط مدلهای هوش مصنوعی در مقیاس بزرگ بودهایم، اما بسیاری از این موارد بهدلیل وضعیت مبهم دادهها بدون پیگرد باقی ماندهاند.
اگر یک سیستم «پرداخت برای حرکت» وجود داشته باشد و ارائهدهندهای عمداً آن را دور بزند تا به دادههای دارای حق نشر دست یابد، دیگر این موضوع در منطقهٔ خاکستری قانونی قرار ندارد — بلکه به پروندهای حقوقی تبدیل میشود که دفاع از آن بسیار دشوار خواهد بود.
پیامدها برای ارائهدهندگان API
ارائهدهندگان API ممکن است از بزرگترین ذینفعان این تغییر باشند. APIها دسترسی ساختاریافته و قانونمند به داده را ارائه میدهند — دقیقاً همان چیزی که ارائهدهندگان API پس از این تغییر به آن نیاز خواهند داشت.
ارائهدهندگان میتوانند از طریق محدودسازی نرخ (Rate Limiting)، کنترلهای دسترسی (Access Controls) و سیاستهای استفاده (Usage Policies)، APIهای خود را به منبعی درآمدزا تبدیل کنند و همچنین بتوانند کیفیت دادههایی را که وارد مدلهای هوش مصنوعی میشود کنترل نمایند.
احتمالاً این تغییر باعث ایجاد صنعتی تازه در زمینهٔ «دادههای آموزشی API» خواهد شد — دادههایی تمیز، دقیق و بدون نقض حق نشر.
این روند همچنین با حرکت گستردهتر به سمت طراحی مبتنی بر API (API-first design) همراستا است؛ جایی که APIها جایگزین روشهای سنتی مانند حرکت (scraping) و یکپارچهسازیهای دستی میشوند و دادهها را به شیوهای هوشمندانهتر و قابل کنترلتر در اختیار سیستمها قرار میدهند.
پیامدها برای شرکتهای هوش مصنوعی
جالب آنکه، این تغییر ممکن است در نهایت به نفع خود شرکتهای هوش مصنوعی نیز تمام شود، حتی اگر در نگاه اول چنین به نظر نرسد.
در حالی که دسترسی رایگان به دادهها تاکنون به این سیستمها اجازه داده تا مدلهای قدرتمندی بسازند، آنها اغلب با مشکلاتی مانند توهم (hallucination) و کمبود کیفیت داده روبهرو بودهاند. زمانی که این مدلها با میلیاردها صفحهٔ وب عمومی آموزش داده میشوند، تشخیص دادهٔ باکیفیت از دادهٔ بیکیفیت دشوار است.
اگرچه در کوتاهمدت این تغییر برای ارائهدهندگان هوش مصنوعی پرهزینهتر خواهد بود، اما در بلندمدت، نتیجهٔ آن کنترل بهتر و اعتماد بیشتر خواهد بود — دو عاملی که هوش مصنوعی در سال ۲۰۲۵ بهشدت به آن نیاز دارد.
اثرات موجی بزرگ (Big Ripple Effects)
در نهایت، این اقدام با واکنشهای متفاوتی روبهرو خواهد شد. کسانی که به «دسترسی آزاد به دادهها» اعتقاد دارند و بر این باورند که تمام دادههای عمومی باید برای آموزش هوش مصنوعی در دسترس باشند، احتمالاً با آن مخالف خواهند بود.
اما برای کسانی که خالق محتوا هستند و میخواهند از آثار خود محافظت کنند، این تصمیم یک پیروزی بزرگ محسوب میشود.
در بلندمدت، این تغییر به سلامت و رشد پایدارتر صنعت منجر خواهد شد و بهبودهای قابلتوجهی را رقم خواهد زد، اما در کوتاهمدت، زمینهساز نبردی جالب میان اخلاق، حقوق داده و دسترسی اخلاقمدارانه به اطلاعات در دههٔ پیشرو خواهد بود.
