Công nghệ

Wikimedia kêu cứu trước làn sóng khai thác dữ liệu không kiểm soát bởi AI

Gia Bảo 19/04/2025 23:42

Wikimedia cảnh báo tình trạng các doanh nghiệp AI khai thác dữ liệu miễn phí quá mức, đẩy hệ thống vào nguy cơ quá tải và thiếu hụt tài chính.

Trong khi AI ngày càng phát triển và trở thành công cụ hỗ trợ đắc lực cho nhiều ngành công nghiệp, một hệ quả tiêu cực cũng bắt đầu lộ diện: các tổ chức phi lợi nhuận như Wikimedia đang phải đối mặt với sức ép nặng nề từ việc khai thác dữ liệu miễn phí quá mức.

Wikimedia cảnh báo về cơn bão thu thập dữ liệu

Đầu tháng 4/2025, Quỹ Wikimedia chính thức lên tiếng cảnh báo về tình trạng hệ thống AI tự động thu thập dữ liệu quy mô lớn từ các nền tảng của họ, đặc biệt là Wikipedia và Wikimedia Commons. Các bot AI liên tục “hút” hàng terabyte dữ liệu để phục vụ quá trình huấn luyện các mô hình ngôn ngữ lớn (LLM), khiến lượng băng thông tải nội dung đa phương tiện tăng vọt tới 50% chỉ trong vòng ba tháng đầu năm 2024.

Đáng chú ý, hầu hết các công ty khai thác lượng dữ liệu khổng lồ này không hề có đóng góp tài chính ngược lại cho Wikimedia, đẩy quỹ phi lợi nhuận này vào thế khó trong việc duy trì hạ tầng phục vụ cộng đồng.

Wikimedia kêu cứu trước làn sóng khai thác dữ liệu không kiểm soát bởi AI
Các bot AI liên tục “hút” hàng terabyte dữ liệu để phục vụ quá trình huấn luyện các mô hình ngôn ngữ lớn. Ảnh minh họa

Chi phí vận hành gia tăng đột biến

Từ lâu, Wikimedia đã cung cấp hàng trăm triệu tệp dữ liệu miễn phí phục vụ giáo dục, nghiên cứu và công nghệ. Tuy nhiên, kể từ đầu năm 2024, tốc độ thu thập dữ liệu từ các hệ thống AI ngày càng gia tăng mạnh mẽ. Các phương thức khai thác bao gồm việc crawl trực tiếp, truy cập qua API và tải dữ liệu hàng loạt nhằm “nuôi” các mô hình trí tuệ nhân tạo.

Hậu quả là chi phí duy trì server, băng thông và quản lý hạ tầng đã tăng vọt, nhưng nguồn thu tài chính từ các tổ chức sử dụng dữ liệu này lại gần như bằng không. Wikimedia buộc phải đối mặt với gánh nặng tài chính ngày càng lớn trong khi vẫn muốn duy trì tinh thần cung cấp tri thức miễn phí cho toàn thế giới.

Sự cố hé lộ vấn đề nghiêm trọng

Một ví dụ điển hình về áp lực này xảy ra vào cuối năm 2024 khi cựu Tổng thống Mỹ Jimmy Carter qua đời. Wikipedia ghi nhận hàng triệu lượt truy cập vào trang tiểu sử của ông, đi kèm với việc phát trực tuyến một video dài 1,5 giờ được lưu trữ trên Wikimedia Commons. Cú sốc lưu lượng bất ngờ khiến hạ tầng Wikimedia gần như quá tải.

Tuy nhiên, phân tích kỹ thuật cho thấy nguyên nhân thực sự không chỉ đến từ người dùng bình thường. Lượng lớn băng thông vốn đã bị chiếm dụng âm thầm từ trước bởi các bot AI tự động quét dữ liệu đa phương tiện, khiến hệ thống dễ dàng rơi vào tình trạng quá tải khi có thêm sự kiện bất thường.

Không chỉ Wikimedia: toàn bộ thế giới mã nguồn mở đang chịu ảnh hưởng

Vấn đề mà Wikimedia đang đối mặt không phải là cá biệt. Nhiều dự án trong cộng đồng phần mềm miễn phí và mã nguồn mở (FOSS) cũng phải triển khai các biện pháp mạnh tay để tự bảo vệ.

Fedora đã từng buộc phải chặn toàn bộ lưu lượng từ Brazil sau khi phát hiện hành vi thu thập dữ liệu ồ ạt. GNOME đã thêm cơ chế "proof-of-work" nhằm hạn chế bot truy cập quá mức vào nền tảng GitLab. Read the Docs thậm chí còn phải cắt giảm chi phí băng thông bằng cách chặn hoàn toàn các trình thu thập dữ liệu AI.

Những động thái này cho thấy một xu hướng rõ ràng: khi AI bùng nổ, các kho tri thức mở trở thành mục tiêu thu thập khổng lồ, nhưng đồng thời lại phải tự mình gánh chịu thiệt hại về tài chính và hạ tầng.

>> 20 năm tới AI và Robot sẽ cướp hết việc làm của con người, Bill Gates cảnh báo tương lai lạnh gáy!

Bước đột phá từ Trung Quốc trong cuộc đua trí tuệ nhân tạo toàn cầu

Trí tuệ nhân tạo được Amazon hậu thuẫn tăng tốc cạnh tranh với OpenAI, tung gói thuê bao cao cấp giá 200 USD/tháng

Theo Kiến thức Đầu tư
https://dautu.kinhtechungkhoan.vn/wikimedia-keu-cuu-truoc-lan-song-khai-thac-du-lieu-khong-kiem-soat-boi-ai-287179.html
Bài liên quan
Đừng bỏ lỡ
    Nổi bật Tỷ giá mới
    Wikimedia kêu cứu trước làn sóng khai thác dữ liệu không kiểm soát bởi AI
    POWERED BY ONECMS & INTECH