Công ty mẹ TikTok ra mắt bot thu thập dữ liệu có tốc độ nhanh gấp 25 lần OpenAI
Theo một nghiên cứu gần đây, bot của TikTok hoạt động với tốc độ đáng kinh ngạc, gấp nhiều lần so với các đối thủ cạnh tranh như Google, Meta hay OpenAI.
Kasada, một công ty chuyên quản lý bot cho các doanh nghiệp có dữ liệu trực tuyến, cho biết ByteDance  đã phát hành một trình thu thập dữ liệu web hay bot thu thập dữ liệu - được gọi là Bytespider - vào khoảng tháng 4.
Dark Visitors, đơn vị giám sát các bot thu thập dữ liệu, cũng đã xác nhận điều này.
Nghiên cứu của Kasada cho thấy bot của ByteDance đã nhanh chóng trở thành một trong những trình thu thập dữ liệu "hung hăng" nhất trên internet. Nó đang thu thập dữ liệu với tốc độ gấp nhiều lần những ông lớn khác như Google, Meta, Amazon, OpenAI  và Anthropic.
Những công ty này sử dụng bot thu thập dữ liệu của riêng họ để giúp tạo và cải thiện các mô hình ngôn ngữ lớn, được gọi là LLM hoặc LMM.
Sam Crowther, CEO của Kasada, tiết lộ rằng kể từ khi Bytespider xuất hiện, nó đã thu thập dữ liệu với tốc độ gấp khoảng 25 lần GPTbot - trình thu thập dữ liệu cho nền tảng ChatGPT và các mô hình cơ bản của OpenAI.
Không chỉ vậy, Bytespider cũng thu thập dữ liệu với tốc độ gấp 3.000 lần so với ClaudeBot của Anthropic, công ty vận hành nền tảng Claude.
Theo Kasada, Bytespider ngày càng trở nên mạnh hơn. Dữ liệu cho thấy hoạt động thu thập dữ liệu từ bot này đã tăng đột biến trong 6 tuần qua.
Việc ByteDance thu thập dữ liệu một cách hung hăng diễn ra bất chấp khả năng TikTok bị cấm tại Mỹ trong những tháng tới. Trước đó, Tổng thống Joe Biden đã ký một đạo luật yêu cầu công ty Trung Quốc này phải bán hoặc đóng cửa TikTok do lo ngại về an ninh quốc gia.
Những tranh cãi xoay quanh
Nghiên cứu của Kasada chỉ ra, bot Bytespider, giống như bot của OpenAI và Anthropic, không tuân theo robots.txt.
Được biết robots.txt là một dòng mã mà các nhà xuất bản có thể cài vào trang web, mặc dù không ràng buộc về mặt pháp lý, nhưng được cho là để báo hiệu cho các bot thu thập dữ liệu rằng chúng không thể lấy dữ liệu của trang web đó.
Việc thu thập dữ liệu trên web đã diễn ra từ nhiều thập kỷ trước, chủ yếu bởi các công cụ tìm kiếm thu thập liên kết đến các trang web.
Tuy nhiên, sự gia tăng của các công cụ AI đã biến hoạt động này thành nguyên nhân chính của nhiều vụ kiện và tranh cãi. Những cá nhân và tổ chức có sản phẩm bị thu thập cho rằng bản quyền của họ đang bị xâm phạm trong quá trình này.
Tất cả các mô hình cơ bản của công cụ AI đều được đào tạo trên một lượng lớn dữ liệu trực tuyến, về cơ bản là mọi thứ có sẵn trên web, đặc biệt là thông tin bằng văn bản. Kế đó, các công ty công nghệ sẽ sử dụng bot thu thập dữ liệu để sao chép tất cả thông tin này miễn phí và đưa vào bộ dữ liệu của họ.
“Giống như họ đang cố gắng một cách tuyệt vọng để bắt kịp vậy”, Crowther nói về việc Bytespider đang thu thập dữ liệu một cách hung hăng.
Chỉ riêng năm ngoái, ByteDance được cho là tụt hậu rất xa trong cuộc đua AI đến mức họ đã sử dụng OpenAI để giúp xây dựng LLM của riêng mình, điều này trái với điều khoản dịch vụ của OpenAI.
Một nguồn tin khác cho hay, ByteDance được cho là đang nghiên cứu một LLM mới có liên quan đến chức năng tìm kiếm cho TikTok.
Tuần trước, ứng dụng này đã phát hành bản cập nhật cho chức năng tìm kiếm hiện tại, tập trung vào từ khóa cho quảng cáo nhằm cho phép các nhà quảng cáo biết được những từ đang thịnh hành trên TikTok theo thời gian thực.
Từ đó, các nhà tiếp thị có thể xây dựng một quảng cáo với những từ khóa có liên quan, giúp quảng cáo này hiển thị trên màn hình của nhiều người dùng hơn.
Theo Fortune
>> ‘Người anh em Trung Quốc’ của TikTok trở thành “đế chế” mới trong lĩnh vực thương mại điện tử