OpenAI nói khó tránh nội dung bản quyền khi đào tạo AI

“Khái niệm bản quyền ngày nay bao trùm gần như mọi loại biểu hiện của con người, từ bài đăng blog, diễn đàn, hình ảnh cho đến mã code phần mềm và tài liệu, nên không thể đào tạo mô hình AI hàng đầu nếu không sử dụng tài liệu có bản quyền”, OpenAI nêu trong bức thư gửi lên Ủy ban Kỹ thuật số và Truyền thông thuộc Hạ viện Anh cuối tuần trước, sau khi cơ quan này điều tra về rủi ro đối với các mô hình AI như ChatGPT.

Sam Altman, đồng sáng lập và cựu CEO OpenAI. Ảnh: TechCrunch — Sam Altman, nhà đồng sáng lập và CEO OpenAI. Ảnh: *TechCrunch*

Theo bản đệ trình, nếu chỉ lấy dữ liệu miễn phí vốn đã có cách đây hàng thập kỷ để huấn luyện, AI “chỉ mang lại trải nghiệm thú vị nhưng không đáp ứng đủ các yêu cầu mà người dùng ngày nay cần”. OpenAI khẳng định sẽ tuân thủ luật bản quyền, nhưng “còn nhiều việc phải làm để hỗ trợ cho người sáng tạo”.

OpenAI đang trong tầm ngắm về bản quyền, khi giới nhà văn, nghệ sĩ, nhà khoa học… cáo buộc các mô hình như ChatGPT sử dụng tác phẩm của họ để đào tạo mà không xin phép hoặc trả tiền tác quyền. Cuối năm ngoái, New York Times đã nộp đơn kiện với lý do OpenAI và Microsoft sử dụng hàng triệu bài báo để đào tạo các mô hình ngôn ngữ lớn (LLM). Ngày 6/1, hai nhà văn và nhà báo cũng kiện hai công ty này vì sử dụng tác phẩm của họ để làm dữ liệu huấn luyện mô hình GPT.

Theo Washington Post, các mô hình LLM như ChatGPT hoạt động bằng cách thu thập tài nguyên khổng lồ trên Internet, sau đó phân tích các mối liên hệ, phát triển khả năng dự đoán từ nào sẽ nói tiếp theo trong câu để bắt chước lời nói của con người. OpenAI, Microsoft và Google nhiều lần từ chối tiết lộ dùng dữ liệu gì để đào tạo AI, nhưng các LLM trước đây được chứng minh đã sử dụng lượng lớn nội dung có bản quyền.

Nghiên cứu được công bố ngày 5/1 của Hiệp hội Kỹ sư Điện và Điện tử IEEE cho thấy Midjourney và Dall-E 3 của OpenAI, hai trong số các mô hình AI tạo ảnh, có thể dựng lại cảnh có bản quyền từ phim và trò chơi điện tử dựa trên dữ liệu đào tạo chúng.

Về thư của OpenAI gửi lên Hạ viện Anh, Gary Marcus, một trong hai tác giả của nghiên cứu trên, nhận xét trên X: “Họ nói vậy có nghĩa: Chúng tôi sẽ không thể trở nên giàu có nếu bạn không cho chúng tôi ăn trộm, vì vậy đừng bắt chúng tôi phải trả phí bản quyền”.

Tyler Ochoa, giáo sư khoa luật tại Đại học Santa Clara ở California, nói với The Register rằng việc xác định bản quyền trong các tác phẩm AI rất khó thống nhất. “Vấn đề của luật bản quyền là cần xem ai chịu trách nhiệm về những kết quả đạo văn này: người tạo ra mô hình AI, hay người yêu cầu AI tạo ra sản phẩm”, ông nói.

Bảo Lâm

OpenAI nói khó tránh nội dung bản quyền khi đào tạo AI

5G được thương mại hóa năm nay

iPhone nguyên vẹn sau khi rơi từ máy bay

Nvidia, AMD ra chip hỗ trợ ‘chạy AI tại nhà’

Doanh số iPhone đầu năm tại Trung Quốc giảm 30%