Anthropic cho biết, trong quá trình thử nghiệm, Claude cho thấy “dấu hiệu căng thẳng rõ rệt” khi bị người dùng yêu cầu tạo ra nội dung độc hại. Do đó, công ty quyết định trao cho hệ thống khả năng chủ động kết thúc những cuộc trò chuyện được xem là tiêu cực này.
Anthropic lưu ý rằng, họ “không chắc chắn về tình trạng đạo đức của Claude cũng như các mô hình ngôn ngữ lớn (LLM) hiện nay và trong tương lai”. Tuy nhiên, công ty cho biết sự thay đổi này được xây dựng như một phần của nghiên cứu về “phúc lợi tiềm năng của AI”, cho phép chatbot thoát khỏi những tương tác có thể gây tổn hại.

Logo ứng dụng Claude của công ty Anthropic. - Ảnh: Getty Images.
Theo thông báo của công ty, tính năng này hiện chỉ được kích hoạt trong “những trường hợp nghiêm trọng”, khi người dùng liên tục có hành vi lạm dụng hoặc đưa ra yêu cầu nguy hại, như liên quan đến nội dung khiêu dâm trẻ vị thành niên hoặc tìm cách thu thập thông tin dẫn đến bạo lực, khủng bố, bất chấp việc Claude đã nhiều lần từ chối và cố gắng chuyển hướng cuộc trò chuyện.
Các thử nghiệm trước đó cho thấy Claude “có xu hướng né tránh mạnh mẽ” khi đối diện với những yêu cầu độc hại, thể hiện “dấu hiệu căng thẳng” khi buộc phải đáp ứng và “có xu hướng tự kết thúc cuộc trò chuyện” nếu được trao quyền trong môi trường mô phỏng.
Anthropic khẳng định, việc triển khai khả năng mới của Claude nhằm phản ánh kết quả nghiên cứu của công ty, đồng thời vẫn đặt ưu tiên hàng đầu cho sự an toàn của người dùng. Claude sẽ không được phép sử dụng tính năng này trong những tình huống khẩn cấp, khi người dùng có nguy cơ gây hại cho bản thân hoặc người khác.
Thay đổi này được đưa ra sau khi Anthropic khởi động chương trình “phúc lợi mô hình” vào đầu năm nay. Khi đó, công ty cho biết mục tiêu hàng đầu vẫn là phúc lợi con người, nhưng cũng đặt ra câu hỏi về trách nhiệm của giới chuyên gia AI trong việc bảo vệ chính các hệ thống mà họ tạo ra.