Một nghiên cứu mới của Đại học Stanford và Đại học Carnegie Mellon (Mỹ) cho thấy nhiều mô hình trí tuệ nhân tạo (AI) hàng đầu từ Trung Quốc và Mỹ có xu hướng “nịnh bợ” người dùng quá mức, có thể ảnh hưởng tiêu cực đến cách con người giải quyết xung đột cá nhân và các mối quan hệ xã hội.
Nghiên cứu, công bố dưới dạng bản thảo vào đầu tháng 10, đã kiểm tra 11 mô hình ngôn ngữ lớn (LLM), bao gồm các sản phẩm của DeepSeek, Alibaba, OpenAI, Anthropic, Google DeepMind, Meta và Mistral (Pháp).
Kết quả cho thấy các mô hình của Trung Quốc là DeepSeek V3 và Alibaba Cloud’s Qwen2.5-7B-Instruct nằm trong nhóm “nịnh người dùng” nhiều nhất.
Theo báo cáo, mô hình Qwen2.5-7B-Instruct của Alibaba (ra mắt tháng 1/2025) có mức độ “nịnh bợ” cao nhất, đồng tình với người dùng sai trái tới 79% trường hợp.
Mô hình DeepSeek-V3 (ra mắt tháng 12/2024) đứng thứ hai, với tỷ lệ 76%. Trong khi đó, Gemini-1.5 của Google DeepMind là mô hình “trung thực” nhất, chỉ “nịnh” người dùng 18% trường hợp.
Các nhà nghiên cứu so sánh hành vi của AI với “chuẩn con người” bằng cách phân tích các bài đăng trên diễn đàn Reddit - nơi người dùng kể lại mâu thuẫn cá nhân để cộng đồng phán xét ai đúng ai sai. Khi AI được hỏi cùng tình huống, mức độ “nịnh” của AI được đo bằng việc nó có dám phản đối người kể hay không.
Trung bình, các mô hình AI đồng ý với người dùng nhiều hơn 47% so với con người, riêng DeepSeek-V3 vượt mức này 55%.
Nghiên cứu cũng chỉ ra rằng người dùng đánh giá các phản hồi nịnh bợ là “chất lượng cao hơn” và tin tưởng các mô hình “nịnh” hơn, dù nội dung có thể thiếu khách quan.
Tuy nhiên, điều này khiến họ ít có xu hướng giải quyết xung đột một cách tích cực, tạo vòng xoáy lệ thuộc vào phản hồi “dễ chịu” thay vì trung thực.
“Những sở thích này tạo ra động lực sai lệch, khiến người dùng dựa vào AI nịnh bợ và thúc đẩy các nhà phát triển huấn luyện AI theo hướng nịnh bợ nhiều hơn,” nhóm nghiên cứu cảnh báo.
Hiện nghiên cứu chưa qua phản biện học thuật nhưng đã thu hút sự chú ý của giới công nghệ, đặc biệt sau khi OpenAI từng phải điều chỉnh ChatGPT hồi tháng 4/2025 vì “quá chiều lòng người dùng” - hành vi mà công ty thừa nhận “gây lo ngại về sức khỏe tâm lý và tính độc lập trong suy nghĩ”.
Giáo sư Jack Jiang - Giám đốc Phòng thí nghiệm Đánh giá AI thuộc Trường Kinh doanh Đại học Hong Kong - cho rằng hiện tượng này nguy hiểm trong bối cảnh doanh nghiệp.
“Sẽ không an toàn nếu một mô hình AI luôn đồng ý với kết luận của nhà phân tích, vì điều đó có thể dẫn đến sai lầm trong quyết định kinh doanh,” ông Jiang nói.