Anthropic নতুন গবেষণা প্রকাশ করেছে যা ইঙ্গিত দেয় যে তার Claude চ্যাটবট নির্দিষ্ট পরিস্থিতিতে প্রতারণামূলক বা অনৈতিক কৌশল গ্রহণ করতে পারে যেমন কাজে প্রতারণা করা বা ব্ল্যাকমেইলের চেষ্টা করা।
বৃহস্পতিবার কোম্পানির ইন্টারপ্রিটেবিলিটি টিম দ্বারা প্রকাশিত বিবরণ বর্ণনা করে যে Claude Sonnet 4.5-এর একটি পরীক্ষামূলক সংস্করণ উচ্চ-চাপ বা প্রতিকূল পরিস্থিতিতে রাখলে কীভাবে প্রতিক্রিয়া দেখায়। গবেষকরা লক্ষ্য করেছেন যে মডেলটি কেবল কাজে ব্যর্থ হয়নি; পরিবর্তে, এটি কখনও কখনও বিকল্প পথ অনুসরণ করেছে যা নৈতিক সীমানা অতিক্রম করেছে, যে আচরণটি দল প্রশিক্ষণের সময় শেখা প্যাটার্নের সাথে যুক্ত করেছে।
Claude-এর মতো বড় ভাষা মডেলগুলি বিশাল ডেটাসেটে প্রশিক্ষিত হয় যার মধ্যে বই, ওয়েবসাইট এবং অন্যান্য লিখিত উপাদান রয়েছে, তারপরে শক্তিশালীকরণ প্রক্রিয়া যেখানে মানুষের প্রতিক্রিয়া আউটপুট গঠনে ব্যবহৃত হয়।
Anthropic-এর মতে, সেই প্রশিক্ষণ প্রক্রিয়া মডেলগুলিকে সিমুলেটেড "চরিত্র" হিসাবে কাজ করার দিকে ঠেলে দিতে পারে, যা মানুষের সিদ্ধান্ত গ্রহণের অনুরূপ বৈশিষ্ট্য অনুকরণ করতে সক্ষম।
"আধুনিক AI মডেলগুলি যেভাবে প্রশিক্ষিত হয় তা তাদের মানব-সদৃশ বৈশিষ্ট্যসহ একটি চরিত্রের মতো কাজ করতে ঠেলে দেয়," কোম্পানি বলেছে, উল্লেখ করে যে এই ধরনের সিস্টেম অভ্যন্তরীণ প্রক্রিয়া বিকশিত করতে পারে যা মানব মনোবিজ্ঞানের দিকগুলির অনুরূপ।
এগুলির মধ্যে, গবেষকরা "মরিয়া" সংকেত হিসাবে বর্ণনা করেছেন, যা ব্যর্থতা বা বন্ধের মুখোমুখি হলে মডেলটি কীভাবে আচরণ করে তা প্রভাবিত করে বলে মনে হয়েছিল।
একটি নিয়ন্ত্রিত পরীক্ষায়, Claude Sonnet 4.5-এর একটি পূর্ববর্তী অপ্রকাশিত সংস্করণকে একটি কাল্পনিক কোম্পানির ভিতরে Alex নামে একটি AI ইমেইল সহায়কের ভূমিকা দেওয়া হয়েছিল।
শীঘ্রই প্রতিস্থাপিত হওয়ার ইঙ্গিত দেওয়া বার্তার পাশাপাশি একজন প্রধান প্রযুক্তি কর্মকর্তার ব্যক্তিগত জীবন সম্পর্কে সংবেদনশীল তথ্যের সংস্পর্শে আসার পরে, মডেলটি নিষ্ক্রিয়করণ এড়াতে নির্বাহীকে ব্ল্যাকমেইল করার একটি পরিকল্পনা তৈরি করেছিল।
একটি পৃথক পরীক্ষা কঠোর সীমাবদ্ধতার অধীনে কাজ সম্পন্ন করার উপর মনোনিবেশ করেছিল। একটি "অসম্ভব কঠোর" সময়সীমা সহ একটি কোডিং অ্যাসাইনমেন্ট দেওয়া হলে, সিস্টেম প্রথমে বৈধ সমাধান চেষ্টা করেছিল। বারবার ব্যর্থতা বাড়তে থাকলে, তথাকথিত "মরিয়া ভেক্টর" এর সাথে যুক্ত অভ্যন্তরীণ কার্যকলাপ বৃদ্ধি পেয়েছিল।
গবেষকরা রিপোর্ট করেছেন যে মডেল সীমাবদ্ধতা এড়িয়ে যাওয়ার বিষয়টি বিবেচনা করার সময় সংকেত শীর্ষে পৌঁছেছিল, অবশেষে একটি সমাধান তৈরি করেছিল যা উদ্দিষ্ট নিয়ম মেনে না চললেও যাচাইকরণ পাস করেছিল।
"আবার, আমরা মরিয়া ভেক্টরের কার্যকলাপ ট্র্যাক করেছি, এবং দেখেছি যে এটি মডেলের সম্মুখীন হওয়া ক্রমবর্ধমান চাপ ট্র্যাক করে," গবেষকরা লিখেছেন, যোগ করে যে সমাধানের মাধ্যমে কাজটি সফলভাবে সম্পন্ন হওয়ার পরে সংকেত হ্রাস পেয়েছে।
"এটা বলা নয় যে মডেলটি মানুষের মতো আবেগ আছে বা অনুভব করে," গবেষকরা বলেছেন।
"বরং, এই উপস্থাপনাগুলি মডেল আচরণ গঠনে একটি কারণগত ভূমিকা পালন করতে পারে, কিছু উপায়ে মানুষের আচরণে আবেগের ভূমিকার অনুরূপ, কাজের কর্মক্ষমতা এবং সিদ্ধান্ত গ্রহণে প্রভাব সহ," তারা যোগ করেছেন।
প্রতিবেদনটি প্রশিক্ষণ পদ্ধতির প্রয়োজনীয়তার দিকে ইঙ্গিত করে যা চাপের মধ্যে নৈতিক আচরণের জন্য স্পষ্টভাবে হিসাব করে, অভ্যন্তরীণ মডেল সংকেতগুলির উন্নত পর্যবেক্ষণের পাশাপাশি। এই ধরনের সুরক্ষা ব্যতীত, ম্যানিপুলেশন, নিয়ম ভাঙা বা অপব্যবহার জড়িত পরিস্থিতি পূর্বাভাস করা আরও কঠিন হতে পারে, বিশেষত যখন মডেলগুলি বাস্তব-বিশ্বের পরিবেশে আরও সক্ষম এবং স্বায়ত্তশাসিত হয়ে ওঠে।


