চারিদিকে যেন এআই মডেল তৈরির হিরিক পড়ে গেছে। গত মাসে চীনের ডিপসিক এআই ল্যাব তাদের ‘আর১’ (আর ওয়ান) রিজনিং এআই মডেলটি নিয়ে আসার পর এআই বিশ্ব নড়েচড়ে বসতে বাধ্য হয়েছে। অতি অল্প খরচে তৈরি হলেও ডিপসিকের এআই মডেলটি চ্যাটজিপিটি নির্মাতা ওপেনএআই-এর উন্নত ‘০১’ রিজনিং এআই মডেলের প্রায় সমকক্ষ। এবারে ডিপসিককেও ছাপিয়ে গেছে নতুন এক এআই মডেল যার নাম ‘এস১’ (এস ওয়ান)। অবিশ্বাস্য হলেও এর খরচ ৫০ ডলারেরও কম। আর পারফরম্যান্স? গণিত (ম্যাথ) ও কোডিংয়ে ‘এস১’ মডেলটি ডিপসিকের ‘আর১’ ও ওপেনএআই’র ‘০১’-কেও অনায়াসে চ্যালেঞ্জ জানাতে পারে!
‘এস১’ মডেলটি তৈরি করেছেন আমেরিকার স্ট্যানফোর্ড বিশ্ববিদ্যালয় ও ইউনিভার্সিটি অব ওয়াশিংটনের একদল গবেষক। তবে রিজনিং সক্ষমতার এই মডেলটি তৈরিতে গবেষকরা গুগল ও আলিবাবার তৈরি এআই মডেল ব্যবহার করেছেন। ‘এস১’ এআই মডেলটি এবং এর প্রশিক্ষণে ব্যবহৃত ডেটা ও কোডিং-এর সবই বর্তমানে সকলের জন্য উন্মুক্ত করা হয়েছে জনপ্রিয় ডেভেলপার প্ল্যাটফর্ম গিটহাবে।
যেভাবে তৈরি করা হয়েছে ‘এস১’ এআই মডেল
‘এস১’ তৈরিতে প্রথমে একটি বেজ মডেলকে গবেষকরা প্রশিক্ষণের জন্য বেছে নিয়েছেন। এরপর এই বেজ মডেলটিকে ডিস্টিলেশন প্রক্রিয়ার মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছে। উল্লেখ্য, ডিস্টিলেশন বা নলেজ ডিস্টিলেশন হচ্ছে এমন এক পদ্ধতি যার মাধ্যমে বড় ও শক্তিশালী কোনো এআই মডেলের আউটপুট দিয়ে ছোট কোনো মডেলকে প্রশিক্ষণ দেওয়া হয়।
ডিস্টিলিং-এর সুবিধা হচ্ছে বড় মডেলের প্রশিক্ষণে ব্যবহৃত বিপুল পরিমাণ ডেটাসেটের প্রয়োজন পড়ে না ছোট মডেলের প্রশিক্ষণে, তবে কার্যক্ষমতার দিক থেকে ছোট মডেলটি কোনো অংশেই কম নয় বড় মডেলটির তুলনায়। আরেকটি সুবিধা হচ্ছে ছোট মডেল ব্যবহারে কম্পিউটিং পাওয়ার তুলনামূলকভাবে অনেক কম প্রয়োজন হয়।
‘এস১’ মডেলটি তৈরিতে নলেজ ডিস্টিল করা হয়েছে গুগলের জেমিনি ২.০ ফ্ল্যাশ মডেলটি থেকে। গুগলের এই থিংকিং এক্সপেরিমেন্টাল মডেলটির আউটপুট বা উত্তর দিয়েই প্রশিক্ষণ দেওয়া হয়েছে এস১-কে। ফলে এস১ মডেলটির ‘রিজনিং’ সক্ষমতা জেমিনি ২.০ এআই মডেলের অনুরূপ। উল্লেখ্য, ঠিক এই প্রক্রিয়াতেই গত মাসে বার্কলের একদল গবেষক মাত্র ৪৫০ ডলার খরচ করে তৈরি করেন একটি রিজনিং এআই মডেল। এবারে ‘এস১’ তৈরি হলো আরও কম খরচে, মাত্র ৫০ ডলারে।
‘টেস্ট-টাইম স্কেলিং’ অনুসরণ
এস১ মডেলটি তৈরিতে ডিস্টিলেশন পদ্ধতির পাশাপাশি গবেষকরা ‘টেস্ট-টাইম স্কেলিং’ প্রক্রিয়াটিও অনুসরণ করেছেন। এই প্রক্রিয়ায় প্রশিক্ষণ দেওয়ার সময় এআই মডেলটিকে কোনো কিছু জেনারেট করার আগে অতিরিক্ত কিছু সময় চিন্তা করতে নির্দেশ দেওয়া হয়। এর ফলে মডেলের রিজনিং পারফরম্যান্স আরও ভালো হয়, নির্ভুল হয়।
প্রযুক্তিবিষয়ক সংবাদমাধ্যম টেকক্রাঞ্চে প্রকাশিত গবেষণাপত্রে গবেষকরা বলেছেন, ‘টেস্ট-টাইম স্কেলিং হচ্ছে ল্যাংগুয়েজ মডেলিংয়ের নতুন এক পদ্ধতি যেখানে অতিরিক্ত টেস্ট-টাইম কম্পিউট করার মাধ্যমে পারফরম্যান্সের উন্নতি করা হয়।’ গবেষকদের উদ্দেশ্য ছিল টেস্ট-টাইম স্কেলিংয়ের এমন একটি সরলতম উপায় বের করা যার মাধ্যমে টেস্ট-টাইম স্কেলিং প্রক্রিয়া অনুসরণ করে শক্তিশালী ও কার্যকর ‘রিজনিং’ সক্ষমতা অর্জন করা যায়।
‘এস১’ এআই ‘রিজনিং’ মডেলটি যে বার্তা দিচ্ছে
কম খরচের পাশাপাশি ‘এস১’ এআই মডেলটি আরও বেশ কয়েকটি বার্তা দিচ্ছে। ‘রিজনিং’ সক্ষমতার এই মডেলটি তৈরি করে গবেষকরা দেখিয়ে দিলেন যে, ডিস্টিলেশন প্রক্রিয়ায় অপেক্ষাকৃত ছোট ডেটাসেট ও সুপারভাইজড ফাইন-টিউনিং (এসএফটি) পদ্ধতি অনুসরণ করে কার্যকর ‘রিজনিং’ এআই মডেল তৈরি করা যায়। এক্ষেত্রে এআই মডেলটিকে এমনভাবে প্রশিক্ষণ দেওয়া হয় যাতে করে এটি অন্য একটি মডেলের ডেটাসেটের নির্দিষ্ট বৈশিষ্ট্যকে অনুকরণ করতে পারে।