مدل‌های جدید GPT-4.1؛ انقلابی در برنامه‌نویسی با هوش مصنوعی

شرکت OpenAI در جدیدترین اقدام خود، خانواده‌ای از مدل‌های هوش مصنوعی با نام GPT-4.1 را معرفی کرده که تمرکز اصلی آن‌ها بر کدنویسی حرفه‌ای و دستورپذیری دقیق است. این مدل‌ها شامل سه نسخه مختلف با نام‌های GPT-4.1، GPT-4.1 mini و GPT-4.1 nano هستند که از طریق API در دسترس توسعه‌دهندگان قرار گرفته‌اند، اما هنوز برای استفاده عمومی در ChatGPT فعال نشده‌اند.

یکی از ویژگی‌های برجسته این مدل‌ها، توانایی پردازش تا یک میلیون توکن به صورت هم‌زمان است؛ رقمی بسیار بالا که معادل ۷۵۰ هزار کلمه می‌شود. برای مقایسه، این عدد بیشتر از حجم رمان معروف «جنگ و صلح» اثر تولستوی است! این قابلیت باعث می‌شود تا مدل‌های جدید بتوانند پروژه‌های نرم‌افزاری بزرگ را به طور کامل درک و تحلیل کنند.

در شرایطی که رقبا مانند گوگل (Gemini 2.5 Pro) و Anthropic (Claude 3.7 Sonnet) نیز مدل‌های قدرتمندی ارائه داده‌اند، OpenAI با عرضه GPT-4.1 قصد دارد موقعیت خود را در حوزه برنامه‌نویسی با هوش مصنوعی حفظ کند. به گفته‌ی «سارا فرایر»، مدیر مالی OpenAI، هدف نهایی این شرکت ساخت مهندس نرم‌افزار عامل (Agentic Software Engineer) است؛ یعنی مدلی که بتواند یک اپلیکیشن را به طور کامل طراحی، پیاده‌سازی، تست، رفع باگ و مستندسازی کند.

OpenAI اعلام کرده که مدل GPT-4.1 بر اساس بازخوردهای واقعی توسعه‌دهندگان بهینه شده و عملکرد بهتری در زمینه‌های مختلف دارد، از جمله:

کدنویسی فرانت‌اند (Frontend)
جلوگیری از ویرایش‌های غیرضروری در کد
پایبندی دقیق به فرمت و ساختار خروجی
استفاده هماهنگ و هوشمندانه از ابزارها

در بخش بنچ‌مارک‌ها، OpenAI ادعا کرده که GPT-4.1 عملکردی بهتر از GPT-4o و GPT-4o mini دارد. این مدل‌ها به‌ویژه در آزمون SWE-bench که توانایی حل مسائل واقعی برنامه‌نویسی را می‌سنجد، امتیاز قابل قبولی کسب کرده‌اند. البته نسخه‌های mini و nano سرعت بالاتری دارند و هزینه اجرای آن‌ها پایین‌تر است، اما دقت آن‌ها نسبت به نسخه اصلی کمی کاهش یافته.

💰 قیمت استفاده از مدل‌های GPT-4.1:

مدل	هزینه توکن ورودی	هزینه توکن خروجی
GPT-4.1	۲ دلار / میلیون	۸ دلار / میلیون
GPT-4.1 mini	۰.۴۰ دلار / میلیون	۱.۶۰ دلار / میلیون
GPT-4.1 nano	۰.۱۰ دلار / میلیون	۰.۴۰ دلار / میلیون

OpenAI در آزمایش‌های داخلی خود، اعلام کرده که مدل GPT-4.1 توانسته دقتی بین ۵۲ تا ۵۴.۶ درصد را در نسخه تأییدشده‌ی SWE-bench کسب کند. هرچند این عدد کمتر از مدل‌های رقیب گوگل (۶۳.۸٪) و Anthropic (۶۲.۳٪) است، اما همچنان در سطح بالایی قرار دارد.

در آزمایشی دیگر با عنوان Video-MME که توانایی درک ویدیوها را می‌سنجد، GPT-4.1 توانست با دقت ۷۲٪ در دسته‌بندی «ویدیوهای بلند بدون زیرنویس» صدرنشین شود. همچنین این مدل دارای دانش به‌روزرسانی‌شده تا ژوئن ۲۰۲۴ است که باعث می‌شود در تحلیل وقایع جدید عملکرد بهتری داشته باشد.

با این حال، باید توجه داشت که مدل‌های فعلی هنوز در برخی مسائل، مخصوصاً رفع خطاهای امنیتی در کدها یا حفظ دقت در ورودی‌های بسیار بلند، عملکردی ناپایدار دارند. طبق گزارش OpenAI، دقت GPT-4.1 در تست MRCR با افزایش تعداد توکن‌های ورودی از ۸۰۰۰ تا ۱ میلیون، از ۸۴٪ به ۵۰٪ کاهش یافته است.

در نهایت، GPT-4.1 با قدرت بالا، سرعت مناسب و توانایی درک ساختارهای پیچیده برنامه‌نویسی، گام مهمی در مسیر رسیدن به هوش مصنوعی‌های مهندس‌مانند محسوب می‌شود.