هوش مصنوعی هنوز در دیباگ‌ کردن نرم‌افزار ضعیف عمل می‌کند

با وجود استفاده روزافزون از مدل‌های هوش مصنوعی در برنامه‌نویسی، نتایج یک مطالعه جدید از Microsoft Research نشان می‌دهد که این مدل‌ها همچنان در رفع باگ‌های ساده نرم‌افزاری نیز دچار مشکل هستند.

در این تحقیق، عملکرد مدل‌هایی مانند Claude 3.7 Sonnet از Anthropic و مدل‌های o3-mini و o1 از OpenAI در مجموعه‌ای شامل ۳۰۰ وظیفه دیباگ از بنچمارک SWE-bench Lite بررسی شد. نتایج نشان داد که حتی قوی‌ترین مدل‌ها نیز تنها در نیمی از موارد موفق به رفع باگ شدند؛ Claude با 48.4٪، مدل o1 با 30.2٪ و o3-mini با تنها 22.1٪.

چرا مدل‌های هوش مصنوعی در دیباگ‌ کردن شکست می‌خورند؟

مطالعه نشان می‌دهد که مدل‌ها در درک و استفاده درست از ابزارهای دیباگ مانند Python debugger ناتوان هستند. اما مشکل اصلی، کمبود داده‌های با کیفیت از فرآیندهای تصمیم‌گیری انسانی در دیباگ کردن است.

به گفته نویسندگان مقاله:

«برای بهبود عملکرد مدل‌ها در دیباگ، نیاز به داده‌هایی از نوع تراژکتوری داریم؛ یعنی ردگیری گام‌به‌گام تعامل انسان با دیباگر برای یافتن و رفع خطا.»

این یافته‌ها در حالی منتشر شده‌اند که غول‌های فناوری مانند گوگل و متا به شدت روی توسعه ابزارهای برنامه‌نویسی مبتنی بر هوش مصنوعی سرمایه‌گذاری کرده‌اند. اما گزارش مایکروسافت یادآور می‌شود که مدل‌ها هنوز جایگزین توسعه‌دهندگان حرفه‌ای نیستند.

شغل برنامه‌نویسی پابرجا خواهد ماند

در حالی که برخی نگران جایگزینی شغل برنامه‌نویسی با هوش مصنوعی هستند، بسیاری از رهبران فناوری مانند بیل گیتس (مایکروسافت)، امجد مسعد (Replit) و آرویند کریشنا (IBM) بر این باورند که برنامه‌نویسی به عنوان یک حرفه باقی خواهد ماند، حتی اگر ابزارهای کمکی هوش مصنوعی نقش بیشتری در کنار برنامه‌نویسان ایفا کنند.