هوش مصنوعی هنوز در دیباگ کردن نرمافزار ضعیف عمل میکند

با وجود استفاده روزافزون از مدلهای هوش مصنوعی در برنامهنویسی، نتایج یک مطالعه جدید از Microsoft Research نشان میدهد که این مدلها همچنان در رفع باگهای ساده نرمافزاری نیز دچار مشکل هستند.
در این تحقیق، عملکرد مدلهایی مانند Claude 3.7 Sonnet از Anthropic و مدلهای o3-mini و o1 از OpenAI در مجموعهای شامل ۳۰۰ وظیفه دیباگ از بنچمارک SWE-bench Lite بررسی شد. نتایج نشان داد که حتی قویترین مدلها نیز تنها در نیمی از موارد موفق به رفع باگ شدند؛ Claude با 48.4٪، مدل o1 با 30.2٪ و o3-mini با تنها 22.1٪.
چرا مدلهای هوش مصنوعی در دیباگ کردن شکست میخورند؟
مطالعه نشان میدهد که مدلها در درک و استفاده درست از ابزارهای دیباگ مانند Python debugger ناتوان هستند. اما مشکل اصلی، کمبود دادههای با کیفیت از فرآیندهای تصمیمگیری انسانی در دیباگ کردن است.
به گفته نویسندگان مقاله:
«برای بهبود عملکرد مدلها در دیباگ، نیاز به دادههایی از نوع تراژکتوری داریم؛ یعنی ردگیری گامبهگام تعامل انسان با دیباگر برای یافتن و رفع خطا.»
این یافتهها در حالی منتشر شدهاند که غولهای فناوری مانند گوگل و متا به شدت روی توسعه ابزارهای برنامهنویسی مبتنی بر هوش مصنوعی سرمایهگذاری کردهاند. اما گزارش مایکروسافت یادآور میشود که مدلها هنوز جایگزین توسعهدهندگان حرفهای نیستند.
شغل برنامهنویسی پابرجا خواهد ماند
در حالی که برخی نگران جایگزینی شغل برنامهنویسی با هوش مصنوعی هستند، بسیاری از رهبران فناوری مانند بیل گیتس (مایکروسافت)، امجد مسعد (Replit) و آرویند کریشنا (IBM) بر این باورند که برنامهنویسی به عنوان یک حرفه باقی خواهد ماند، حتی اگر ابزارهای کمکی هوش مصنوعی نقش بیشتری در کنار برنامهنویسان ایفا کنند.
دیدگاهتان را بنویسید