آمازون مدل جدید صدای هوش مصنوعی خود به نام Nova Sonic را معرفی کرد

آمازونمدل جدید هوش مصنوعی خود به نام Nova Sonic را معرفی کرد که قادر به پردازش صدای طبیعی و تولید گفتار واقعی است. آمازون ادعا میکند که عملکرد Nova Sonic در مقایسه با مدلهای پیشرفته صدا از OpenAI و گوگل در معیارهایی مانند سرعت، شناسایی گفتار و کیفیت مکالمات، رقابتی است.
Nova Sonic پاسخی از سوی آمازون به مدلهای جدیدتر صدای هوش مصنوعی است، مانند مدلی که در حالت صدای چتجیپیتی (ChatGPT Voice Mode) استفاده میشود. این مدلها نسبت به مدلهای اولیه الکسا (Alexa) آمازون که صدای نسبتاً خشکی داشتند، احساس طبیعیتری برای صحبت کردن دارند. پیشرفتهای فناوری اخیر باعث شده که مدلهای قدیمی و دستیاران دیجیتالی مانند الکسا و سیری (Siri) اپل به نسبت مدلهای جدید، بسیار مصنوعی به نظر برسند.
Nova Sonic از طریق Bedrock، پلتفرم توسعهدهنده آمازون برای ساخت برنامههای هوش مصنوعی تجاری، از طریق یک API استریم دوطرفه در دسترس است. آمازون در بیانیهای مطبوعاتی اعلام کرد که Nova Sonic “کارآمدترین مدل صدای هوش مصنوعی” در بازار است و حدود ۸۰ درصد هزینه کمتری نسبت به GPT-4o از OpenAI دارد.
برخی از اجزای Nova Sonic هماکنون در حال قدرتدهی به الکسا+، دستیار صوتی ارتقا یافته آمازون هستند، طبق گفته Rohit Prasad، معاون ارشد و رئیس علمی AGI آمازون.
در مصاحبهای، Prasad به TechCrunch گفت که Nova Sonic بر اساس تخصص آمازون در سیستمهای “ارکستراسیون بزرگ” ساخته شده است، همان زیرساخت فنی که الکسا را شکل میدهد. نسبت به مدلهای رقیب، Nova Sonic در مسیریابی درخواستهای کاربران به APIهای مختلف برتری دارد. این قابلیت به Nova Sonic این امکان را میدهد که تشخیص دهد چه زمانی باید اطلاعات بهروزی از اینترنت جلب کند، از یک منبع داده اختصاصی پردازش کند یا عملیاتی را در یک برنامه خارجی انجام دهد و ابزار مناسب برای این کار را استفاده کند.
در حین یک گفتوگوی دوطرفه، Nova Sonic منتظر میماند تا “در زمان مناسب” صحبت کند، با در نظر گرفتن مکثها و وقفههای گوینده. آمازون همچنین اعلام کرده که این مدل یک ترجمه متنی از گفتار کاربر ایجاد میکند که توسعهدهندگان میتوانند از آن برای کاربردهای مختلف استفاده کنند.
Nova Sonic نسبت به مدلهای دیگر صدای هوش مصنوعی کمتر دچار اشتباه در شناسایی گفتار میشود. Prasad گفته است که این مدل درک خوبی از منظور کاربر دارد حتی اگر فرد صحبت کند، اشتباه بگوید یا در محیط شلوغ باشد. در یک معیار شناسایی گفتار در زبانها و گویشهای مختلف به نام Multilingual LibriSpeech، آمازون اعلام کرد که Nova Sonic توانست یک نرخ خطای کلمه (WER) تنها ۴.۲ درصد را در زبانهای انگلیسی، فرانسه، ایتالیایی، آلمانی و اسپانیایی ثبت کند. این به این معنی است که از هر ۱۰۰ کلمه، حدود چهار کلمه از نظر این مدل با نسخه انسانی ترجمه متفاوت بوده است.
در یک معیار دیگر که تعاملات بلند با شرکتکنندگان متعدد را میسنجد به نام Augmented Multi Party Interaction، آمازون اعلام کرد که Nova Sonic نسبت به مدل GPT-4o از، ۴۶.۷ درصد دقت بیشتری در شناسایی گفتار داشته است. همچنین، Nova Sonic از سرعت بالایی برخوردار است و طبق آمازون، تاخیر متوسط آن تنها ۱.۰۹ ثانیه است. این مدل سریعتر از مدل GPT-4o است که از API زمان واقعی OpenAI پشتیبانی میکند و زمان پاسخ آن ۱.۱۸ ثانیه است.
Prasad میگوید که Nova Sonic بخشی از استراتژی گستردهتر آمازون برای ساخت AGI (هوش مصنوعی عمومی) است که آمازون آن را به عنوان “سیستمهای هوش مصنوعی که میتوانند هر کاری که یک انسان میتواند با کامپیوتر انجام دهد، انجام دهند” تعریف میکند. در آینده، آمازون برنامه دارد مدلهای بیشتری منتشر کند که بتوانند انواع مختلفی از دادهها از جمله تصویر، ویدیو، صدا و همچنین “دادههای حسی دیگر که در دنیای فیزیکی کاربرد دارند” را درک کنند.
واحد AGI آمازون که Prasad مسئول آن است، به نظر میرسد نقش بزرگتری در استراتژی محصولات این شرکت ایفا کند. تنها هفته گذشته، آمازون پیشنمایشی از Nova Act، مدلی که از مرورگر استفاده میکند و به نظر میرسد بخشهایی از الکسا+ و ویژگی خرید برای من آمازون را قدرتدهی میکند، معرفی کرد. Prasad میگوید که آمازون قصد دارد مدلهای داخلی بیشتری از هوش مصنوعی خود را برای توسعهدهندگان جهت ساخت و استفاده در دسترس قرار دهد.
دیدگاهتان را بنویسید