آمازون مدل جدید صدای هوش مصنوعی خود به نام Nova Sonic را معرفی کرد

آمازونمدل جدید هوش مصنوعی خود به نام Nova Sonic را معرفی کرد که قادر به پردازش صدای طبیعی و تولید گفتار واقعی است. آمازون ادعا می‌کند که عملکرد Nova Sonic در مقایسه با مدل‌های پیشرفته صدا از OpenAI و گوگل در معیارهایی مانند سرعت، شناسایی گفتار و کیفیت مکالمات، رقابتی است.

Nova Sonic پاسخی از سوی آمازون به مدل‌های جدیدتر صدای هوش مصنوعی است، مانند مدلی که در حالت صدای چت‌جی‌پی‌تی (ChatGPT Voice Mode) استفاده می‌شود. این مدل‌ها نسبت به مدل‌های اولیه الکسا (Alexa) آمازون که صدای نسبتاً خشکی داشتند، احساس طبیعی‌تری برای صحبت کردن دارند. پیشرفت‌های فناوری اخیر باعث شده که مدل‌های قدیمی و دستیاران دیجیتالی مانند الکسا و سیری (Siri) اپل به نسبت مدل‌های جدید، بسیار مصنوعی به نظر برسند.

Nova Sonic از طریق Bedrock، پلتفرم توسعه‌دهنده آمازون برای ساخت برنامه‌های هوش مصنوعی تجاری، از طریق یک API استریم دوطرفه در دسترس است. آمازون در بیانیه‌ای مطبوعاتی اعلام کرد که Nova Sonic “کارآمدترین مدل صدای هوش مصنوعی” در بازار است و حدود ۸۰ درصد هزینه کمتری نسبت به GPT-4o از OpenAI دارد.

برخی از اجزای Nova Sonic هم‌اکنون در حال قدرت‌دهی به الکسا+، دستیار صوتی ارتقا یافته آمازون هستند، طبق گفته Rohit Prasad، معاون ارشد و رئیس علمی AGI آمازون.

در مصاحبه‌ای، Prasad به TechCrunch گفت که Nova Sonic بر اساس تخصص آمازون در سیستم‌های “ارکستراسیون بزرگ” ساخته شده است، همان زیرساخت فنی که الکسا را شکل می‌دهد. نسبت به مدل‌های رقیب، Nova Sonic در مسیریابی درخواست‌های کاربران به APIهای مختلف برتری دارد. این قابلیت به Nova Sonic این امکان را می‌دهد که تشخیص دهد چه زمانی باید اطلاعات به‌روزی از اینترنت جلب کند، از یک منبع داده اختصاصی پردازش کند یا عملیاتی را در یک برنامه خارجی انجام دهد و ابزار مناسب برای این کار را استفاده کند.

در حین یک گفت‌وگوی دوطرفه، Nova Sonic منتظر می‌ماند تا “در زمان مناسب” صحبت کند، با در نظر گرفتن مکث‌ها و وقفه‌های گوینده. آمازون همچنین اعلام کرده که این مدل یک ترجمه متنی از گفتار کاربر ایجاد می‌کند که توسعه‌دهندگان می‌توانند از آن برای کاربردهای مختلف استفاده کنند.

Nova Sonic نسبت به مدل‌های دیگر صدای هوش مصنوعی کمتر دچار اشتباه در شناسایی گفتار می‌شود. Prasad گفته است که این مدل درک خوبی از منظور کاربر دارد حتی اگر فرد صحبت کند، اشتباه بگوید یا در محیط شلوغ باشد. در یک معیار شناسایی گفتار در زبان‌ها و گویش‌های مختلف به نام Multilingual LibriSpeech، آمازون اعلام کرد که Nova Sonic توانست یک نرخ خطای کلمه (WER) تنها ۴.۲ درصد را در زبان‌های انگلیسی، فرانسه، ایتالیایی، آلمانی و اسپانیایی ثبت کند. این به این معنی است که از هر ۱۰۰ کلمه، حدود چهار کلمه از نظر این مدل با نسخه انسانی ترجمه متفاوت بوده است.

در یک معیار دیگر که تعاملات بلند با شرکت‌کنندگان متعدد را می‌سنجد به نام Augmented Multi Party Interaction، آمازون اعلام کرد که Nova Sonic نسبت به مدل GPT-4o از، ۴۶.۷ درصد دقت بیشتری در شناسایی گفتار داشته است. همچنین، Nova Sonic از سرعت بالایی برخوردار است و طبق آمازون، تاخیر متوسط آن تنها ۱.۰۹ ثانیه است. این مدل سریع‌تر از مدل GPT-4o است که از API زمان واقعی OpenAI پشتیبانی می‌کند و زمان پاسخ آن ۱.۱۸ ثانیه است.

Prasad می‌گوید که Nova Sonic بخشی از استراتژی گسترده‌تر آمازون برای ساخت AGI (هوش مصنوعی عمومی) است که آمازون آن را به عنوان “سیستم‌های هوش مصنوعی که می‌توانند هر کاری که یک انسان می‌تواند با کامپیوتر انجام دهد، انجام دهند” تعریف می‌کند. در آینده، آمازون برنامه دارد مدل‌های بیشتری منتشر کند که بتوانند انواع مختلفی از داده‌ها از جمله تصویر، ویدیو، صدا و همچنین “داده‌های حسی دیگر که در دنیای فیزیکی کاربرد دارند” را درک کنند.

واحد AGI آمازون که Prasad مسئول آن است، به نظر می‌رسد نقش بزرگ‌تری در استراتژی محصولات این شرکت ایفا کند. تنها هفته گذشته، آمازون پیش‌نمایشی از Nova Act، مدلی که از مرورگر استفاده می‌کند و به نظر می‌رسد بخش‌هایی از الکسا+ و ویژگی خرید برای من آمازون را قدرت‌دهی می‌کند، معرفی کرد. Prasad می‌گوید که آمازون قصد دارد مدل‌های داخلی بیشتری از هوش مصنوعی خود را برای توسعه‌دهندگان جهت ساخت و استفاده در دسترس قرار دهد.