هوش مصنوعی بهطور مداوم در حال پیشرفت است. درحالیکه بسیاری از افراد از هوش مصنوعی برای کمک به انجام کارهایشان بهره میبرند، این فناوری میتواند بسیار کاربردیتر باشد. گوگل از سالها قبل به دنبال دسترسی به ظرفیت کامل هوش مصنوعی است و جدیدترین فناوری این شرکت AudioPaLM نام دارد؛ مدلی که میتواند با دقت بسیار بالا گوش دهد، حرف بزند یا ترجمه کند.
محققان گوگل، AudioPaLM را بهعنوان مدل زبان جدید معرفی کردهاند که میتواند با دقت شگفتانگیزی به صحبتهای دیگران گوش داده و آنها را به زبانهای دیگر ترجمه کند. این مدل از معماری چندوجهی بهره میبرد و نقاط قوت دو مدل کنونی یعنی PaLM-2 و AudioLM را ترکیب میکند.
هوش مصنوعی که میتواند حرف بزند
AudioLMدر حفظ اطلاعاتی مثل هویت و لحن صحبت گوینده بسیار عالی عمل میکند. با ترکیب این دو مدل زبانی، مدل جدید AudioPaLM به دست آمد که از تخصص زبانی PaLM-2 نیز بهره میبرد تا درک کاملی از متن و گفتار داشته باشد.
AudioPaLM از واژگان مشترکی بهره میبرد که میتواند گفتار و متن را با استفاده از تعداد محدودی نشانههای مجزا نشان دهد. این قابلیت به مدل اجازه میدهد کارهایی مثل تشخیص گفتار، تبدیل متن به گفتار و ترجمهی گفتار به گفتار را با معماری و فرایند آموزشی واحد، ارائه دهد.
AudioPaLM از سیستمهای موجود در ترجمهی گفتار بهتر عمل میکند و حتی میتواند ترجمهی گفتار به نوشتار را با ترکیبهای زبانیای که قبلاً هرگز با آنها مواجه نشده، انجام دهد. این هوش مصنوعی جدید میتواند صداها را براساس اعلانهای گفتاری کوتاه، بین زبانها انتقال دهد و صداهای متمایزی را به زبانهای مختلف ضبط و بازتولید کند.