مدل جدید علیبابا در ابزارهای رونویسی صوتی با هوش مصنوعی

منبع: AI News – مترجم: تیم دکتر دیتا
تاریخ انتشار: ۸ سپتامبر ۲۰۲۵
ابزارهای رونویسی صوتی مبتنی بر هوش مصنوعی با ورود مدل جدید Qwen3-ASR-Flash از تیم Qwen علیبابا وارد مرحلهای تازه از رقابت شدهاند. این مدل بر پایه هوش قدرتمند Qwen3-Omni ساخته شده و با مجموعه داده عظیمی شامل دهها میلیون ساعت داده صوتی آموزش دیده است.
تیم توسعه میگوید این مدل فقط یک سامانه تشخیص گفتار دیگر نیست؛ بلکه برای عملکرد بسیار دقیق حتی در محیطهای صوتی دشوار یا الگوهای زبانی پیچیده طراحی شده است.
عملکرد مدل در تستها
نتایج تستهای عمومی در اوت ۲۰۲۵ نشاندهنده برتری چشمگیر Qwen3-ASR-Flash است:
-
در زبان چینی استاندارد، نرخ خطای آن تنها ۳.۹۷٪ بود، در حالی که Gemini-2.5-Pro خطای ۸.۹۸٪ و GPT4o-Transcribe خطای ۱۵.۷۲٪ داشتند.
-
در تشخیص لهجههای مختلف چینی، خطا به ۳.۴۸٪ کاهش یافت.
-
در زبان انگلیسی، نرخ خطای ۳.۸۱٪ ثبت شد که باز هم بهتر از Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) است.
-
در حوزه دشوار رونویسی موسیقی و ترانهها، Qwen3-ASR-Flash تنها ۴.۵۱٪ خطا داشت. در تستهای کامل روی ترانهها نیز خطای آن ۹.۹۶٪ بود، در حالی که Gemini خطای ۳۲.۷۹٪ و GPT4o خطای ۵۸.۵۹٪ ثبت کردند.
ویژگیهای نوآورانه
این مدل علاوه بر دقت بالا، امکاناتی تازه برای نسل بعدی ابزارهای رونویسی ارائه میدهد:
-
بایاسگذاری متنی انعطافپذیر: دیگر نیازی به فهرستهای کلیدواژه پیچیده نیست. کاربران میتوانند متن زمینهای را در هر قالبی به مدل بدهند (از لیست ساده کلیدواژه تا اسناد کامل) و خروجی سفارشی بگیرند.
-
مقاومت در برابر نویز: مدل توانایی تشخیص زبانهای غیرگفتاری مانند سکوت یا صدای پسزمینه را دارد و خروجی تمیزتری ارائه میکند.
پوشش زبانی
Qwen3-ASR-Flash در حال حاضر از ۱۱ زبان به همراه گویشها و لهجههای مختلف پشتیبانی میکند:
-
چینی: شامل ماندارین، کانتونی، سیچوانی، میننان (هوکیِن) و وو.
-
انگلیسی: شامل لهجههای بریتانیایی، آمریکایی و سایر لهجههای منطقهای.
-
زبانهای دیگر: فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کرهای و عربی.
جمعبندی
علیبابا با معرفی مدل Qwen3-ASR-Flash نشان داد که هدفش تبدیل شدن به بازیگر اصلی در عرصه جهانی رونویسی صوتی است. دقت بالا، پوشش گسترده زبانی و قابلیتهای نوآورانه، این مدل را به ابزاری قدرتمند برای نسل آینده خدمات مبتنی بر گفتار تبدیل کرده است.
برای ارسال نظر لطفا ابتدا وارد حساب کاربری خود شوید. صفحه ورود و ثبت نام