مدل جدید علی‌بابا در ابزارهای رونویسی صوتی با هوش مصنوعی

آخرین بروزرسانی: 9 سپتامبر 2025

اخبار

آنچه در این پست میخوانید

👁️ تعداد بازدید این مطلب: 475

منبع: AI News – مترجم: تیم دکتر دیتا
تاریخ انتشار: ۸ سپتامبر ۲۰۲۵

ابزارهای رونویسی صوتی مبتنی بر هوش مصنوعی با ورود مدل جدید Qwen3-ASR-Flash از تیم Qwen علی‌بابا وارد مرحله‌ای تازه از رقابت شده‌اند. این مدل بر پایه هوش قدرتمند Qwen3-Omni ساخته شده و با مجموعه داده عظیمی شامل ده‌ها میلیون ساعت داده صوتی آموزش دیده است.

تیم توسعه می‌گوید این مدل فقط یک سامانه تشخیص گفتار دیگر نیست؛ بلکه برای عملکرد بسیار دقیق حتی در محیط‌های صوتی دشوار یا الگوهای زبانی پیچیده طراحی شده است.

عملکرد مدل در تست‌ها

نتایج تست‌های عمومی در اوت ۲۰۲۵ نشان‌دهنده برتری چشمگیر Qwen3-ASR-Flash است:

در زبان چینی استاندارد، نرخ خطای آن تنها ۳.۹۷٪ بود، در حالی که Gemini-2.5-Pro خطای ۸.۹۸٪ و GPT4o-Transcribe خطای ۱۵.۷۲٪ داشتند.
در تشخیص لهجه‌های مختلف چینی، خطا به ۳.۴۸٪ کاهش یافت.
در زبان انگلیسی، نرخ خطای ۳.۸۱٪ ثبت شد که باز هم بهتر از Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) است.
در حوزه دشوار رونویسی موسیقی و ترانه‌ها، Qwen3-ASR-Flash تنها ۴.۵۱٪ خطا داشت. در تست‌های کامل روی ترانه‌ها نیز خطای آن ۹.۹۶٪ بود، در حالی که Gemini خطای ۳۲.۷۹٪ و GPT4o خطای ۵۸.۵۹٪ ثبت کردند.

ویژگی‌های نوآورانه

این مدل علاوه بر دقت بالا، امکاناتی تازه برای نسل بعدی ابزارهای رونویسی ارائه می‌دهد:

بایاس‌گذاری متنی انعطاف‌پذیر: دیگر نیازی به فهرست‌های کلیدواژه پیچیده نیست. کاربران می‌توانند متن زمینه‌ای را در هر قالبی به مدل بدهند (از لیست ساده کلیدواژه تا اسناد کامل) و خروجی سفارشی بگیرند.
مقاومت در برابر نویز: مدل توانایی تشخیص زبان‌های غیرگفتاری مانند سکوت یا صدای پس‌زمینه را دارد و خروجی تمیزتری ارائه می‌کند.

پوشش زبانی

Qwen3-ASR-Flash در حال حاضر از ۱۱ زبان به همراه گویش‌ها و لهجه‌های مختلف پشتیبانی می‌کند:

چینی: شامل ماندارین، کانتونی، سیچوانی، مین‌نان (هوکیِن) و وو.
انگلیسی: شامل لهجه‌های بریتانیایی، آمریکایی و سایر لهجه‌های منطقه‌ای.
زبان‌های دیگر: فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کره‌ای و عربی.

جمع‌بندی

علی‌بابا با معرفی مدل Qwen3-ASR-Flash نشان داد که هدفش تبدیل شدن به بازیگر اصلی در عرصه جهانی رونویسی صوتی است. دقت بالا، پوشش گسترده زبانی و قابلیت‌های نوآورانه، این مدل را به ابزاری قدرتمند برای نسل آینده خدمات مبتنی بر گفتار تبدیل کرده است.

لینک کوتاه:

mohsen mehdinia