مدل جدید علی‌بابا در ابزارهای رونویسی صوتی با هوش مصنوعی

👁️ تعداد بازدید این مطلب: 16

منبع: AI News – مترجم: تیم دکتر دیتا
تاریخ انتشار: ۸ سپتامبر ۲۰۲۵

ابزارهای رونویسی صوتی مبتنی بر هوش مصنوعی با ورود مدل جدید Qwen3-ASR-Flash از تیم Qwen علی‌بابا وارد مرحله‌ای تازه از رقابت شده‌اند. این مدل بر پایه هوش قدرتمند Qwen3-Omni ساخته شده و با مجموعه داده عظیمی شامل ده‌ها میلیون ساعت داده صوتی آموزش دیده است.

تیم توسعه می‌گوید این مدل فقط یک سامانه تشخیص گفتار دیگر نیست؛ بلکه برای عملکرد بسیار دقیق حتی در محیط‌های صوتی دشوار یا الگوهای زبانی پیچیده طراحی شده است.

عملکرد مدل در تست‌ها

نتایج تست‌های عمومی در اوت ۲۰۲۵ نشان‌دهنده برتری چشمگیر Qwen3-ASR-Flash است:

  • در زبان چینی استاندارد، نرخ خطای آن تنها ۳.۹۷٪ بود، در حالی که Gemini-2.5-Pro خطای ۸.۹۸٪ و GPT4o-Transcribe خطای ۱۵.۷۲٪ داشتند.

  • در تشخیص لهجه‌های مختلف چینی، خطا به ۳.۴۸٪ کاهش یافت.

  • در زبان انگلیسی، نرخ خطای ۳.۸۱٪ ثبت شد که باز هم بهتر از Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) است.

  • در حوزه دشوار رونویسی موسیقی و ترانه‌ها، Qwen3-ASR-Flash تنها ۴.۵۱٪ خطا داشت. در تست‌های کامل روی ترانه‌ها نیز خطای آن ۹.۹۶٪ بود، در حالی که Gemini خطای ۳۲.۷۹٪ و GPT4o خطای ۵۸.۵۹٪ ثبت کردند.

 

ویژگی‌های نوآورانه

این مدل علاوه بر دقت بالا، امکاناتی تازه برای نسل بعدی ابزارهای رونویسی ارائه می‌دهد:

  • بایاس‌گذاری متنی انعطاف‌پذیر: دیگر نیازی به فهرست‌های کلیدواژه پیچیده نیست. کاربران می‌توانند متن زمینه‌ای را در هر قالبی به مدل بدهند (از لیست ساده کلیدواژه تا اسناد کامل) و خروجی سفارشی بگیرند.

  • مقاومت در برابر نویز: مدل توانایی تشخیص زبان‌های غیرگفتاری مانند سکوت یا صدای پس‌زمینه را دارد و خروجی تمیزتری ارائه می‌کند.

پوشش زبانی

Qwen3-ASR-Flash در حال حاضر از ۱۱ زبان به همراه گویش‌ها و لهجه‌های مختلف پشتیبانی می‌کند:

  • چینی: شامل ماندارین، کانتونی، سیچوانی، مین‌نان (هوکیِن) و وو.

  • انگلیسی: شامل لهجه‌های بریتانیایی، آمریکایی و سایر لهجه‌های منطقه‌ای.

  • زبان‌های دیگر: فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کره‌ای و عربی.

جمع‌بندی

علی‌بابا با معرفی مدل Qwen3-ASR-Flash نشان داد که هدفش تبدیل شدن به بازیگر اصلی در عرصه جهانی رونویسی صوتی است. دقت بالا، پوشش گسترده زبانی و قابلیت‌های نوآورانه، این مدل را به ابزاری قدرتمند برای نسل آینده خدمات مبتنی بر گفتار تبدیل کرده است.

پست های مرتبط

مطالعه این پست ها رو از دست ندین!

گزارش شاخص هوش مصنوعی از دانشگاه استنفورد ۲۰۲۵

آنچه در این پست میخوانید کاهش چشمگیر هزینه استنتاج هوش مصنوعی | گزارش شاخص هوش مصنوعی ۲۰۲۵ استنفوردکاهش چشمگیر هزینه‌هاعوامل…

بیشتر بخوانید

نقش واقعی هوش مصنوعی در شکار تهدیدات مدرن

آنچه در این پست میخوانید از ترس تا استفادهچارچوب TaHiTIAI به‌عنوان همکار، نه جایگزینمحدودیت‌ها و واقعیت داده‌هاگزارش‌دهی و تحلیل گذشتهجمع‌بندی…

بیشتر بخوانید

هوش مصنوعی عامل‌محور و آینده صنعت تأمین نیروی کار

آنچه در این پست میخوانید هوش مصنوعی عامل‌ محور چیست؟پیامد برای رهبران منابع انسانیشواهد و نمونه‌ هاتغییرات در مدل‌ های…

بیشتر بخوانید

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید

برای ارسال نظر لطفا ابتدا وارد حساب کاربری خود شوید.