مدل جدید علی‌بابا در ابزارهای رونویسی صوتی با هوش مصنوعی

👁️ تعداد بازدید این مطلب: 228

منبع: AI News – مترجم: تیم دکتر دیتا
تاریخ انتشار: ۸ سپتامبر ۲۰۲۵

ابزارهای رونویسی صوتی مبتنی بر هوش مصنوعی با ورود مدل جدید Qwen3-ASR-Flash از تیم Qwen علی‌بابا وارد مرحله‌ای تازه از رقابت شده‌اند. این مدل بر پایه هوش قدرتمند Qwen3-Omni ساخته شده و با مجموعه داده عظیمی شامل ده‌ها میلیون ساعت داده صوتی آموزش دیده است.

تیم توسعه می‌گوید این مدل فقط یک سامانه تشخیص گفتار دیگر نیست؛ بلکه برای عملکرد بسیار دقیق حتی در محیط‌های صوتی دشوار یا الگوهای زبانی پیچیده طراحی شده است.

عملکرد مدل در تست‌ها

نتایج تست‌های عمومی در اوت ۲۰۲۵ نشان‌دهنده برتری چشمگیر Qwen3-ASR-Flash است:

  • در زبان چینی استاندارد، نرخ خطای آن تنها ۳.۹۷٪ بود، در حالی که Gemini-2.5-Pro خطای ۸.۹۸٪ و GPT4o-Transcribe خطای ۱۵.۷۲٪ داشتند.

  • در تشخیص لهجه‌های مختلف چینی، خطا به ۳.۴۸٪ کاهش یافت.

  • در زبان انگلیسی، نرخ خطای ۳.۸۱٪ ثبت شد که باز هم بهتر از Gemini (۷.۶۳٪) و GPT4o (۸.۴۵٪) است.

  • در حوزه دشوار رونویسی موسیقی و ترانه‌ها، Qwen3-ASR-Flash تنها ۴.۵۱٪ خطا داشت. در تست‌های کامل روی ترانه‌ها نیز خطای آن ۹.۹۶٪ بود، در حالی که Gemini خطای ۳۲.۷۹٪ و GPT4o خطای ۵۸.۵۹٪ ثبت کردند.

 

ویژگی‌های نوآورانه

این مدل علاوه بر دقت بالا، امکاناتی تازه برای نسل بعدی ابزارهای رونویسی ارائه می‌دهد:

  • بایاس‌گذاری متنی انعطاف‌پذیر: دیگر نیازی به فهرست‌های کلیدواژه پیچیده نیست. کاربران می‌توانند متن زمینه‌ای را در هر قالبی به مدل بدهند (از لیست ساده کلیدواژه تا اسناد کامل) و خروجی سفارشی بگیرند.

  • مقاومت در برابر نویز: مدل توانایی تشخیص زبان‌های غیرگفتاری مانند سکوت یا صدای پس‌زمینه را دارد و خروجی تمیزتری ارائه می‌کند.

پوشش زبانی

Qwen3-ASR-Flash در حال حاضر از ۱۱ زبان به همراه گویش‌ها و لهجه‌های مختلف پشتیبانی می‌کند:

  • چینی: شامل ماندارین، کانتونی، سیچوانی، مین‌نان (هوکیِن) و وو.

  • انگلیسی: شامل لهجه‌های بریتانیایی، آمریکایی و سایر لهجه‌های منطقه‌ای.

  • زبان‌های دیگر: فرانسوی، آلمانی، اسپانیایی، ایتالیایی، پرتغالی، روسی، ژاپنی، کره‌ای و عربی.

جمع‌بندی

علی‌بابا با معرفی مدل Qwen3-ASR-Flash نشان داد که هدفش تبدیل شدن به بازیگر اصلی در عرصه جهانی رونویسی صوتی است. دقت بالا، پوشش گسترده زبانی و قابلیت‌های نوآورانه، این مدل را به ابزاری قدرتمند برای نسل آینده خدمات مبتنی بر گفتار تبدیل کرده است.

پست های مرتبط

مطالعه این پست ها رو از دست ندین!

مگا فکتوری هوش مصنوعی؛ گام بزرگ سامسونگ و انویدیا

آنچه در این پست میخوانید «مگا فکتوری هوش مصنوعی؛ گام بزرگ سامسونگ و انویدیا برای تحول صنعت تولید»همکاری ۲۵ سالهتولید…

بیشتر بخوانید

همکاری OpenAI و Walmart برای خرید مستقیم از طریق ChatGPT

آنچه در این پست میخوانید جزئیات و ابعاد همکارینقش Walmart در توسعه هوش مصنوعیتأثیر بازارجمع‌بندی تیم دکتر دیتا منبع: Associated…

بیشتر بخوانید

گزارش شاخص هوش مصنوعی از دانشگاه استنفورد ۲۰۲۵

آنچه در این پست میخوانید کاهش چشمگیر هزینه استنتاج هوش مصنوعی | گزارش شاخص هوش مصنوعی ۲۰۲۵ استنفوردکاهش چشمگیر هزینه‌هاعوامل…

بیشتر بخوانید

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید

برای ارسال نظر لطفا ابتدا وارد حساب کاربری خود شوید.