تطبيق نماذج التعلم العميق في التعرف على الصوت
2022/09/10
News Detail
شكلت تطبيقات نماذج التعلم العميق في التعرف على الصوت إطارًا تقنيًا شاملاً. تكمن قيمتها الأساسية في تحقيق استخلاص عالي الدقة لميزات الصوت وفهم دلالي متعدد السيناريوهات من خلال التعلم الشامل. فيما يلي الاتجاهات الرئيسية للتطبيقات التقنية وهياكل النماذج النموذجية:
1. استخلاص ميزات الصوت
تحسين تحليل التردد الزمني
- باستخدام شبكات CNN للتعلم التلقائي للميزات المحلية (مثل الهيكل التوافقي والتشكيلات) من مخططات ميل-الطيف، بدلاً من هندسة الميزات اليدوية التقليدية باستخدام MFCCs، يحسن هذا النهج دقة التصنيف بنسبة 27٪ في البيئات الصاخبة على مجموعة بيانات UrbanSound8K.
- تحقق النماذج خفيفة الوزن مثل MobileNetV3، باستخدام التفافات قابلة للفصل حسب العمق ووحدات انتباه PSA، دقة التعرف على أصوات الطيور بنسبة 100٪ في أفضل 5 نتائج مع 2.6 مليون معلمة فقط.
نمذجة السلاسل الزمنية المحسنة
- يعمل البناء الهجين CRNN (CNN + BiLSTM) على التقاط الخصائص الطيفية والتبعيات الزمنية لأحداث الصوت في وقت واحد، مما يحقق درجة F1 تبلغ 92.3٪ للكشف عن الأحداث المفاجئة مثل كسر الزجاج.
- يستخدم Transformer آلية الاهتمام الذاتي لمعالجة تسلسلات الصوت الطويلة، مما يحقق دقة تزيد عن 99٪ في تصنيف صرخات الرضع للجوع والألم.
ثانيًا. سيناريوهات التطبيقات المحددة
| مجالات التطبيق | الحلول التقنية | مقاييس الأداء |
|---|---|---|
| مراقبة صحة الحيوانات الأليفة | نظام تحليل عاطفة الصوت القائم على RNN، يدعم تصنيف أكثر من 10 أنواع من الأصوات | |
| أمن المنزل الذكي | الكشف عن الصوت غير الطبيعي من البداية إلى النهاية باستخدام CNN+CTC | زمن الاستجابة<200ms |
| تشخيص المساعدة الطبية | نموذج بصمة الصوت للتعلم الانتقالي (مثل بنية Urbansound) للتعرف على السعال المرضي | AUC 0.98 |
ثالثًا. الاختراقات التكنولوجية المتطورة
- الاندماج متعدد الوسائط: التدريب المشترك لنموذج YOLOv8 المرئي وشبكة LSTM الصوتية يحلل في وقت واحد حركات الرضع وتكرار البكاء، مما يقلل من الإيجابيات الكاذبة بنسبة 38٪.
- النشر خفيف الوزن: تدمج الرقائق مثل WT2605A محركات استدلال DNN، مما يقلل من استهلاك الطاقة لوحدة التعرف على بصمة الصوت إلى 15mW.
(ملاحظة: يتم الإشارة إلى الأرقام المرجعية في الجدول خارج الجدول.)