من هو فيصل السويد؟

فيصل السويد مطور برمجيات متخصص من المملكة العربية السعودية، يعمل في مجال تطوير تطبيقات الويب والجوال وحلول الذكاء الاصطناعي.

ما هي الخدمات التي يقدمها فيصل؟

يقدم فيصل خدمات تطوير تطبيقات الويب، تطوير تطبيقات الجوال، حلول الذكاء الاصطناعي، تصميم واجهات المستخدم، والتطوير المتكامل باستخدام React و Next.js و Flutter و Python.

أين يقع فيصل السويد؟

فيصل مقيم في المملكة العربية السعودية ويقدم خدماته محلياً ودولياً.

كيف يمكنني التواصل مع فيصل؟

يمكنك التواصل عبر البريد الإلكتروني FaisalSaweed@gmail.com أو من خلال LinkedIn أو صفحة التواصل في الموقع.

منشئ بيانات الكلام: أداة إنشاء مجموعات بيانات TTS و STT | تفاصيل المشروع

نظرة عامة

منشئ بيانات الكلام هو تطبيق ويب قوي ومفتوح المصدر مصمم لتبسيط إنشاء مجموعات بيانات كلام احترافية لتدريب نماذج تحويل النص إلى كلام (TTS) والكلام إلى نص (STT). يعمل بالكامل في المتصفح دون معالجة من جانب الخادم، مما يضمن خصوصية البيانات.

الواجهة الرئيسية (الوضع الفاتح) تُظهر أدوات شكل الموجة والنسخ.

الواجهة الرئيسية (الوضع الداكن). تتميز الأداة بالنسخ المدعوم بالذكاء الاصطناعي (دمج Google Gemini و OpenAI)، والتصور الدقيق للصوت باستخدام WaveSurfer.js، والتطبيع التلقائي للنص. يمكن للمستخدمين تصدير مجموعات البيانات بتنسيقات شائعة مثل LJSpeech و CSV و JSON.

الأهداف

إنشاء أداة تركز على الخصوصية وتعمل من جانب العميل لإنشاء مجموعات بيانات الكلام.

دمج خدمات الذكاء الاصطناعي (Google Gemini, OpenAI) لتسريع عملية النسخ.

توفير تصور دقيق للصوت واختيار المنطقة.

دعم تنسيقات التصدير القياسية في الصناعة مثل LJSpeech.

المميزات الرئيسية

النسخ المدعوم بالذكاء الاصطناعي

نسخ الصوت تلقائيًا باستخدام نماذج Google Gemini أو OpenAI Whisper.

تصور الصوت

تصور أشكال الموجات الصوتية مع اختيار المنطقة لتحديد الطوابع الزمنية بدقة.

تطبيع النص

تطبيع النص تلقائيًا (الأرقام إلى كلمات، الأحرف الخاصة) لتدريب TTS.

تنسيقات تصدير متعددة

تصدير البيانات إلى تنسيقات LJSpeech و CSV و JSON و TXT.

دعم وضع عدم الاتصال (PWA)

قابل للتثبيت كتطبيق ويب تقدمي (PWA) يعمل دون اتصال بالإنترنت.

التحديات والحلول

التحدي:

التعامل مع ملفات الصوت ومجموعات البيانات الكبيرة بالكامل في المتصفح.

الحل:

تم استخدام IndexedDB للتخزين الفعال من جانب العميل و JSZip لإنشاء ملفات تصدير كبيرة دون تعطيل المتصفح.

التحدي:

تصور البيانات الصوتية بدقة للتقسيم الدقيق.

الحل:

تم تطبيق WaveSurfer.js لعرض أشكال موجية مفصلة والسماح بالتحكم الدقيق في المنطقة.

نظرة عامة

الواجهة الرئيسية (الوضع الفاتح) تُظهر أدوات شكل الموجة والنسخ.

الأهداف

إنشاء أداة تركز على الخصوصية وتعمل من جانب العميل لإنشاء مجموعات بيانات الكلام.

دمج خدمات الذكاء الاصطناعي (Google Gemini, OpenAI) لتسريع عملية النسخ.

توفير تصور دقيق للصوت واختيار المنطقة.

دعم تنسيقات التصدير القياسية في الصناعة مثل LJSpeech.

المميزات الرئيسية

النسخ المدعوم بالذكاء الاصطناعي

نسخ الصوت تلقائيًا باستخدام نماذج Google Gemini أو OpenAI Whisper.

تصور الصوت

تصور أشكال الموجات الصوتية مع اختيار المنطقة لتحديد الطوابع الزمنية بدقة.

تطبيع النص

تطبيع النص تلقائيًا (الأرقام إلى كلمات، الأحرف الخاصة) لتدريب TTS.

تنسيقات تصدير متعددة

تصدير البيانات إلى تنسيقات LJSpeech و CSV و JSON و TXT.

دعم وضع عدم الاتصال (PWA)

قابل للتثبيت كتطبيق ويب تقدمي (PWA) يعمل دون اتصال بالإنترنت.

التحديات والحلول

التحدي:

التعامل مع ملفات الصوت ومجموعات البيانات الكبيرة بالكامل في المتصفح.

الحل:

تم استخدام IndexedDB للتخزين الفعال من جانب العميل و JSZip لإنشاء ملفات تصدير كبيرة دون تعطيل المتصفح.

التحدي:

تصور البيانات الصوتية بدقة للتقسيم الدقيق.

الحل:

تم تطبيق WaveSurfer.js لعرض أشكال موجية مفصلة والسماح بالتحكم الدقيق في المنطقة.