من هو فيصل السويد؟

فيصل السويد مطور برمجيات متخصص من المملكة العربية السعودية، يعمل في مجال تطوير تطبيقات الويب والجوال وحلول الذكاء الاصطناعي.

ما هي الخدمات التي يقدمها فيصل؟

يقدم فيصل خدمات تطوير تطبيقات الويب، تطوير تطبيقات الجوال، حلول الذكاء الاصطناعي، تصميم واجهات المستخدم، والتطوير المتكامل باستخدام React و Next.js و Flutter و Python.

أين يقع فيصل السويد؟

فيصل مقيم في المملكة العربية السعودية ويقدم خدماته محلياً ودولياً.

كيف يمكنني التواصل مع فيصل؟

يمكنك التواصل عبر البريد الإلكتروني FaisalSaweed@gmail.com أو من خلال LinkedIn أو صفحة التواصل في الموقع.

العودة للمشاريع

Voiceflow: وكيل محادثة ذكي في الوقت الفعلي

نظام صوتي فائق السرعة يعمل بالذكاء الاصطناعي، قادر على التفكير المعقد وإدارة الحالة ومزامنة واجهة المستخدم في الوقت الفعلي.

2026-01-03

AI / Machine LearningFull-Stack DevelopmentReal-Time SystemsReactNode.jsSocket.IOMongoDBGrok-120BGemini 2.5 FlashElevenLabsCustom TTS Fine-Tuning

نظرة عامة

Voiceflow هو وكيل صوتي متطور مصمم ليحل محل أنظمة الرد الصوتي التفاعلي (IVR) التقليدية بذكاء اصطناعي محادثة يستمع ويفكر ويرد في الوقت الفعلي. يحقق النظام زمن استجابة أقل من ثانيتين من لحظة انتهاء المستخدم من الكلام إلى لحظة سماعه لرد الذكاء الاصطناعي — عبر سلسلة تشمل التعرف على الكلام، واستدلال النموذج اللغوي، وتحديث قاعدة البيانات، وتوليف الصوت.

بدلاً من بنية RAG التقليدية، يستخدم Voiceflow استراتيجية حقن السياق: يتم تغذية المخطط الهيكلي الكامل (قوائم المطاعم، سياسات البنوك، كتالوجات المنتجات) مباشرة في نافذة سياق النموذج اللغوي أثناء الاستدلال. هذا يضمن دقة 100% وصفر هلوسة، مع أوقات استجابة فائقة السرعة تتفوق على أساليب الاسترجاع.

الصوت نفسه هو نموذج ElevenLabs مخصص تم تدريبه لإنتاج لهجة سعودية واقعية للغاية، مقترناً بإلغاء ضوضاء قوي يتيح للنظام العمل بشكل موثوق في البيئات عالية الضوضاء.

المشكلة مقابل الحل

المشكلة: أنظمة IVR التقليدية

أنظمة الرد الصوتي التفاعلي التقليدية تجبر المستخدمين على المرور بأشجار قرارات جامدة — "اضغط 1 للمبيعات، اضغط 2 للدعم." لا تستطيع التعامل مع اللغة الطبيعية، وتفشل في البيئات الصاخبة، ولا تقدم أي تخصيص.

الحل: وكيل Voiceflow الذكي

يستبدل Voiceflow نموذج IVR بالكامل بوكيل محادثة ذكي واحد. يتحدث المستخدمون بشكل طبيعي بلهجتهم. يفهم الذكاء الاصطناعي النية، ويجري الحسابات، ويحدث حالة الخادم، ويرد بصوت بشري واقعي — كل ذلك في أقل من ثانيتين.

عرض

حالة الاستخدام 1: مستشار مالي ذكي (بنكي)

مساعد بنكي صوتي ديناميكي يوجه العملاء عبر المنتجات المالية المعقدة باستخدام المحادثة الطبيعية بدلاً من النماذج أو القوائم.

تدفق التفاعل

يسأل المستخدم عن خيارات التمويل. يقوم الذكاء الاصطناعي بتضييق المحادثة إلى قرض شخصي، ثم يسأل عن الراتب الشهري والبنك. يرد المستخدم "12,000 ريال." يحسب الذكاء الاصطناعي فوراً الحد الأقصى للقرض المؤهل (90,000 ريال بناءً على مضاعف الراتب 7.5x) ويطلب التأكيد للمتابعة.

أبرز النقاط التقنية

يعرض قدرة النموذج اللغوي على إجراء حسابات رياضية في الوقت الفعلي، واستخراج كيانات محددة (مبلغ الراتب، اسم البنك)، وتطبيق قواعد العمل، وتفعيل تغييرات حالة الخادم — دفع نموذج الموافقة على القرض مباشرة إلى شاشة المستخدم.

عرض

حالة الاستخدام 2: كاشير طلبات سيارات ذكي (مطاعم)

نظام طلبات عالي المرونة مصمم للبيئات الصاخبة وأنماط الكلام البشري المعقدة متعددة النوايا النموذجية في طلبات السيارات.

تدفق التفاعل

يطلب المستخدم برجر لحم وبيبسي. ثم يضيف بطاطس مقلية. أخيراً، يصدر أمراً معقداً متعدد النوايا في نفس واحد: "في الحقيقة، شيل برجر اللحم، وعطني برجر دجاج مع كاتشب زيادة." يعالج النظام جميع النوايا الثلاث في وقت واحد — حذف، إضافة، وتعديل.

أبرز النقاط التقنية

يحلل النظام نوايا "حذف" و"إضافة" و"تعديل" متزامنة في جملة واحدة. باستخدام WebSockets (Socket.IO)، يتم تحديث السلة المرئية على الشاشة في الوقت الفعلي، سطراً بسطر، متزامنة تماماً مع رد الذكاء الاصطناعي الصوتي.

بنية النظام

سلسلة صوتية متكاملة — خدمات STT و LLM و TTS تعمل كخدمات مصغّرة مستقلة، يتم تنسيقها ديناميكياً بواسطة الخادم

الواجهة الأمامية / الجهاز المحلي

مدخل الميكروفون

1. صوت المستخدم

تطبيق Reactواجهة الموظف والعميل

10. بث الصوت

مخرج الصوت

2. إرسال الصوت/النص ↓

11. تحديثات الواجهة الفورية ↑

الخادم المحلي

خادم Node.jsExpress + Socket.IO

7. تحديث بيانات الطلب

MongoDB Atlasقاعدة البيانات

خدمات مصغّرة خارجية

متوازي

3. إرسال الصوت →← 4. إرجاع النص

خدمة STT

5. النص + سياق الطلب →← 6. رد الذكاء + تحديث الطلب

API LLM / المنطق

8. نص للتحويل →← 9. إرجاع تدفق الصوت

API TTS / الصوت

مقاييس الأداء

تم قياسها في ظروف واقعية

زمن الاستجابة الكلي

<2 ثانية

من نهاية كلام المستخدم إلى تشغيل رد الذكاء الاصطناعي

96%

دقة فهم النية

100%

صفر هلوسة عبر حقن السياق

100%

تحليل النوايا المتعددة

إضافة/حذف/تعديل متزامن في جملة واحدة

94%

زمن مزامنة الواجهة

<50ms

من حدث WebSocket إلى تحديث DOM

99%

القدرات الرئيسية

سلسلة صوت إلى صوت97%

إدارة الحالة في الوقت الفعلي95%

مقاومة الضوضاء90%

دعم اللهجة العربية السعودية92%

جميع المقاييس تم قياسها باستخدام Grok-120B كنموذج لغوي أساسي و ElevenLabs Scribe للتعرف على الكلام. يُستخدم Gemini 2.5 Flash كبديل للنشر الاقتصادي بدقة مماثلة.

الأهداف

استبدال أنظمة IVR التقليدية بوكيل صوتي ذكي يفهم اللغة الطبيعية.
تحقيق زمن استجابة أقل من ثانيتين عبر سلسلة الصوت الكاملة.
تطبيق حقن السياق لردود دقيقة 100% بدون هلوسة.
بناء مزامنة واجهة المستخدم في الوقت الفعلي عبر أحداث WebSocket.
ضبط نموذج صوت مخصص بلهجة سعودية واقعية للغاية.
التصميم للبيئات عالية الضوضاء مع إلغاء ضوضاء قوي.

المميزات الرئيسية

بنية حقن السياق

تغذية المخطط الهيكلي الكامل مباشرة في نافذة سياق النموذج اللغوي، مما يلغي زمن الاسترجاع ويضمن دقة 100% بدون هلوسة.

مزامنة السلة / الحالة في الوقت الفعلي

كل تغيير في الحالة يُرسل كحدث Socket.IO منفصل، مما يفعّل تحديثات DOM دقيقة على العميل. السلة المرئية تعكس رد الذكاء الاصطناعي المنطوق في الوقت الفعلي.

تحليل النوايا المتعددة

يعالج النموذج اللغوي الأوامر المركبة متعددة النوايا في جملة واحدة — معالجة عمليات الإضافة والحذف والتعديل المتزامنة.

ضبط الصوت المخصص

نموذج صوت ElevenLabs مخصص تم تدريبه على بيانات كلام سعودية، ينتج لهجة واقعية للغاية تبني الثقة والألفة.

معالجة مقاومة للضوضاء

سلسلة متقدمة لإلغاء الضوضاء والمعالجة المسبقة للصوت تتيح التشغيل الموثوق في البيئات عالية الضوضاء مثل ممرات طلبات السيارات والأكشاك الخارجية وقاعات البنوك المزدحمة.

الاستدلال الرياضي

يجري النموذج اللغوي حسابات في الوقت الفعلي (أهلية القروض، إجماليات الطلبات، تطبيق الخصومات) ويتحقق من النتائج مقابل قواعد العمل قبل الرد — بدون الحاجة لخدمة حاسبة خارجية.

التحديات والحلول

التحدي:

تحقيق زمن استجابة أقل من ثانيتين عبر سلسلة من 5 مراحل (STT → LLM → DB → TTS → Client).

الحل:

تم تطبيق البث في كل مرحلة: رفع صوت مجزأ، استدلال LLM متدفق مع إصدار مبكر للرموز، وتوليف TTS متدفق يبدأ التشغيل قبل اكتمال الرد.

التحدي:

التعامل مع نوايا إضافة/حذف/تعديل متزامنة في جملة واحدة بدون تلف البيانات.

الحل:

تم تصميم نموذج معاملات ذري حيث يُصدر النموذج اللغوي JSON diff لتغييرات السلة، يطبقها الخادم كعملية قاعدة بيانات ذرية واحدة.

التحدي:

العمل بشكل موثوق في بيئات طلبات السيارات عالية الضوضاء.

الحل:

تم تطبيق عتبة ضوضاء تكيّفية تُعاير من أول 4 ثوانٍ من كل جلسة تسجيل، مما يسمح للنظام بتصفية الضوضاء المحيطة ديناميكياً بناءً على ظروف البيئة الفعلية قبل تمرير الصوت النظيف إلى محرك التعرف على الكلام.

Voiceflow: وكيل محادثة ذكي في الوقت الفعلي

2026-01-03

AI / Machine LearningFull-Stack DevelopmentReal-Time SystemsReactNode.jsSocket.IOMongoDBGrok-120BGemini 2.5 FlashElevenLabsCustom TTS Fine-Tuning

نظرة عامة

المشكلة مقابل الحل

المشكلة: أنظمة IVR التقليدية

الحل: وكيل Voiceflow الذكي

عرض

حالة الاستخدام 1: مستشار مالي ذكي (بنكي)

تدفق التفاعل

أبرز النقاط التقنية

عرض

حالة الاستخدام 2: كاشير طلبات سيارات ذكي (مطاعم)

تدفق التفاعل

أبرز النقاط التقنية

بنية النظام

سلسلة صوتية متكاملة — خدمات STT و LLM و TTS تعمل كخدمات مصغّرة مستقلة، يتم تنسيقها ديناميكياً بواسطة الخادم

الواجهة الأمامية / الجهاز المحلي

مدخل الميكروفون

1. صوت المستخدم

تطبيق Reactواجهة الموظف والعميل

10. بث الصوت

مخرج الصوت

2. إرسال الصوت/النص ↓

11. تحديثات الواجهة الفورية ↑

الخادم المحلي

خادم Node.jsExpress + Socket.IO

7. تحديث بيانات الطلب

MongoDB Atlasقاعدة البيانات

خدمات مصغّرة خارجية

متوازي

3. إرسال الصوت →← 4. إرجاع النص

خدمة STT

5. النص + سياق الطلب →← 6. رد الذكاء + تحديث الطلب

API LLM / المنطق

8. نص للتحويل →← 9. إرجاع تدفق الصوت

API TTS / الصوت

مقاييس الأداء

تم قياسها في ظروف واقعية

زمن الاستجابة الكلي

<2 ثانية

من نهاية كلام المستخدم إلى تشغيل رد الذكاء الاصطناعي

96%

دقة فهم النية

100%

صفر هلوسة عبر حقن السياق

100%

تحليل النوايا المتعددة

إضافة/حذف/تعديل متزامن في جملة واحدة

94%

زمن مزامنة الواجهة

<50ms

من حدث WebSocket إلى تحديث DOM

99%

القدرات الرئيسية

سلسلة صوت إلى صوت97%

إدارة الحالة في الوقت الفعلي95%

مقاومة الضوضاء90%

دعم اللهجة العربية السعودية92%

الأهداف

استبدال أنظمة IVR التقليدية بوكيل صوتي ذكي يفهم اللغة الطبيعية.

تحقيق زمن استجابة أقل من ثانيتين عبر سلسلة الصوت الكاملة.

تطبيق حقن السياق لردود دقيقة 100% بدون هلوسة.

بناء مزامنة واجهة المستخدم في الوقت الفعلي عبر أحداث WebSocket.

ضبط نموذج صوت مخصص بلهجة سعودية واقعية للغاية.

التصميم للبيئات عالية الضوضاء مع إلغاء ضوضاء قوي.

المميزات الرئيسية

بنية حقن السياق

مزامنة السلة / الحالة في الوقت الفعلي

تحليل النوايا المتعددة

ضبط الصوت المخصص

نموذج صوت ElevenLabs مخصص تم تدريبه على بيانات كلام سعودية، ينتج لهجة واقعية للغاية تبني الثقة والألفة.

معالجة مقاومة للضوضاء

الاستدلال الرياضي

التحديات والحلول

التحدي:

تحقيق زمن استجابة أقل من ثانيتين عبر سلسلة من 5 مراحل (STT → LLM → DB → TTS → Client).

الحل:

التحدي:

التعامل مع نوايا إضافة/حذف/تعديل متزامنة في جملة واحدة بدون تلف البيانات.

الحل:

التحدي:

العمل بشكل موثوق في بيئات طلبات السيارات عالية الضوضاء.

الحل: