مدل GPT‑5 رسماً در سپتامبر ۲۰۲۵ (شهریور ۱۴۰۴) توسط OpenAI معرفی شد و نقطهی عطفی در تاریخ مدلهای چندوجهی (multimodal) محسوب میشود؛ زیرا برای نخستینبار توانایی پردازش کامل ویدیو، تصویر، صوت، متن و کد را در یک هسته واحد بهصورت همزمان دارد.
GPT‑5 بر پایهی معماری جدید OmniTransformer V5 با ۱۲ تریلیون پارامتر ساخته شده و نسبت به GPT‑4o حدود ۲.۸ تا ۳.۵ برابر توان استنتاج (reasoning) و حافظهٔ زمینهای بزرگتر دارد — یعنی تا ۲ میلیون توکن (≈۱.۵ میلیون کلمه) را همزمان درک و پردازش میکند. این مدل برخلاف نسلهای قبلی، هستههای پردازش تصویر و کد را به صورت «همزمان» (Parallel Fusion Attention) فعال میکند و دیگر نیازی به مدل جداگانه برای تصویر یا صوت ندارد.
یکی از ویژگیهای انقلابی GPT‑5 توانایی درک و تحلیل ویدیو با نرخ تا ۳۰ فریم در ثانیه است. این قابلیت شامل:
- تشخیص اشیاء، چهره، و متن در فریمها؛
- استخراج گفتار و تبدیل آن به متن با زیرنویس دقیق؛
- تحلیل حرکات و رفتار (Motion Semantic Engine v5) برای کاربردهای امنیتی یا آموزشی؛
- تولید ویدیو بر اساس متن (Text‑to‑Video) با مدل جانبی Diffusion V5 Hybrid که در ChatGPT‑Pro فعال است.
در نسخهٔ کامل (Enterprise API)، GPT‑5 قادر است ویدیوهای تا طول ۲ دقیقه را مستقیماً ویرایش یا خلاصهسازی کند، و حتی نقاط کلیدی فصلی/حرکتی را به فایل JSON قابل کدنویسی تبدیل نماید.
GPT‑5 دارای موتور برنامهنویسی مستقل به نام CodeFusion Core v5 است که از ۲۷ زبان پشتیبانی میکند، از جمله Python، C++، Rust، Go و MATLAB. این موتور قادر است:
- خطایابی خودکار کد را با ترکیب هوش تحلیلی و حافظهای انجام دهد؛
- پروژههای چندفایلی (multi‑file repos) را تحلیل کند؛
- اجرای ایمن sandbox داشته باشد؛
- از توابع کدنویسی ساختاریافته با حافظهٔ کاری (Long Code Context) استفاده کند تا پروژههای طولانی را بدون فراموشی حفظ کند.
در محیط ChatGPT‑5 Pro یا API، کاربر میتواند ویدیو را ورودی دهد، دیتا استخراج شود، سپس مستقیماً کد مربوط به تحلیل آن (مثلاً با OpenCV یا TensorFlow) تولید گردد — بدون نیاز به تعریف جداگانه مراحل preprocessing.
GPT‑5 برخلاف پیشینیان، از «حافظهٔ فعال شخصی» بهره میگیرد؛ یعنی در نسخهٔ Pro میتواند دادههای کاربر را در بازهٔ زمانی حفظ و موقع تحلیل یا پاسخدهی مجدد استفاده کند (در ایران این قابلیت معمولاً غیرفعال است).
همچنین در محیطهای multimodal، پاسخها میتوانند همزمان شامل گفتار، تصویر و کد executable باشند؛ بهعبارتی یک واحد گفتار هوشمند و مولد تصویری در کنار هم کار میکنند.
- GPT‑5 (ChatGPT‑Pro/Plus) – کاملترین نسخه با ویدیو، تصویر، صوت و اجراگر Python.
- GPT‑5 API (Developer‑Mode) – امکان پردازش داده تصویری سنگین و ایجاد اپلیکیشنهای خودکار.
- GPT‑5 Mini (Free/Web) – مشابه GPT‑4o اما بدون دسترسی به ویدیو و اجراگر کد.
OpenAI اعلام کرده GPT‑5 پایهٔ نسخههای بعدی ابزارهای Sora 2 (ویدیو ساز) و Whisper V5 (تبدیل صوت به متن) خواهد بود.
مشتاق نظرات شمائیم