Deep Cogito: هوش مصنوعی هیبریدی با قدرت جابه‌جایی!

مدل‌های هوش مصنوعی هیبریدی Deep Cogito با قابلیت جابه‌جایی بین استدلال و غیر استدلال معرفی شدند.

صفحه اقتصاد -

شرکت Deep Cogito با مدل‌های هوش مصنوعی هیبریدی وارد عرصه فناوری شد که می‌توانند بین حالت‌های &quot; استدلال&quot; و غیر استدلال جابه‌جا شوند.

شرکت جدیدی به نام Deep Cogito از حالت مخفی‌کاری خارج شده و مجموعه‌ای از مدل‌های هوش مصنوعی را معرفی کرده است که به‌طور عمومی در دسترس هستند و قابلیت جابه‌جایی بین حالت‌های «استدلال» و غیر استدلال را دارند. مدل‌های استدلالی مانند o۱ از OpenAI در زمینه‌هایی مانند ریاضیات و فیزیک به دلیل توانایی‌شان در بررسی دقیق خود با حل گام به گام مسائل، وعده‌های بزرگی داده‌اند. با این حال، این استدلال هزینه‌ای نیز دارد: نیاز به محاسبات بالاتر و زمان تأخیر بیشتر.

به همین دلیل، آزمایشگاه‌هایی مانند Anthropic در حال توسعه معماری‌های مدل “هیبریدی” هستند که اجزای استدلالی را با عناصر استاندارد و غیر استدلال ترکیب می‌کنند. مدل‌های هیبریدی می‌توانند به‌سرعت به سوالات ساده پاسخ دهند و در عین حال زمان بیشتری صرف بررسی سوالات چالش‌برانگیز کنند.

مدل‌های هیبریدی Deep Cogito

تمامی مدل‌های Deep Cogito که تحت نام Cogito 1 شناخته می‌شوند، مدل‌های هیبریدی هستند. این شرکت ادعا می‌کند که این مدل‌ها عملکرد بهتری نسبت به بهترین مدل‌های منبع باز هم اندازه خود از جمله مدل‌های تولیدشده به وسیله Meta و استارتاپ چینی DeepSeek دارند. به گفته این شرکت، «هر مدل می‌تواند به طور مستقیم پاسخ دهد […] یا پیش از پاسخ دادن خود را مورد بررسی قرار دهد (مانند مدل‌های استدلالی)». این مدل‌ها با تلاش یک تیم کوچک در حدود 75 روز توسعه یافته‌اند.

مشخصات فنی مدل‌ها

مدل‌های Cogito 1 دارای اندازه‌هایی از سه میلیارد تا 70 میلیارد پارامتر هستند و Deep Cogito اعلام کرده است که مدلی با حداکثر 671 میلیارد پارامتر در هفته‌ها و ماه‌های آینده به این مجموعه اضافه خواهد شد. پارامترها به‌ طور تقریبی مهارت‌های حل مساله یک مدل را نشان می‌دهند و هرچه تعداد پارامترها بیشتر باشد، معمولاً عملکرد بهتری مشاهده می‌شود.

توسعه بر اساس مدل‌های دیگر

شایان ذکر است که مدل‌های Cogito 1 از صفر توسعه نیافته‌اند. Deep Cogito بر اساس مدل‌های Llama و Qwen از Meta و Alibaba، مدل‌های خود را ایجاد کرده است. این شرکت اعلام کرده که از روش‌های آموزشی نوآورانه‌ای برای بهبود عملکرد مدل‌های پایه و فعال‌سازی استدلال قابل جابه‌جایی استفاده کرده است.

نتایج داخلی و مقایسه با رقبا

طبق نتایج بنچمارک‌های داخلی Cogito، بزرگ‌ترین مدل Cogito 1 یعنی Cogito 70B، با فعال بودن استدلال، در چند ارزیابی ریاضی و زبانی از مدل استدلالی R1 شرکت DeepSeek پیشی می‌گیرد. همچنین، Cogito 70B با غیرفعال بودن استدلال، مدل Llama 4 Scout شرکت Meta را در تست عمومی LiveBench تحت‌الشعاع قرار می‌دهد.

دسترسی به مدل‌ها

تمامی مدل‌های Cogito 1 برای دانلود یا استفاده از طریق API در ارائه‌دهندگان ابری Fireworks AI و Together AI در دسترس هستند. Deep Cogito در وبلاگ خود نوشته است: «در حال حاضر، ما هنوز در مراحل ابتدایی منحنی مقیاس‌پذیری خود هستیم و تنها بخش کوچکی از محاسبات معمولاً اختصاص داده‌شده به آموزش‌های مداوم مدل‌های زبان بزرگ را استفاده کرده‌ایم. ما در حال بررسی رویکردهای مکمل پس از آموزش برای بهبود خود هستیم.»

بنیان‌گذاران و چشم‌انداز آینده

بر اساس مدارک ثبت‌شده در ایالت کالیفرنیا، Deep Cogito که در ژوئن 2024 در سان‌فرانسیسکو تأسیس شده، دو بنیان‌گذار به نام‌های Drishan Arora و Dhruv Malhotra دارد. Malhotra قبلاً مدیر محصول در آزمایشگاه هوش مصنوعی DeepMind بود و Arora نیز مهندس نرم‌افزار ارشد در گوگل به شمار می‌رفت. Deep Cogito با حمایت South Park Commons، به‌طور جاه‌طلبانه‌ای در پی ساخت «هوش عمومی فوق‌العاده» است. بنیان‌گذاران این شرکت مفهوم هوش عمومی فوق‌العاده را به عنوان هوش مصنوعی که می‌تواند وظایف را بهتر از اکثر انسان‌ها انجام دهد و “توانایی‌های کاملاً جدیدی را که هنوز تصور نکرده‌ایم کشف کند» درک می‌کنند.