Deep Cogito: هوش مصنوعی هیبریدی با قدرت جابهجایی!
مدلهای هوش مصنوعی هیبریدی Deep Cogito با قابلیت جابهجایی بین استدلال و غیر استدلال معرفی شدند.

شرکت جدیدی به نام Deep Cogito از حالت مخفیکاری خارج شده و مجموعهای از مدلهای هوش مصنوعی را معرفی کرده است که بهطور عمومی در دسترس هستند و قابلیت جابهجایی بین حالتهای «استدلال» و غیر استدلال را دارند. مدلهای استدلالی مانند o۱ از OpenAI در زمینههایی مانند ریاضیات و فیزیک به دلیل تواناییشان در بررسی دقیق خود با حل گام به گام مسائل، وعدههای بزرگی دادهاند. با این حال، این استدلال هزینهای نیز دارد: نیاز به محاسبات بالاتر و زمان تأخیر بیشتر.
به همین دلیل، آزمایشگاههایی مانند Anthropic در حال توسعه معماریهای مدل “هیبریدی” هستند که اجزای استدلالی را با عناصر استاندارد و غیر استدلال ترکیب میکنند. مدلهای هیبریدی میتوانند بهسرعت به سوالات ساده پاسخ دهند و در عین حال زمان بیشتری صرف بررسی سوالات چالشبرانگیز کنند.
مدلهای هیبریدی Deep Cogito
تمامی مدلهای Deep Cogito که تحت نام Cogito 1 شناخته میشوند، مدلهای هیبریدی هستند. این شرکت ادعا میکند که این مدلها عملکرد بهتری نسبت به بهترین مدلهای منبع باز هم اندازه خود از جمله مدلهای تولیدشده به وسیله Meta و استارتاپ چینی DeepSeek دارند. به گفته این شرکت، «هر مدل میتواند به طور مستقیم پاسخ دهد […] یا پیش از پاسخ دادن خود را مورد بررسی قرار دهد (مانند مدلهای استدلالی)». این مدلها با تلاش یک تیم کوچک در حدود 75 روز توسعه یافتهاند.
مشخصات فنی مدلها
مدلهای Cogito 1 دارای اندازههایی از سه میلیارد تا 70 میلیارد پارامتر هستند و Deep Cogito اعلام کرده است که مدلی با حداکثر 671 میلیارد پارامتر در هفتهها و ماههای آینده به این مجموعه اضافه خواهد شد. پارامترها به طور تقریبی مهارتهای حل مساله یک مدل را نشان میدهند و هرچه تعداد پارامترها بیشتر باشد، معمولاً عملکرد بهتری مشاهده میشود.
توسعه بر اساس مدلهای دیگر
شایان ذکر است که مدلهای Cogito 1 از صفر توسعه نیافتهاند. Deep Cogito بر اساس مدلهای Llama و Qwen از Meta و Alibaba، مدلهای خود را ایجاد کرده است. این شرکت اعلام کرده که از روشهای آموزشی نوآورانهای برای بهبود عملکرد مدلهای پایه و فعالسازی استدلال قابل جابهجایی استفاده کرده است.
نتایج داخلی و مقایسه با رقبا
طبق نتایج بنچمارکهای داخلی Cogito، بزرگترین مدل Cogito 1 یعنی Cogito 70B، با فعال بودن استدلال، در چند ارزیابی ریاضی و زبانی از مدل استدلالی R1 شرکت DeepSeek پیشی میگیرد. همچنین، Cogito 70B با غیرفعال بودن استدلال، مدل Llama 4 Scout شرکت Meta را در تست عمومی LiveBench تحتالشعاع قرار میدهد.
دسترسی به مدلها
تمامی مدلهای Cogito 1 برای دانلود یا استفاده از طریق API در ارائهدهندگان ابری Fireworks AI و Together AI در دسترس هستند. Deep Cogito در وبلاگ خود نوشته است: «در حال حاضر، ما هنوز در مراحل ابتدایی منحنی مقیاسپذیری خود هستیم و تنها بخش کوچکی از محاسبات معمولاً اختصاص دادهشده به آموزشهای مداوم مدلهای زبان بزرگ را استفاده کردهایم. ما در حال بررسی رویکردهای مکمل پس از آموزش برای بهبود خود هستیم.»
بنیانگذاران و چشمانداز آینده
بر اساس مدارک ثبتشده در ایالت کالیفرنیا، Deep Cogito که در ژوئن 2024 در سانفرانسیسکو تأسیس شده، دو بنیانگذار به نامهای Drishan Arora و Dhruv Malhotra دارد. Malhotra قبلاً مدیر محصول در آزمایشگاه هوش مصنوعی DeepMind بود و Arora نیز مهندس نرمافزار ارشد در گوگل به شمار میرفت. Deep Cogito با حمایت South Park Commons، بهطور جاهطلبانهای در پی ساخت «هوش عمومی فوقالعاده» است. بنیانگذاران این شرکت مفهوم هوش عمومی فوقالعاده را به عنوان هوش مصنوعی که میتواند وظایف را بهتر از اکثر انسانها انجام دهد و “تواناییهای کاملاً جدیدی را که هنوز تصور نکردهایم کشف کند» درک میکنند.
نظر شما