استارتاپ Runway با تیمی متشکل از تنها ۱۰۰ نفر، از مدل ویدیویی جدید خود به نام Gen-4.5 رونمایی کرد که در بنچمارکهای مختلف مدلهای غولهای فناوری مانند گوگل و OpenAI را پشت سر گذاشته است. این مدل جدید با درک عمیق از فیزیک و جزئیات بصری خیرهکننده ادعا میکند که مرز بین واقعیت و ویدیوهای ساختگی را کمرنگتر از همیشه کرده است.
تمرکز اصلی Runway در مدل Gen-4.5، نه فقط کیفیت تصویر، بلکه دقت فیزیکی بوده است. برخلاف مدلهای قبلی که اشیا در آنها شناور بودند یا حرکات غیرطبیعی داشتند، Gen-4.5 وزن، تکانه و نیرو را درک میکند.
مایعات در این مدل با فیزیک واقعی جریان مییابند و رفتار طبیعی دارند. همچنین این مدل پرامپتهای پیچیده متنی را با دقتی بیسابقه اجرا میکند و جزئیات صحنه را نادیده نمیگیرد. خروجیها نیز به قدری به واقعیت نزدیک هستند که تشخیص آنها از فیلمبرداری واقعی دشوار است.
معرفی مدل جدید Runway Gen-4.5
نتایج بنچمارک مستقل Video Arena (که براساس رأی کاربران تنظیم میشود) شوکهکننده است. در این رتبهبندی، مدل Gen-4.5 در جایگاه اول قرار گرفته است. این درحالی است که مدل Veo 3 گوگل در رتبه دوم و مدل مشهور Sora 2 Pro از OpenAI در رتبه هفتم جای گرفتهاند.
مدیرعامل Runway میگوید: «ما با یک تیم ۱۰۰ نفره توانستیم بر شرکتهای تریلیون دلاری غلبه کنیم. این مدل که با نام رمز دیوید [اشاره به داستان داوود و جالوت] ساخته شده، نشان میدهد که تمرکز و پشتکار میتواند بر بودجههای نامحدود پیروز شود.»
با وجود پیشرفتهای عظیم، این مدل هنوز کامل نیست. Runway اعلام کرده که Gen-4.5 ممکن است در استدلال علیتها دچار خطا شود. برای مثال، ممکن است در ویدیو ببینید که یک در قبل از اینکه دستگیره آن چرخانده شود، باز میشود. همچنین مشکل پایداری شیء (ناپدیدشدن یا تغییر شکل اشیا در طول ویدیو) هنوز بهطور کامل رفع نشده، هرچند بسیار کمتر از قبل شده است.
عرضه این مدل به صورت تدریجی آغاز شده و طبق اعلام شرکت، تا چند روز آینده در دسترس تمامی کاربران (از طریق پلتفرم وب و API) قرار خواهد گرفت.
تک جدید دریچهای به دنیای بزرگ فناوری
