PrinceofAI Weekly

هفته نامه شماره شصتم

Feb 28, 2024

رونمایی ازهوش مصنوعی Sora جدیدترین مدل هوش مصنوعی مولد شرکت OpenAI

OpenAI از Sora، جدیدترین مدل هوش مصنوعی مولد متن به ویدئو، که پتانسیل امیدوارکننده‌ای را در صنایع مختلف نشان می‌دهد، رونمایی کرد. Sora مشابه مدل‌های تبدیل متن به تصویر مانند DALL·E 3 و StableDiffusion عمل می‌کند و از رویکرد مدل انتشار برای تبدیل فریم‌های نویز ساکن به فریم‌های ویدیویی که با دستور متن ارائه شده مطابقت دارند، استفاده می‌کند. این ویدیوها، که حداکثر 60 ثانیه طول دارند، بر اساس توضیحات ارائه شده در پرامپت ها تولید می شوند.

صنعت:

محققان از یادگیری ماشین برای بهبود پیش بینی آب و هوای فضا استفاده می کنند

محققان سه سطح از شدت طوفان‌های فضایی را شناسایی کرده‌اند: طوفان‌های ژئومغناطیسی، طوفان‌های تابش خورشیدی و خاموشی‌های رادیویی که می‌توانند سیستم‌های مختلف روی زمین را مختل کنند و خطرات سلامتی را برای فضانوردان و مسافران در ارتفاع بالا به همراه داشته باشند. برای پیش‌بینی این طوفان‌ها، به‌طور سنتی از مدل‌های مبتنی بر فیزیک استفاده می‌شد، اما آنها آهسته و از نظر محاسباتی فشرده بودند. اکنون، یک شبیه‌ساز مبتنی بر یادگیری ماشین به نام مدل جایگزین برای REPPU Auroral Ionosphere نسخه 2 (SMRAI2) توسعه یافته است که یک میلیون بار سریع‌تر از شبیه‌سازی مبتنی بر فیزیک است و اثرات فصلی را در خود جای داده است. این شبیه‌ساز، بر اساس شبکه حالت پژواک (ESN)، نسبت به نسخه‌های قبلی بهبود یافته و می‌تواند سیستم‌های جریان شفق را به طور موثرتری پیش‌بینی کند. هدف ادغام این شبیه ساز در پیش بینی های آب و هوای فضا برای افزایش دقت پیش بینی و کاهش اثرات طوفان های فضایی بر سیستم های زمین است.

مقاله:

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

این مقاله به موضوع از دست دادن اطلاعات در مدل های یادگیری عمیق در طول استخراج ویژگی لایه به لایه و تبدیل مکانی می پردازد و اهمیت حفظ اطلاعات را برجسته می کند. این مقاله مفهوم اطلاعات گرادیان قابل برنامه ریزی (PGI) را برای مقابله با این چالش معرفی می کند و از اطلاعات گرادیان قابل اعتماد برای به روز رسانی وزن شبکه اطمینان می دهد. علاوه بر این، یک معماری شبکه سبک وزن جدید به نام شبکه تجمع لایه کارآمد تعمیم یافته (GELAN) پیشنهاد می کند که از برنامه ریزی مسیر گرادیان استفاده می کند. آزمایش‌ها بر روی وظایف تشخیص شی نشان می‌دهند که GELAN، با استفاده از عملگرهای کانولوشن مرسوم، از روش‌های پیشرفته مبتنی بر پیچیدگی در عمق بهتر عمل می‌کند. PGI در طیف وسیعی از مدل ها، از سبک وزن تا بزرگ، موثر است.

آموزش:

بخش‌بندی نمونه چیست؟

بخش‌بندی نمونه (Instance Segmentation) یک کار بینایی رایانه‌ای است که شامل شناسایی و مشخص کردن اشیاء منفرد در یک تصویر و در عین حال طبقه‌بندی هر شیء به دسته‌های مختلف است. بر خلاف بخش‌بندی معنایی، که پیکسل‌های متعلق به یک دسته را با همان برچسب برچسب‌گذاری می‌کند، بخش‌‌بندی نمونه، بین اشیاء مجزای یک دسته تمایز قائل می‌شود و برچسب‌های منحصربه‌فردی را به هر نمونه اختصاص می‌دهد. این امکان محلی‌سازی و تمایز دقیق اشیاء را در صحنه‌های پیچیده فراهم می‌کند، و بخش‌‌بندی نمونه را به یک کار دقیق‌تر و چالش برانگیزتر از بخش‌بندی معنایی تبدیل می‌کند. بخش‌‌بندی نمونه به طور گسترده در کاربردهای مختلفی مانند تشخیص اشیا، درک صحنه، رباتیک و آنالیز تصاویر پزشکی استفاده می‌شود.

کدینگ:

کتابخانه Open3D چیست؟

Open3D یک کتابخانه منبع باز است که در درجه اول برای پردازش داده های سه بعدی و وظایف بصری سازی در پایتون و ++C استفاده می شود. این کتابخانه عملکردهای مختلفی را برای کار با داده های سه بعدی از جمله PointClouds، مش ها و تصاویر RGB-D فراهم می کند. برخی از ویژگی های کلیدی Open3D عبارتند از:

ساختارهای داده: Open3D ساختارهای داده ای مانند PointCloud و TriangleMesh را برای نمایش هندسه سه بعدی ارائه می دهد.

عملیات I/O: از خواندن و نوشتن داده های سه بعدی از/به فرمت های مختلف فایل، از جمله PLY، OBJ، و XYZ پشتیبانی می کند.

تجسم سه بعدی: Open3D شامل ابزارهای بصری سازی برای نمایش داده های سه بعدی به صورت تعاملی در پنجره های گرافیکی است که به کاربران امکان می دهد داده های خود را به صورت بصری کاوش و تجزیه و تحلیل کنند.

پردازش هندسه: این کتابخانه توابعی را برای وظایف مختلف پردازش هندسه مانند نمونه برداری پایین، تخمین عادی و ساده سازی مش ارائه می دهد.

ثبت سه بعدی: Open3D از ثبت نام PointCloud و الگوریتم های تراز برای تراز کردن چندین اسکن سه بعدی یا مدل پشتیبانی می کند.

بازسازی سه بعدی: قابلیت هایی را برای بازسازی هندسه سه بعدی از تصاویر RGB-D یا ابرهای نقطه ای با استفاده از روش هایی مانند استریو چند نمای ارائه می دهد.

به طور کلی، Open3D یک کتابخانه همه کاره است که طیف گسترده ای از وظایف را در زمینه دید کامپیوتری سه بعدی، رباتیک، واقعیت افزوده و غیره انجام می دهد.

راههای ارتباطی با ما:

اینستاگرام:
princeofai@
وبسایت:
https://princeofai.com
تلگرام:
https://t.me/princeofaii
Share
Leave a comment

PrinceofAI’s Substack