شبکه عصبی با قابلیت بازسازی تصاویر تار توسعه یافت
شبکه عصبی با قابلیت بازسازی تصاویر تار توسعه یافت
محققان دانشگاه MIT موفق به توسعهی الگوریتم هوش مصنوعی و شبکهی عصبی شدند که توانایی بازیابی دادههای از دسترفته در تصاویر و ویدئوها را دارد. این الگوریتم محتوای بصری را که دچار کاهش ابعاد شدهاند، بازیابی میکند. با استفاده از مدل شبکهی عصبی میتوان از تصاویری که به «تاری ناشی از حرکت» (Motion Blur) دچار شدهاند، ویدئو تولید کرد. بهعلاوه دوربینهای جدیدی وجود دارند که حرکت افراد را در گوشههای ساختمانها ضبط میکنند، اما تصویر حاصل، تنها یکبعدی و مانند یک خط بهنظر میرسد. با استفاده از شبکهی عصبی جدید میتوان این تصاویر را نیز به دادههای معنادار تبدیل کرد.
الگوریتم جدید محققان MIT نیاز به تحقیق و بررسی و آزمایشهای عمیقتر دارد. بههرحال تیم تحقیق امیدوار است که در آینده با استفاده از آن بتوان تصاویر دوبعدی پزشکی را به دادههای سهبعدی تبدیل کرد. ثبت دادههای سهبعدی پزشکی فرایندی گرانقیمت محسوب میشود؛ درنتیجه استفاده از سیستمی برای تولید آنها با استفاده از دادههای دوبعدی ارزانتر برای کشورهای درحال توسعه یا فقیر، مزیت بالایی خواهد داشت.
گوها بالاکریشنان، دانشجوی فوق دکترا در آزمایشگاه هوش مصنوعی و علوم کامپیوتر (CSAIL) و محقق اول مقاله، دربارهی بازیابی ابعاد با الگوریتم شبکهی عصبی میگوید:
در تمام موارد، دادههای بصری یک بُعد دارند که کاملا از دست رفته است. بُعد ازدسترفته در زمان یا فضا تعریف میشود. اگر بتوانیم آن بُعد را بازیابی کنیم، ارزش افزودهی زیادی بههمراه خواهد داشت.
شایان ذکر است، مقالهی حاصل از تحقیق انجامشده، هفتهی آینده در کنفرانس بینالمللی بینایی کامپیوتری ارائه میشود.
دادههای بصری ضبطشده، عموما داده را از ابعاد متنوع زمان و فضا به یک یا دو بُعد کاهش میدهند. چنین رویکردی بهنام Projection شناخته میشود. بهعنوان مثال تصاویر اشعهی ایکس، دادههای سهبعدی مربوط به ساختار آناتومی را به تصاویر تخت تبدیل میکنند. بهعنوان نمونهای دیگر، تصاویر ثبتشده از ستارهها را تصور کنید که در حالت نوردهی طولانی (long exposure) ثبت میشوند. در این تصاویر، ستارهها که موقعیتشان درحال تغییر است، بهصورت یک خط تارشده ثبت میشوند.
محققان MIT اخیرا دوربینهایی موسوم به «دوربینهای گوشهای (Corner Cameras)» اختراع کردهاند که توانایی شناسایی افراد متحرک را در گوشهی ساختمانها دارند. چنین دوربینهایی کاربردهای متنوع دارند؛ بهعنوان مثال آتشنشانها با استفاده از دوربین میتوانند افراد را در گوشهی ساختمانهای درحال سوختن پیدا کنند. البته دوربینهای جدید آنچنان کاربرپسند نیستند؛ آنها تنها نماهایی با خطوط تار و پیچوتابخورده تولید میکنند. همین خطوط، بهعنوان سرعت و مسیر حرکت فرد مورد نظر ثبت میشوند.
در فناوری جدید، مدلی برای بازسازی بصری داده توسعه یافته است. مدل مذکور از شبکهی عصبی برای یادگیری الگوهایی استفاده میکند که نماهای با ابعاد کمتر را به تصاویر و ویدئوهای با ابعاد بیشتر مرتبط میکند. مدل مذکور با دریافت نماهای جدید، با بهرهبرداری از موارد آموختهشده، تمام دادههای اصلی را از یک تصویر بازسازی میکند.
مدل جدید شبکهی عصبی در آزمایشهای عملی توانست فریمهای ویدئویی دقیقی از افراد در حال راهرفتن یا حرکتهای دیگر بسازد. بهعنوان ورودی از تصاویری استفاده شده بود که شبیه به دادهی دوربینهای گوشهای بودند. بهعلاوه محققان با استفاده از شبکهی عصبی توانستند فریمهای ویدئویی را از تصاویری بازسازی کنند که ارقام، بهصورت تار و در گوشههای آن متحرک هستند. تصاویر مذکور از دیتاست مشهور Moving MNIST استخراج شد.
از محققان دیگر توسعهدهندهی شبکهی عصبی میتوان به ایمی ژائو، دانشجوی دپارتمان مهندسی برق و علوم کامپیوتر اشاره کرد. پروفسور جان گوتاگ از همان دپارتمان بههمراه فردو دوراند، ویلیام تی فریمن و آدریان دالکا، عضو هیئت علمی دپارتمان رادیولوژی دانشکدهی پزشکی هاروارد هم از محققان دیگر پروژهی اخیر بودند.
بالاکریشنان میگوید پروژه ابتدا از حل معمایی برای بازگرداندن حرکت در تصاویر با نوردهی بالا شروع شد. در بررسی پیکسلهای آن تصاویر، نمونههایی از دادههای اصلی سهبعدی بهچشم میخورد. بهعنوان مثال در ثبت تصاویر با نوردهی بالا در دوربینهای دیجیتال، فوتونها در بازهای زمانی در هر پیکسل تجمیع میشوند. در ثبت حرکت یک جسم در گذر زمان، دوربین مقدار میانگین را در پیکسلهای ثبتکنندهی حرکت ذخیره میکند. سپس مقادیر میانگین ثبتشده، در طول و عرض متناظر در تصویر ثابت لحاظ میشوند. درنهایت این فرایند به خطوط تاری تبدیل میشود که حرکت جسم را نشان میدهند. با محاسبهی برخی تغییرها در شدت نور پیکسل، میتوان حرکت را بهصورت تئوری بازسازی کرد.
محققان در جریان توسعهی شبکهی عصبی جدید متوجه مسئلهای مشابه در حوزههای متنوع شدند. بهعنوان مثال در تصاویر اشعهی ایکس، اطلاعات طول و عرض و عمق ساختارهای آناتومی اندازهگیری میشود. سپس با استفاده از روشی مشابه رویکرد بالا، عمق تصاویر حذف شده و دادهای دوبعدی تولید میشود. دوربینهای گوشهای (که در سال ۲۰۱۷ توسط فریمن، دوراند و محققان دیگر اختراع شدند)، سیگنالهای نوری بازتابشده در صحنههای مخفی را دریافت میکنند که اطلاعات دوبعدی را دربارهی فاصلهی فرد از دیوارها و اجسام ارائه میکند. روش محاسبهی میانگین از پیکسل در این دوربینها دادهی دریافتی را به ویدئویی تکبعدی تبدیل میکند.
برای توسعهی الگوریتم، مدلی کلی براساس شبکهی عصبی پیچشی (موسوم به CNN) توسعه ساخته شد. این مدل یک مدل یادگیری ماشین محسوب میشود که بهنوعی یک نیروگاه قوی برای کاربردهای پردازش تصویر بوده است. درنهایت، مدل حاضر توانایی ثبت و بازسازی هرگونه ابعاد حذفشده در پیکسلهای میانگینی را دارد.
در آزمایشهای عملی، هزاران جفت تصویر شامل نماهای تولیدشدهی تار و منابع با ابعاد بالا (موسوم به سیگنال) به شبکهی CNN تزریق شد. شبکهی مذکور، الگوهای پیکسلی تصاویر تار را با تصاویر اصلی در سیگنال تطبیق میدهد. فریمورکی موسوم به «خودرمزگذار متغیر (variational autoencoder)» در الگوریتم شبکهی عصبی وجود دارد که دقت خروجیهای CNN را در مقایسه با ورودیها با احتمالهای آماری گوناگون ارزیابی میکند. مدل مذکور، با استفاده از فریمورک فضایی از همهی سیگنالهای ممکن را میآموزد که توانایی ساخت تصویر اولیه را دارند. درنهایت، این فرایند نوعی دستورالعمل ایجاد میکند که چگونگی استخراج تمامی سیگنالهای ممکن را از یک نمای تار شرح میدهد.
پس از یادگیری اولیه، تصاویری جدید به مدل شبکهی عصبی تزریق شدند. مدل مذکور، الگوهای پیکسلی را در تصاویر جدید کشف کرده و با استفاده از دستورالعمل آموختهشده، تمامی سیگنالهای (تصاویر واضح) ممکن آن را استخراج کرد. سپس تصاویر جدید تولید شدند که در آنها از همهی دادههای تصویر تار و سیگنالهای ممکن استفاده شده بود. درنهایت سیگنال با کیفیت شامل تمامی ابعاد ممکن تولید شد.
در یکی از آزمایشهای عملی، دیتاستی شامل ۳۵ ویدئو از ۳۰ نفر در حال راه رفتن در منطقهای مشخص دریافت شد. سپس همهی فریمها به نماهایی تبدیل شدند که شبیه به دادههای ورودی آزمایش و آموزش مدل بودند. با استفاده از ۶ نمای جدید، ۲۴ فریم از راه رفتن یک فرد تولید شد. تصویر حاصل، اطلاعات دقیقی همچون موقعیت پای افراد، ابعاد آنها و حرکتشان به سمت و دور از دوربین را ارائه میکرد. بهعنوان مثال، مدل شبکهی عصبی احتمالا میداند پیکسلهایی که تاریکتر و بزرگتر میشوند، مربوط به حرکت فرد به سمت دوربین هستند.
محققان MIT مدل خود را روی تصاویر پزشکی آزمایش نکردند، اما آنها اکنون با همکارانشان در دانشگاه کرنل همکاری میکنند تا اطلاعات آناتومی سهبعدی را از تصاویر پزشکی دوبعدی استخراج کنند. برای چنین فرایندی از تصاویر همچون تصور اشعهی ایکس استفاده میشود و احتمالا هزینهای هم بههمراه نخواهد داشت و برای کشورهای فقیر، مزیتهای زیادی بههمراه دارد. پزشکان عموما اسکنهای سهبعدی را برای تشخیص دقیقتر ترجیح میدهند. چنین تصاویری با دستگاههای سیتی اسکن ثبت میشوند و اطلاعات پزشکی دقیقتری دارند. البته تصاویر سیتی عموما گرانقیمت هستند.
بالاکریشنان درنهایت با اشاره به مزیتهای مدل ابداعی تیمش میگوید:
اگر بتوانیم تصاویر اشعهی ایکس را به سیتی اسکن تبدیل کنیم، فرایندی انقلابی در تصویربرداری پزشکی رخ خواهد داد. شما میتوانید یک عکس اشعهی ایکس را به الگوریتم ما وارد کرده و همهی اطلاعات حذفشده را بازیابی کنید.
منبع:www.zoomit.ir