حراج!

ترجمه مقاله مرجع

39,000تومان 19,000تومان

توضیحات

مقاله :

Zhang, Shiliang, et al. “ObjectPatchNet: Towards scalable and semantic image annotation and retrieval.” Computer Vision and Image Understanding118 (2014): 16-29.

: حاشیه­ نویسی معنایی و مقیاس­ پذیری تصویر و بازیابی آنObjectPatchNet

چکیده: نمونه ­های مجموعه تصویر اینترنتی اشیاء جهان واقعی، صحنه­ ها و غیره در حال افزایش است و معمولاً با ابر­داده ­های مختلف از قبیل توصیف متنی و نظرات کاربران همراه است. چنین اطلاعات تصویری دارای پتانسیلی است که در قالب یک منبع دانش برای کاربرد­های تصویر با مقیاس بزرگ به کار گرفته می­شود. با بهره ­گیری از چنین اطلاعات تصویری حاشیه­ نویسی­ شده آزاد در دسترس و رو­به ­رشد در اینترنت، ما یک راه ­حل داده ­محور مقیاس ­پذیر را برای حاشیه­ نویسی و بازیابی اطلاعات تصویر در مقیاس وب پیشنهاد می­کنیم. ما از تصاویر حاشیه ­نویسی شده در مقیاس بزرگ یک ارائه فشرده و حاوی اطلاعات مفید به نام  ObjectPatchNet  ارائه می­کنیم. هر راس در ObjectPatchNet، که یک ObjectPatchNode نامیده می­شود، به عنوان یک مجموعه از قطعه­ های تصاویر متمایز است که با برچسب­ های مجموعه شیء حاشیه­ نویسی­ شده، تعریف شده ­است. لبه، دو مدل  ObjectPatchNode که با یکدیگر اتفاق می­افتد را، در میان اشیاء مختلف در همان تصویر به هم متصل می­کند. بنابر­این، مدل­های ObjectPatchNode نه تنها به صورت احتمالاتی قطعه ­های تصویر را برچسب ­گذاری می­کنند، بلکه یک رابطه متنی بین اشیاء دارند. که این برای حاشیه­ نویسی مقیاس­ پذیری تصویر مناسب است. علاوه­ بر­این، ما بیشتر ObjectPatchNet را به عنوان یک فرهنگ لغت تصویری با برچسب معنایی تعبیر می­کنیم و از این رو قادر به توسعه آسان ایندکس ­سازی فایل معکوس­شده برای بازیابی تصویر معنایی کارامد می­شود. ObjectPatchNet­ها بر روی هر دو کاربرد بازیابی تصویر در مقیاس بزرگ و حاشیه ­نویسی تصویر در مقیاس بزرگ آزمایش شده­است. نتایج آزمایشات نشان می­دهد که ObjectPatchNet­ها در این کاربرد­ها هم متمایز و هم کارامد هستند.

1-مقدمه:

با داشتن اینترنت و محبوبیت دوربین­های دیجیتالی و تلفن­های همراه دوربین­دار و ….، تعدادی از کاربران تصاویر اینترنتی را که در حال افزایش است را تولید می­کنند. افزایش اطلاعات تصویری، چالش­های جدیدی را در جامعه پژوهشی چند رسانه­ای به ارمغان آورده­است. با­این­حال توجه داشته باشید که افزایش نمونه­های مجموعه تصاویراینترنتی مربوط به اشیاء دنیای واقعی، صحنه و … پتانسیلی دارد که به عنوان یک منبع دانش برای کاربرد­های تصویر با مقیاس بزرگ به کارگرفته­ می­شود.

به عنوان مثال، Tomalba و همکاران، تحقیق کردند که 80 میلیون عکس اینتزنتی برچسب­گذاری­شده کوچک می­تواند به عنوان یک مجموعه داده مرجع برای حاشی­نویسی تصویر و بازیابی آن و … استفاده شود، در مسیر داده­محوری ساده[1]. به طور مشابه، با توسعه­های اخیر در مجموعه­داده­های تصویربا مقیاس بزرگ شامل تعداد زیادی دسته­های تصویراز جملهImageNet  [2] ،  یک استراتژی ساده برای حاشیه­نویسی تصویر با برچسب­زدن k نزدیکترین همسایه (knn) در حال اجراست. به­طور­خاص، با توجه به یک تصویر، یک مجموعه­ای از برچسب­های تصویر می­تواند به­وسیله بازیابی تصویر اینترنتیknn اش جمع­آوری شود. این تصاویر می­تواند از این­پس توسط اغلب برچسب­های دائمی جمع­آوری­شده، حاشیه­نویسی شوند. با­این­حال، کارایی سودمندی چنین استراتژی داده محور به ناچار با حافظه بزرگ و تقاضای محاسبه برای ذخیره و پردازش این اطلاعات تصویر در مقیاس بزرگ، مواجه می­شود. علاوه­بر­این، پس­زمینه­های به­هم­ریخته و برچسب­های نویز­دار در تصاویر اینترنتی نیز ممکن است به حاشیه­نویسی نادرست منجر شود.در نتیجه، تصاویر اینترنتی حاشیه­نویسی­شده در مقیاس بزرگ، اطلاعات ارزشمندی را فراهم می­کنند، اما استفاده موثر و کارامد از اطلاعات اینترنتی به­شدت مورد­نظر است. برای رسیدن به حاشیه­نویسی تصویر دقیق و مقیاس­پذیر و هم بازیابی تصویر معنایی، ما پیشنهاد می­کنیم ObjectPatchNet را از تصاویر اینترنتی حاشیه­نویسی­شده آزاد با سایز بزرگ بسازیم. همانطور که در شکل 1 نشان داده­شده­است، ObjectPatchNode از رئوس و لبه­های متصل به­یکدیگر تشکیل شده­است. ما هر راس را به عنوان یک ObjectPatchNode صدا می­زنیم. هر ObjectPatchNode شامل قطعه­های تصویری شبیه­به­هم است و با برچسب­های احتمالی شیء برچسب­گذاری شده است. مدل لبه­ها بین جفت­های ObjectPatchNode با یکدیگر ارتباط متنی دارند. به طور خاص­تر، در  ObjectPatchNet ، ما ارتباط متنی را به عنوان احتمال وقوع همزمان بین دو شیء در یک تصویر تعریف می­کنیم. همانطور که در شکل 1 نشان داده شده­است، ضخامت لبه نشان­دهنده قدرت ارتباط متنی است. از روی شکل می­توان دید که شیء “خرس” به طور دائم با اشیاء “چمن” و “نهر” در همان تصویر به­طور همزمان رخ می­دهند.

همانطور که در شکل 1 مشاهده می­شود، با ObjectPatchNet ما تا حد زیادی اثرات پس­زمینه در­هم تصویر را می­توانیم کاهش دهیم، از آنجا که فقط قطعه­ های متفاوت و معنی ­دار نگه داشته­ شده و قطعه ­های نویز­دار دور انداخته ­می­شوند. علاوه­ بر­این، اطلاعات حاشیه­نویسی به قطعه ­های تصویر و نشانه­های متنی اضافی بین اشیاء به­دست­آمده، نسبت داده می­شود.همینطور، ObjectPatchNet در حاشیه ­نویسی تصاویر جدید از مجموعه داده­های تصویر اولیه دقیق­تر است. علاوه­بر­این ما به راحتی می­توانیم افزونگی اطلاعات در هر ObjectPatchNode را بر اساس شباهت بصری قطعه­ های تصویر حذف می­کنیم.این آسان است که استنباط کنیم که ObjectPatchNet ، متفاوت­ تر و فشرده ­تر از مجموعه ­داده ­های تصویر اصلی است و برنامه ­های کاربردی تصویر بر اساس این امر می­تواند کارامد­تر و دقیق­ تر باشد.بر اساس  ObjectPatchNet  ، هم حاشیه­نویسی تصویر و هم بازیابی آن می­تواند در کار­های کارامد­تر و موثر­تر به اجرا در­آید. بر اساس شکل 1 تصاویری که حاشیه­نویسی شده­اند، در ابتدا می­توانند به قطعه­هایی تقسیم شوند، بنابراین،  ObjectPatchNode­های knn ، از هر قطعه می­توانند بازیابی شوند. برچسب­­های این  ObjectPatchNodeهای بازیابی­شده می­توانند جمع­آوری شوند، و سپس با کمک نشانه­های متنی برای برچسب­های تصویر نهایی تصحیح می­شود. آزمایش­ها نشان می­دهد که ObjectPatchNet بر اساس حاشیه­نویسی تصویر ما را به دقت مطلوب با بازده بالا می­رساند.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “ترجمه مقاله مرجع”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

43 − = 35

شناسه محصول: kazem009 دسته: , برچسب: