ChatGPT اکنون می تواند تصاویر و صداها را درک کند، نه فقط متن!

در 28 سپتامبر, 2023 ایجاد شدهوش مصنوعی • 144 بازدید

ChatGPT شروع به گسترش قابلیت های صوتی و تصویری جدید کرده است که اکنون می تواند ببیند، بشنود و صحبت کند.

نه تنها چت‌بات‌های هوش مصنوعی شخصیت‌ها را دریافت می‌کنند، بلکه به طور مهم‌تر، حس‌های جدیدی نیز دریافت می‌کنند. ابتدا این مدل‌های زبان بزرگ که چت‌بات‌ها را قدرت می‌بخشیدند فقط بر روی متن آموزش دیده بودند و هیچ راهی برای درک صداها و تصاویر نداشتند. هفته‌ی گذشته، OpenAI اعلام کرد که به مدل هوش مصنوعی زیر چت‌جی‌پی‌تی امکان پردازش داده‌های صوتی و تصویری داده شده است. به عنوان مثال، یک کاربر چت‌جی‌پی‌تی می‌تواند به بات یک تصویر نشان دهد و سپس درباره‌ی آن به صورت کلامی گفتگو کند.

مهم است بدانید که چت‌جی‌پی‌تی نه فقط دارد تصاویر را طبقه‌بندی می‌کند و گفتاری را به متن تبدیل می‌کند بلکه به درک معنای تصاویر و صداها می‌پردازد. در مورد استفاده‌های دیگری از چت‌جی‌پی‌تی، به آن یک تصویر از محتوای یک یخچال داده می‌شود، سپس بات ایده‌هایی درباره‌ی شام با استفاده از مواد موجود پیشنهاد می‌شود و دستورپخت‌ها را ارائه می‌دهد. شاید چت‌جی‌پی‌تی واقعاً "چشم و گوشهایی" پیدا کرده باشد، همانطور که OpenAI می‌گوید.

توجه کنید که OpenAI پیشنهاد می‌دهد که از ChatGPT چند حسی جدید برای "درخواست داستان خواب برای خانواده‌تان یا حل یک بحث میز شام" استفاده کنید. این موارد به نظر خیلی شبیه به کارهایی می‌آیند که آمازون می‌خواهد ما برای الکسا انجام دهیم. اما الکسا بر اساس مدل زبان زنده نیست، تازه اینکه امکان پردازش داده‌های صوتی و تصویری را نیز ندارد. در حال حاضر، اگر بخواهید قطعه‌ای را برای ChatGPT پخش کنید، باید صوت را به صورت دستی وارد گفتگو کنید. اما اگر ChatGPT را در یک دستگاه مستقل با میکروفون‌های محیطی حساس قرار دهید، ناگهان یک بلندگو هوشمند قابل اعتماد با قدرت هایی فراتر از آنچه الکسا و سیری در حالت کنونی قادر به انجام آن هستند، خواهید داشت.

از قدرت هوش مصنوعی اوو برای تولید محتوای خود بهترین استفاده را ببرید