چت جی پی تی (ChatGPT) چیست؟

در واقع شرکت OpenAI در سانفرانسیسکو، این ابزار هوش مصنوعی را برای پاسخگویی مکالمه وار به سوالات پیچیده طراحی کرده است. این فناوری انقلابی، آموزش دیده تا پرسش و پاسخ‌های انسانی را درک کند.

شرکت OpenAI یک مدل یادگیری عمیق و مشهور به نام دال-ای ( DALL·E) دارد که از روی دستورالعمل‌های متنی به نام prompt به تولید تصویر می‌پردازد. مدیرعامل این شرکت، سام آلتمن است که قبلاً رئیس شرکت Y Combinator بود.

مایکروسافت، شریک و سرمایه گذار یک میلیارد دلاری در این شرکت است. آنها به طور مشترک، پلتفرم هوش مصنوعی Azure را توسعه دادند.

بسیاری از کاربران از توانایی چت جی پی تی در ارائه پاسخ‌های با کیفیت، شگفت زده شده‌اند. چون این احساس را القا می‌کند که شاید در نهایت، این فناوری بتواند نحوه تعامل انسان‌ها با کامپیوترها را مختل کرده و نحوه بازیابی اطلاعات را تغییر دهد.

این چت بات مبتنی بر مدل زبان بزرگ (large language model) است. مدل‌های زبانی بزرگ، وظیفه پیش بینی کلمه بعدی درون یک سری کلمات را انجام می‌دهند.

یادگیری تقویتی با بازخورد انسانی (Reinforcement Learning with Human Feedback) که به اختصار RLHF نامیده می‌شود، یک لایه آموزشی اضافی است که از بازخورد انسانی برای کمک به ChatGPT استفاده می‌کند. این چت بات با کمک این نوع از یادگیری، توانایی پیروی از دستورات و تولید پاسخ‌های رضایت‌بخش برای انسان را پیدا می‌کند.

 

مدل‌های زبانی بزرگ


همانگونه که اشاره شد، چت جی پی تی نوعی مدل زبانی بزرگ (large language model) است. مدل‌های زبانی بزرگ (LLM) با مقادیر انبوهی از داده‌ها آموزش می‌بینند تا به طور دقیق، کلمه قرار گرفته درون یک جمله را پیش‌بینی کنند.

افزایش مقدار داده دریافتی در این مدل‌های زبانی، توانایی آنها برای انجام کارهای بیشتر را افزایش می‌دهد.

مدل های زبانی بزرگ

به گفته دانشگاه استنفورد:

فناوری GPT-3 دارای ۱۷۵ میلیارد پارامتر است و با ۵۷۰ گیگابایت متن، آموزش می‌بیند. برای مقایسه، باید گفت که نسل قبلی آن، یعنی GPT-2 با داشتن یک و نیم میلیارد پارامتر، بیش از ۱۰۰ برابر کوچکتر است.

این افزایش در محتوای آموزشی مدل‌ها، رفتارشان را به شدت تغییر می‌دهد. بنابراین کارهایی را انجام می‌دهند که با صراحت در موردشان آموزش ندیده‌اند. برای مثال، ترجمه جملات از انگلیسی به فرانسوی، را با کمک نمونه‌های آموزشی کم یا بدون آموزش، انجام می‌دهد.

این رفتار در نسل GPT-2 وجود نداشت. بعلاوه، برای برخی از کارها، GPT-3 از سایر مدل‌های آموزش دیده برای تکالیف خاص، بهتر عمل می‌کند، اگرچه در سایرکارها، کوتاهی می‌کند.

مدل‌های زبانی بزرگ، کلمه بعدی در یک سری از کلمات یک جمله و جملات بعدی را پیش بینی می‌کنند. به نوعی مانند تکمیل خودکار، اما در مقیاسی باور نکردنی است. این توانایی به آنها اجازه می‌دهد تا پاراگراف‌ها و کل صفحات یک محتوای خاص را بنویسند.

البته این مدل‌ها همیشه نمی‌دانند که یک انسان دقیقا چه می‌خواهد. و اینجاست که چت جی پی تر با دسترسی یادگیری تقویتی با بازخورد انسانی (RLHF) پیشرفت می‌کند.

چت جی پی تی چگونه آموزش می‌بیند؟


فناوری GPT-3.5 با حجم عظیمی‌ از داده‌ها و اطلاعات اینترنتی، از جمله منابعی مانند بحث‌های Reddit، آموزش دیده تا به ChatGPT در یادگیری مکالمه و دستیابی به سبک پاسخگویی انسانی کمک کند.

همچنین چت جی پی تی با استفاده از بازخورد انسانی (تکنیک یادگیری تقویتی با بازخورد انسانی)، آموزش دیده تا بفهمد که انسان‌ها در هنگام سوال پرسیدن، چه انتظاراتی دارند.

آموزش ربات چت جی پی تی

یک مقاله تحقیقاتی در مارس ۲۰۲۲ با عنوان «Training Language Models to Follow Instructions with Human Feedback» دلیل پیشرفت این رویکرد را این گونه توضیح می‌دهد:

«انگیزه این کار، افزایش تأثیر مثبت مدل‌های زبانی بزرگ با کمک آموزش دادن مدل‌ها برای انجام کاری است که مجموعه‌ای از انسان‌ها قصد انجامشان را دارند.

به‌طور پیش‌فرض، مدل‌های زبانی، پیش‌بینی کلمه بعدی را بهینه می‌کنند، که تنها یک نمونه از کارهای مدنظرمان است.

طبق نتایج این مقاله، تکنیک‌های نویدبخشی برای مفیدتر، صادق‌تر و بی‌ضررتر کردن مدل‌های زبانی وجود دارد.

بزرگتر کردن مدل‌های زبانی، ذاتاً آن‌ها را در پیروی از هدف کاربر بهتر نمی‌کند.

برای مثال، مدل‌های زبانی بزرگ می‌توانند خروجی‌هایی غیرواقعی، سمی ‌یا مضر برای کاربر تولید کنند.

به عبارت دیگر، این مدل‌ها الزاما با کاربران خودشان هماهنگ نیستند.»

طبق نتایج مقاله تحقیقاتی دیگری در مورد ChatGPT ، هوش مصنوعی در این ابزار برای پیش بینی ترجیحات انسانی آموزش دیده است.

آنها برای این کار، هوش مصنوعی را با استفاده از مجموعه داده‌های برگرفته از مقایسه‌های انسانی بین پاسخ‌های مختلف، آموزش دادند تا ماشین در حین پیش‌بینی پاسخ‌های رضایت‌بخش از نظر انسان‌ها، بهتر عمل کند.


چت جی پی تی به طور اختصاصی، این گونه برنامه ریزی شده تا پاسخ‌های سمی ‌یا مضر ارائه نکند. بنابراین از پاسخ دادن به این نوع سوالات هم اجتناب خواهد کرد.

محدودیت‎های چت بات

کیفیت پاسخ‌ها به کیفیت دستورات وابسته است
یک محدودیت مهم در ChatGPT این است که کیفیت خروجی به کیفیت ورودی بستگی دارد. به عبارت دیگر، دستورات دقیق به پاسخ‌های بهتری خواهد رسید.

پاسخ‌ها همیشه درست نیستند
از آنجایی که این فناوری آموزش دیده تا پاسخ‌هایی درست را برای انسان‌ها ارائه دهد، پاسخ‌ها می‌توانند انسان‌ها را در مورد درست بودن خروجی، فریب دهند.

بسیاری از کاربران دریافتند که ChatGPT می‌تواند پاسخ‌های نادرستی ارائه دهد. حتی برخی از آنها که به شدت نادرست هستند.

ناظران در وب‌سایت پرسش و پاسخ برنامه‌نویسی به نام Stack Overflow ، پیامدهای ناخواسته‌ی پاسخ‌های به ظاهر مناسب برای انسان‌ها را پیدا کردند. این سایت مملو از پاسخ‌های به دست امده از ChatGPT بود که به نظر درست می‌رسیدند، اما تعداد زیادی اشتباه بودند.

بنابراین مدیران این سایت برای هر کاربری که پاسخ‌های تولید شده از ChatGPT را ارسال می‌کردند، ممنوعیت وضع کردند.

همچنین اطلاعیه OpenAI این هشدار را ارائه کرد:

«چت جی پی تی گاهی اوقات پاسخ‌هایی به ظاهر معقول، اما نادرست یا بی معنی می‌نویسد».

محدودیت در داده‌های آموزشی و مسائل مربوط به سوگیری

چت جی پی تی مانند بسیاری از مدل‌های هوش مصنوعی، محدودیت‌هایی در داده‌های آموزشی خودش دارد. محدودیت در آموزش داده‌ها و سوگیری می‌تواند تأثیر منفی روی خروجی مدل بگذارد. در واقع، ChatGPT در هنگام آموزش برخی از داده‌ها که در اقلیت قرار دارند، دچار سوگیری است. بنابراین، بهبود شفافیت داده‌های، برای کاهش سوگیری در این فناوری مهم است.

پایداری

چت جی پی تی، محصولی رایگان است. با این وجود در توییتر، گفتگویی در مورد تعداد واحدهای پردازش گرافیکی (GPU) مورد نیاز برای اجرای ChatGPT وجود دارد. نکته مهم اینجاست که اجرای ChatGPT بسیار گران تمام می‌شود. بنابراین تردید زیادی در مورد پایداری این فناوری در بلندمدت، مطرح است.

 

0 دیدگاه ها

  • |

    |

شما هم میتوانید دیدگاه خود را بیان کنید

برای ثبت دیدگاه، ابتدا وارد حساب کاری خود شوید

ورود به حساب کاربری