کتاب Data Analysis with LLMs، نوشته ایمانوئل ترامر، یک راهنمای عملی و جامع برای دانشمندان داده و تحلیلگرانی است که میخواهند از مدلهای زبانی بزرگ (LLMs) مانند ChatGPT، و مدلهای ارائهشده توسط Anthropic، Cohere، Open AI، Google، و Hugging Face برای تسریع وظایف علوم داده استفاده کنند. این کتاب با آموزشهای گامبهگام و پروژههای جذاب، شما را از نوشتن اولین پرامپتها تا تکنیکهای پیشرفته مانند ساخت ایجنتهای مبتنی بر LLM و بهینهسازی مدلها هدایت میکند.
تحلیل دادههای چندوجهی: یادگیری تحلیل متن، جداول، تصاویر و فایلهای صوتی با استفاده از LLMs.
رابطهای پرسوجوی زبانی: ساخت رابطهای پرسوجوی زبان طبیعی برای دادههای ساختاریافته.
پروژههای عملی با پایتون: استفاده از کتابخانههای OpenAI، LangChain و LlamaIndex برای پیادهسازی پروژهها.
شامل نسخه PDF و ePub رایگان: با خرید نسخه چاپی، نسخههای دیجیتال کتاب بهصورت رایگان ارائه میشود.
بهینهسازی هزینه و کیفیت: یادگیری تکنیکهای مهندسی پرامپت و تنظیم مدل برای بهبود کارایی.
Data Analysis with LLMs به شما نشان میدهد چگونه هوش مصنوعی مولد را در جریان کاری علوم داده خود ادغام کنید. ایمانوئل ترامر، استاد دانشگاه کرنل و عضو گروه پایگاه داده کرنل، شما را از طریق پروژههای عملی راهنمایی میکند که شامل استفاده از کتابخانه پایتون OpenAI، ابزارهایی مانند LangChain و LlamaIndex، و مدلهای مختلف LLM است. این کتاب بر تحلیل دادههای ساختاریافته و غیرساختاریافته، تصاویر، ویدئوها و صدا تمرکز دارد و تکنیکهایی مانند مهندسی پرامپت، تنظیم مدل و بهینهسازی هزینه را آموزش میدهد. پروژههای کتاب شامل طبقهبندی بررسیهای محصولات، استخراج اطلاعات از اسناد، و ساخت رابطهای پرسوجوی زبان طبیعی برای پایگاههای داده SQLite و Neo4j است.
تحلیل دادههای چندوجهی: طبقهبندی، خوشهبندی، تبدیل و پرسوجو از دادههای متنی، جدولی، گرافی، تصویری و صوتی.
رابطهای زبان طبیعی: ساخت رابطهای پرسوجو برای پایگاههای داده با استفاده از SQL و Cypher.
مهندسی پرامپت و تنظیم مدل: بهینهسازی خروجیهای LLM با تنظیم پارامترهایی مانند max_tokens و temperature.
استفاده از LangChain و LlamaIndex: ساخت خطوط لوله تحلیل داده پیچیده و ایجنتهای خودکار.
بهینهسازی هزینه و کیفیت: انتخاب مدل مناسب و تنظیم دقیق برای کاهش هزینهها و بهبود نتایج.
این کتاب برای دانشمندان داده، تحلیلگران داده و توسعهدهندگان پایتون با دانش پایه پایتون مناسب است. اگر میخواهید LLMs را در جریان کاری خود ادغام کنید یا با دادههای چندوجهی کار کنید، این کتاب راهنمایی ایدهآل است. آشنایی اولیه با مفاهیم علوم داده و پایتون توصیه میشود.
ایمانوئل ترامر، دانشیار علوم کامپیوتر در دانشگاه کرنل و رهبر گروه پایگاه داده کرنل، نویسندهای برجسته با مقالات متعدد در حوزه علوم داده و LLMs است. مقالات او جوایزی مانند "Best of VLDB"، "Best of SIGMOD" و ACM SIGMOD Research Highlight Award دریافت کردهاند. دوره آنلاین او در مدیریت داده بیش از یک میلیون بازدید در یوتیوب داشته است.
بخش اول: مقدمه
تحلیل دادهها با مدلهای زبانی بزرگ
معرفی LLMs و کاربرد آنها در علوم داده.
گفتوگو با ChatGPT
یادگیری استفاده از رابط وب ChatGPT برای تحلیل دادهها.
بخش دوم: تحلیل دادهها با پایتون
کتابخانه پایتون OpenAI
نصب و استفاده از کتابخانه OpenAI برای تعامل با LLMs.
تحلیل دادههای متنی
طبقهبندی، استخراج اطلاعات و خوشهبندی متن با LLMs.
تحلیل دادههای ساختاریافته
ساخت رابطهای پرسوجوی زبان طبیعی برای پایگاههای داده SQLite و Neo4j.
تحلیل تصاویر و ویدئوها
پاسخ به سوالات درباره تصاویر و تولید عناوین برای ویدئوها.
تحلیل دادههای صوتی
تبدیل گفتار به متن و پاسخ به پرسوجوهای صوتی.
بخش سوم: تکنیکهای پیشرفته
جایگزینهای GPT
کاوش در مدلهای LLMs از Anthropic، Cohere و Hugging Face.
بهینهسازی هزینه و کیفیت
تنظیم مدل، مهندسی پرامپت و انتخاب مدل برای کارایی بهتر.
فریمورکهای نرمافزاری
استفاده از LangChain و LlamaIndex برای ساخت خطوط لوله و ایجنتهای تحلیل داده.
نظرات کاربران