Semalt - چگونه صفحات وب را خراش دهیم؟

Soup Beautiful یک کتابخانه پایتون است که به طور گسترده ای برای خراش دادن صفحات وب با ایجاد یک درخت پارس از اسناد XML و HTML استفاده می شود. scraping وب ، روشی برای استخراج داده ها از وب سایت ها و صفحات ، به طور گسترده ای در زمینه تجزیه و تحلیل داده ها و مدیریت استفاده می شود. در بیشتر موارد ، زبان برنامه نویسی پایتون یک پیش نیاز در علم داده است.

پایتون 3 دارای ابزارهای ضبط و ماژول هایی است که می توانید برای پروژه مدیریت داده خود اعمال کنید. این ماژول در حال حاضر به عنوان زیبای سوپ 4 در حال اجرا است ، هم با پایتون 3 و هم با پایتون 2.7 سازگار است. ماژول زیبای سوپ 4 همچنین قادر به ایجاد یک درخت پارس برای سوپ برچسب غیر بسته است. در این آموزش یاد می گیرید که چگونه صفحه را بزنید و داده های خراشیده شده را به پرونده CSV بنویسید.

شروع شدن

برای شروع کار ، یک سرور یا محیط برنامه نویسی پایتون محلی مستقر در رایانه شخصی خود تنظیم کنید. همچنین باید ماژول Beautiful Soup and Requests را روی دستگاه خود نصب کنید. آگاهی از کار با هر دو ماژول نیز یک شرط ضروری است. آشنایی با برچسب زدن به HTML و ساختار نیز یک مزیت اضافه است.

درک داده های شما

در این زمینه از داده های واقعی گالری ملی هنر برای کمک به شما در درک چگونگی استفاده از سوپ زیبا استفاده می شود. 4 گالری ملی هنر شامل 120،000 قطعه است که توسط تقریبی 13000 هنرمند انجام می شود. این هنر در واشنگتن دی سی ، ایالات متحده مستقر است.

استخراج داده های وب با سوپ زیبا چندان پیچیده نیست. به عنوان مثال ، اگر روی حرف Z تمرکز کرده اید ، ابتدا نام موجود در لیست را علامت گذاری و یادداشت کنید. در این حالت ، نام اول Zabaglia ، Niccola است. برای سازگاری ، تعداد صفحات و نام آخرین هنرمند در آن صفحه را مشخص کنید.

نحوه وارد کردن درخواست ها و کتابخانه سوپ زیبا

برای وارد کردن کتابخانه ها ، برنامه نویسی Python 3 خود را فعال کنید. بررسی کنید تا مطمئن شوید که در همان فهرست با محیط برنامه نویسی خود قرار دارید. برای شروع دستور زیر را اجرا کنید. my_env / bin / activate.

یک پرونده جدید ایجاد کنید و وارد کردن کتابخانه سوپ زیبا و درخواست ها را شروع کنید. کتابخانه درخواستها به شما امکان می دهد تا از HTTP در برنامه های Python خود در قالب های قابل خواندن استفاده کنید. از طرف دیگر سوپ زیبا برای خراشیدن سریع صفحات کار می کند. برای وارد کردن سوپ زیبا از bs4 استفاده کنید.

نحوه جمع آوری و تجزیه یک صفحه وب

با استفاده از درخواست ها ، آدرس صفحه اول خود را جمع آوری کنید. آدرس صفحه اول به صفحه متغیر اختصاص می یابد. یک شیء BeautifulSoup از Requests بسازید و شیء را از تجزیه کننده Python تجزیه کنید.

در این آموزش هدف جمع آوری پیوندها و نام هنرمندان است. به عنوان مثال ، می توانید تاریخ ها و ملیت های هنرمندان را جمع آوری کنید. برای کاربران ویندوز ، بر روی نام اول هنرمند کلیک راست کنید. در این حالت از Zabaglia ، Niccola استفاده کنید. برای کاربران سیستم عامل Mac ، روی "CTRL" ضربه بزنید و روی نام کلیک کنید. برای دسترسی به ابزارهای برنامه نویسان وب ، روی منوی "Inspect Element" که در صفحه نمایش ظاهر می شود کلیک کنید. اسامی این هنرمند را چاپ کنید تا سوپ زیبا به سرعت یک درخت تجزیه شود.

حذف لینک های پایین

برای حذف پیوندهای پایین در صفحه وب ، DOM را با کلیک راست روی عنصر بازرسی کنید. شما تشخیص می دهید که پیوندها در زیر جدول HTML قرار دارند. با استفاده از سوپ زیبا ، از "روش تجزیه" برای پاک کردن برچسب ها از درخت پارس استفاده کنید.

نحوه بیرون کشیدن محتوا از یک برچسب

لازم نیست کل برچسب پیوند را چاپ کنید ، از سوپ زیبا برای حذف مواد از یک برچسب استفاده کنید. همچنین می توانید URL های مرتبط با هنرمندان را با استفاده از Beautiful Soup 4 ضبط کنید.

ضبط داده های خراشیده شده در یک پرونده CSV

پرونده CSV به شما امکان می دهد داده های ساختاری را در یک متن ساده ذخیره کنید ، فرمی که بیشتر برای داده های داده استفاده می شود. دانش در مورد پردازش فایلهای متنی ساده در پایتون توصیه می شود.

استخراج داده های وب برای خراش دادن صفحات و به دست آوردن اطلاعات استفاده می شود. به وب سایتهایی که اطلاعات استخراج از آنها دارید توجه کنید. برخی از وب سایت های پویا استخراج داده های وب را در سایت های خود محدود می کنند. خراش دادن صفحه با Beautiful Soup و Python 3 بسیار ساده است.