파이썬 웹사이트 크롤링하기- 1. request

파이썬의 웹사이트 크롤링의 기초

 

나도코딩 사이트로 파이썬 웹사이트 크롤링을 공부하고 있는데요.

 

나도코딩

이 사이트를 통해서 하나씩 배워가고 있습니다.

 

먼저 requests 패키지를 통해서 사이트를 불러오는데요.

 

get을 통해서 해당 주소를 넘겨줍니다.

 

그리고 res.status_code가 응답인데요.

import requests
res = requests.get('https://www.naver.com')

print('응답코드 =', res.status_code)

200이면 정상입니다.

그리고 status_code가 200 또는 requests.code.ok라면 정상이라고 출력합니다.

import requests
res = requests.get('https://www.naver.com')

print('응답코드 =', res.status_code)

if res.status_code == requests.codes.ok:
    print("정상입니다")
else:
    print("문제가 생겼습니다. [에러코드", res.status_code, "]")

이 후 전체 파일을 res.text로 가져오고

 

이후 해당 파일을 mygoogle.html 파일로 저장해 봅니다.

 

import requests
res = requests.get('https://www.google.com')
res.raise_for_status()
#print('응답코드 =', res.status_code)

'''
if res.status_code == requests.codes.ok:
    print("정상입니다")
else:
    print("문제가 생겼습니다. [에러코드", res.status_code, "]")

print("웹스크래핑을 진행합니다")
'''

print(len(res.text))
print(res.text)

with open('mygoogle.html', 'w', encoding='utf-8') as f:
    f.write(res.text)

여기까지가 초반 30분에 나오는 내용인데요.

 

파이썬 크롤링이 처음이라면 하나씩 따라 해보시면 정말 좋을 것 같습니다.

 

그럼 즐거운 하루 보내세요.