파이썬의 웹사이트 크롤링의 기초
나도코딩 사이트로 파이썬 웹사이트 크롤링을 공부하고 있는데요.
이 사이트를 통해서 하나씩 배워가고 있습니다.
먼저 requests 패키지를 통해서 사이트를 불러오는데요.
get을 통해서 해당 주소를 넘겨줍니다.
그리고 res.status_code가 응답인데요.
import requests
res = requests.get('https://www.naver.com')
print('응답코드 =', res.status_code)
200이면 정상입니다.
그리고 status_code가 200 또는 requests.code.ok라면 정상이라고 출력합니다.
import requests
res = requests.get('https://www.naver.com')
print('응답코드 =', res.status_code)
if res.status_code == requests.codes.ok:
print("정상입니다")
else:
print("문제가 생겼습니다. [에러코드", res.status_code, "]")
이 후 전체 파일을 res.text로 가져오고
이후 해당 파일을 mygoogle.html 파일로 저장해 봅니다.
import requests
res = requests.get('https://www.google.com')
res.raise_for_status()
#print('응답코드 =', res.status_code)
'''
if res.status_code == requests.codes.ok:
print("정상입니다")
else:
print("문제가 생겼습니다. [에러코드", res.status_code, "]")
print("웹스크래핑을 진행합니다")
'''
print(len(res.text))
print(res.text)
with open('mygoogle.html', 'w', encoding='utf-8') as f:
f.write(res.text)
여기까지가 초반 30분에 나오는 내용인데요.
파이썬 크롤링이 처음이라면 하나씩 따라 해보시면 정말 좋을 것 같습니다.
그럼 즐거운 하루 보내세요.
'Programming > Python' 카테고리의 다른 글
파이썬 웹사이트 크롤링 하기 - 4. Selenium 사용하기 (0) | 2022.08.27 |
---|---|
파이썬 웹사이트 크롤링하기 - 3.BeautifulSoup/find함수로 찾기 (0) | 2022.08.26 |
파이썬 웹사이트 크롤링하기- 2. 오늘날씨 가져오기 (0) | 2022.08.23 |
크롬 개발자 도구로 홈페이지 메뉴 xpath 확인하기 (0) | 2022.08.22 |
Python3 백준 1000번 문제 map 함수 풀이 (0) | 2022.08.21 |