반응형
최근 사이트 중에서는 단순히 requests만으로 크롤링이 안되는 사이트가 있는데요. CloudScrapercloudscraper는 Cloudflare와 같은 보안 서비스로 보호된 웹사이트를 우회하여 요청을 처리할 수 있는 Python 라이브러리라고 합니다. 사이트에서 단순한 request로 크롤링이 안될때 사용할 수 ㅣㅇㅆ습니다. Cloudflare 보호를 우회하는 데 효과적입니다. 이 코드를 실행하면 OpenAI와 같은 사이트에서 필요한 데이터를 크롤링할 수 있습니다 CloudScraper 사용방법먼저 cloudscraper를 설치해줍니다.pip install cloudscraper 기본적인 소스코드 형태는 아래와 같은데요. import cloudscraperfrom bs4 import Beautif..
최근 ChatGPT를 활용해서 코딩에 사용해보고 있는데요. ChatGPT 활용 코딩먼저 ChatGPT에게 정확한 요구사항을 주고 코딩을 해달라고 요청하는 것이 중요합니다. 바로 요구조건 명세화가 필요한 것인데요. 프로그램 개발모델중 폭포수 모델을 예로 든 것인데요. 여기에서 요구사항 정의를 명확히 해야 프로그램이 정상적으로 동작합니다.그리고 나서 중요한 점은 패키지 버전입니다. ChatGPT의 경우 패키지 버전을 랜덤(?)으로 알려주는 경우가 있는데요. 이 경우에 바로 직접 에러난 문구를 chatGPT에게 바로 물어보시면 답변을 해줍니다.다만 이경우에 도돌이표(?)로 되는 경우가 있어서 이 때에는 깃허브 등 다른 사이트를 같이 사용하면 좋습니다. ChatGPT 활용해서 코딩을 해보는 느낀점은 정말 개인 ..
파이썬을 통해서 엑셀을 저장할 경우가 많은데요. 오늘은 이 때 사용할 수 있는 여러 기능에 대해서 알아보겠습니다. 판다스 엑셀에 저장하기 판다스에서 엑셀에 저장할 때 여러 데이터 프레임을 각각의 시트에 넣어 하나의 파일로 저장하거나 이쁘게 하기 위해서 열 넓이를 조절해야 할 경우가 있을 때 사용할 수 있는 코드입니다. writer를 통해서 순서대로 시트에 넣을 수 있는데요. 먼저 각각의 데이터 프레임(df1, df2)를 각각의 시트에 넣는 코드입니다. df.to_excel을 할 때 writer를 사용합니다. with pd.ExcelWriter(파일명.xlsx) as writer: # use to_excel function and specify the sheet_name and without index d..
저번에 파이썬 웨바이트 주소에서 파일 다운 받는 프로그램을 짜보았는데요. 해당 내용에 추가하여 주소를 자유롭게 변경하고, 다운로드 폴더를 변경하는 방법을 알아보겠습니다. https://remake.tistory.com/87 파이썬 웹사이트에서 주소 파일 다운 받기(rss feed) 오늘은 파이썬에서 RSS feed 내에 있는 enclosures에 있는 첨부 파일을 일괄로 다운받는 방법을 알아보겠습니다. Rss enclosures RSS 인클로저는 음악 추천에 MP3 파일 또는 일기 항목에 사진과 같은 항목과 remake.tistory.com 파이썬 입력받기 파이썬에서는 input이라는 함수로 값을 입력받을 수 있는데요. 그래서 아래처럼 변수에 input을 넣어서 키보드로 입력을 받을 수 있습니다. 다만 ..
파이썬에서 Excel로 추출을 할때, to_excel 명령어 이후 아래와 같은 에러가 종종 발생하는데요. 특히 웹사이트를 크롤링하는 경우에는 종종 에러가 발생하기도 합니다. illegalcharacterError 바로 지원하지 않는 문자열을 사용해서 엑셀 저장시 에러가 나는 경우입니다. 이 에러를 해결하기 위해서는 근본적으로 해당 문자열을 수정해야 하는데요. 참고한 블로그의 글입니다. https://dorudoru.tistory.com/2329 파이썬 크롤링시 날짜 에러 해결하기 파이썬에서 웹 크롤링을 할때 날짜 관련된 에러가 발생할 경우가 있습니다. 크롤링시 Datetime 에러 먼저 살펴볼 것은 파이썬의 datetime이 지원하지 않는 포맷이어서 발생하는 에러입니다. datetime은 dorudoru..
오늘은 구글 드라이브와 파이썬을 연동하는 방법을 알아보겠습니다. 그 중에서 구글 드라이브에서 기초 설정을 하는 방법을 알아보겠습니다. 구글 드라이브 연동하기 https://console.developers.google.com/projectselector2/apis/enableflow?apiid=drive&authuser=1&supportedpurview=project Google 클라우드 플랫폼 로그인 Google 클라우드 플랫폼으로 이동 accounts.google.com 구글 클라우드 플랫폼에서 회원가입을 하고 API를 신청합니다. 이 후 프로젝트 만들기를 통해 API 프로젝트를 생성합니다. 이후 프로젝트 이름을 원하는 것으로 만들어 줍니다. 이 후 구글 드라이브 API를 활성화 합니다. 필요시 Go..