반응형
최근 사이트 중에서는 단순히 requests만으로 크롤링이 안되는 사이트가 있는데요. CloudScrapercloudscraper는 Cloudflare와 같은 보안 서비스로 보호된 웹사이트를 우회하여 요청을 처리할 수 있는 Python 라이브러리라고 합니다. 사이트에서 단순한 request로 크롤링이 안될때 사용할 수 ㅣㅇㅆ습니다. Cloudflare 보호를 우회하는 데 효과적입니다. 이 코드를 실행하면 OpenAI와 같은 사이트에서 필요한 데이터를 크롤링할 수 있습니다 CloudScraper 사용방법먼저 cloudscraper를 설치해줍니다.pip install cloudscraper 기본적인 소스코드 형태는 아래와 같은데요. import cloudscraperfrom bs4 import Beautif..
최근 ChatGPT를 활용해서 코딩에 사용해보고 있는데요. ChatGPT 활용 코딩먼저 ChatGPT에게 정확한 요구사항을 주고 코딩을 해달라고 요청하는 것이 중요합니다. 바로 요구조건 명세화가 필요한 것인데요. 프로그램 개발모델중 폭포수 모델을 예로 든 것인데요. 여기에서 요구사항 정의를 명확히 해야 프로그램이 정상적으로 동작합니다.그리고 나서 중요한 점은 패키지 버전입니다. ChatGPT의 경우 패키지 버전을 랜덤(?)으로 알려주는 경우가 있는데요. 이 경우에 바로 직접 에러난 문구를 chatGPT에게 바로 물어보시면 답변을 해줍니다.다만 이경우에 도돌이표(?)로 되는 경우가 있어서 이 때에는 깃허브 등 다른 사이트를 같이 사용하면 좋습니다. ChatGPT 활용해서 코딩을 해보는 느낀점은 정말 개인 ..
오늘은 랭체인을 통해서 엑셀의 유사도를 판단하는 프로그램을 작성해보겠습니다. openAI 템플릿을 사용할 예정이구요. 랭체인이란?랭체인은 LLM과 애플리케이션의 통합을 간소화하도록 설계된 SDK로서 앞서 설명한 대부분의 문제를 해결하도록 만들어진 툴입니다. 랭체인은 ODBC, 또는 표준 SQL 문에 집중하게 함으로써 백엔드 데이터베이스의 구현 세부 정보를 요약하는 JDBC 드라이버와 비슷하다고 할 수 있습니다. 랭체인은 간단하고 통합된 API를 노출하여 기본 LLM의 구현 세부 사항을 요약하는데, 이 API를 통해 개발자들은 코드를 크게 변경하지 않고 모델을 쉽게 교체하거나 대체할 수 있습니다.랭체인은 챗GPT와 거의 같은 시기에 등장했는데요. 개발자인 해리슨 체이스는 2022년 10월 말, LLM 열풍..
파이썬으로 엑셀을 저장할 때 저장 에러가 발생할 경우가 있는데요. 아래처럼 내용에 문제가 있습니다. 이 통합 문서의 내용을 최대한 복구하시겠습니까? 이 통합 문서의 원본을 신뢰하는 경우 [예]를 클릭하세요.라는 메시지가 뜹니다. 파이썬 엑셀 저장 에러 메시지를 열어보면 제거된 기능: /xl/worksheets/sheet1.xml 부분의 워크시트 속성이라고 나와있습니다. 이 경우 원인은 다양할 수 있는데요. 저의 경우에는 시작 이 "='로 시작해서 엑셀에서 함수로 판단하고 에러가 발생했습니다. 즉 엑셀에서 지원하지 않는 함수가 들어가서 엑셀에서 오류로 판단하는 오류였습니다. 파이썬 엑셀 저장 오류 해결하기 이 경우 파이썬의 치환을 통해서 해결할 수 있는데요. 대체하다 substitute 의 줄임말입니다. ..
먼저 파이썬의 트리 만들기를 검토하기 전에 print 문에 대한 문법 공부를 간단히 해보겠습니다. Print 옵션(sep, end) 파이썬의 출력문은 print를 사용하며 두 개의 옵션을 사용할 수 있습니다. https://docs.python.org/ko/3/library/functions.html#print - sep=" " 이 옵션을 이용하게 되면 print문의 출력문들 사이에 해당하는 내용을 넣을 수 있습니다. 기본 값으로는 공백이 들어가 있으며 이를 사용해 원하는 문자를 입력할 수 있습니다. print('S','E','P', sep='@') - end=" " 이 옵션의 경우 print 문을 이용해 출력을 완료한 뒤의 내용을 수정할 수 있습니다. 기본 값으로는 개행(\n)이 들어가 있으며 이를 사..
파이썬을 통해서 엑셀을 저장할 경우가 많은데요. 오늘은 이 때 사용할 수 있는 여러 기능에 대해서 알아보겠습니다. 판다스 엑셀에 저장하기 판다스에서 엑셀에 저장할 때 여러 데이터 프레임을 각각의 시트에 넣어 하나의 파일로 저장하거나 이쁘게 하기 위해서 열 넓이를 조절해야 할 경우가 있을 때 사용할 수 있는 코드입니다. writer를 통해서 순서대로 시트에 넣을 수 있는데요. 먼저 각각의 데이터 프레임(df1, df2)를 각각의 시트에 넣는 코드입니다. df.to_excel을 할 때 writer를 사용합니다. with pd.ExcelWriter(파일명.xlsx) as writer: # use to_excel function and specify the sheet_name and without index d..