728x90
반응형

ITStudy/Python 14

python활용 youtube 동영상 다운로드[pytube 활용]

안녕하세요, 오목입니다. 오늘은 python에서 youtube 동영상을 다운로드 받는 코드에 대해서 소개해 드리겠습니다. *해당 코드는 ChatGPT를 통해 작성한 코드임 #활용 라이브러리 다운로드 !pip install pytube from pytube import YouTube # 다운로드 받을 동영상 URL 지정 video_url = '다운로드 받을 동영상 url' # YouTube 객체 생성 yt = YouTube(video_url) # 비디오로부터 가장 높은 화질의 스트림 선택 stream = yt.streams.get_highest_resolution() # 1080 p. mp4 파일 포맷 다운로드 # yt.streams.filter(res='1080p', file_extension='mp4'..

ITStudy/Python 2023.07.10

[Python]NLTK를 활용한 텍스트 처리-설치 및 토큰화, 어근동일화

이번에는 NLTK를 활용하는 방법에 대해서 알아보겠습니다. 이번에 알아볼 사항은 아래와 같습니다. 1. NLTK 설치 2. NLTK 단어 및 문장 단위 토큰화(tokenization) 3. NLTK 어근 동일화(stemming) NLTK의 설치 NLTK 설치 NLTK의 설치는 아래의 코드를 실행 시키면 간단하게 설치할 수 있습니다. pip install nltk 개별 라이브러리의 설치 NLTK는 여러개의 라이브러리들이 합쳐져있는 패키지이기 때문에 특정한 라이브러리를 사용하기 위해서는 추가 설치작업이 필요합니다. 가령 불용어처리를 위해 stpwords를 실행시키고자 할 때 없다면 에러코드가 발생하기 때문에 정상적으로 사용하고자 할때는 설치하고자 할 때는 아래의 코드를 실행하여 설치할 수 있습니다. impo..

ITStudy/Python 2021.06.06

머신러닝 테스트를 위한 Google Colab과 Google Drive 연동하기

이번에는 머신러닝 테스트를 위해 Google Colab(Colaboratory)와 Google Drive를 연동하는 방법에 대해서 알아보겠습니다. Google Colab 알아보기 - Google Colaboratory의 약어입니다 - Google Cloud 환경에서 동작하는 Jupyter Notebook으로 Jupyter Notebook UI 및 기능을 제공합니다 - 머신러닝을 위한 GPU 및 TPU 무료로 제공합니다(한 번에 12시간) - 별도의 파이썬 설치 없이 웹 브라우저 상에서 Jupyter Notebook과 같은 작업 수행이 가능합니다 numpy, pandas, matplotblib, scikit-learn, tensorflow 등 패키지들이 미리 설치되어 있는 환경입니다 - Google Doc..

ITStudy/Python 2021.05.31

[Python]Jupyter Lab 설치 및 활용

이번에는 Jupyter Lab을 설치하고 간단한 구조 및 활용법을 살펴보도록 하겠습니다. * 이번 환경은 Anaconda 환경에서 수행되었습니다. 아래의 순서로 관련된 사항들을 알아보도록 하겠습니다. 01 Jupyter Lab 설치 및 실행 02 Jupyter Lab 간단 인터페이스 03 Jupyter Lab 주요 단축키 Jupyter Lab은 Notebook 및 콘솔, 터미널 등을 통합환경에서 제공하며, 탭과 화면 분할을 이용하여 참조해야할 모든 것들을 한 화면에서 활용할 수 있다는 점에서 기존에 Jupyber notebook보다 강력한 사용자 환경을 제공합니다. Jupyter Lab 설치 및 실행 Anaconda Prompt를 이용해 수행합니다. # Jupyter Lab 설치 # conda 사용시 >..

ITStudy/Python 2021.03.05

[Python] openpyxl로 excel 다루기03 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 이전 포스트에서는 DART의 RSS를 활용하여 웹 상의 데이터를 읽어오는 방법에 대해서 알아보았습니다. 이번에는 엑셀로 만들어진 url주소를 활용하여 웹상에 존재하는 특정 정보를 가지고 오는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다. 오늘의 예제는 KCI(Korea Citation Index; 한국학술인용색인*)..

ITStudy/Python 2021.02.24

[python] BeautifulSoup를 통한 크롤링 차단 시 해결 방법

이번시간에는 크롤링 시 차단되었을 경우의 대처방법 User Agent 지정에 대해서 알아보도록 하겠습니다. BeautifulSoup를 사용해서 웹을 크롤링하던 와중에 페이지에서 아무것도 받아오지 못하는 문제가 발생해서 당혹스러운 경우가 발생했습니다. 구글링 해보았을 때 다양한 경우에서 이러한 문제가 발생할 수 있는 것으로 보입니다. 그 중에서 가장 흔한 경우는 웹 서버측에서 크롤러를 로봇의 부적절한 접근으로 인식한 경우 문제가 발생할 수 있습니다(robots.txt 파일에서 제외의 경우). 이 경우 해결방법은 Header에 User Agent 정보를 기입하여 웹 서버로 페이지를 요청할 시에 같이 보내는 방법을 사용할 수 있습니다. User Agent란* HTTP 통신 시 브라우저가 웹서버에 연결을 시작할..

ITStudy/Python 2021.02.22

[Python] openpyxl로 excel 다루기02 (urllib, BeautifulSoup)

이번 포스트에서는 python에서 실제 웹 상에 존재하는 데이터들을 excel로 저장하는 방법에 대해서 알아보도록 하겠습니다. 따라서 아래의 세가지 라이브러리를 활용해보도록 하겠습니다. 01 urllib : url을 호출하고 데이터를 불러들입니다. 02 BeautifulSoup : html문서를 분석하고 파싱합니다. 03 openpyxl : 매트릭스 형태로 저장하기 위한 excel 파일을 작성합니다 . 예제는 urllib와 BeautifulSoup 포스트에서 활용한 DART(전자공시시스템* )의 RSS의 최근공시정보를 활용해보고자 합니다. RSS 최근공시 정보는 최근 50개의 공시(지분,펀드 제외)를 불러옵니다. * 상장법인 등이 공시서류를 인터넷으로 제출하고, 투자자 등 이용자는 제출 증시 인터넷을 통..

ITStudy/Python 2021.02.19

[Python] openpyxl로 excel 다루기01 (excel 구조, sheet 및 cell)

이번 포스트에서는 python에서 excel을 다루기위해 openpyxl 라이브러리에 대해서 알아보도록 하겠습니다. 아래와 같은 내용을 알아보도록 하겠습니다. 01 excel의 구조 02 openpyxl 튜토리얼: excel 생성, sheet 및 cell 접근 및 value excel의 구조 python으로 excel을 다루기 전에 대상이 되는 excel에 대해서 알아봅시다. 엑셀은 아래의 구조를 가지고 이를 통해 openpyxl에서는 엑셀을 다루게 됩니다. 1. 엑셀파일(book) 2. 시트(sheet) 3. 행(row) 4. 열(column) 5. 셀(cell) openpyxl 튜토리얼 # In 1: workbook 및 sheet 선택 from openpyxl import Workbook wb=Wor..

ITStudy/Python 2021.02.18

[Python] BeautifulSoup로 웹 데이터 분석 with DART

오늘은 웹 데이터 분석을 위해 BeautifulSoup에 대해서 간단하게 알아보도록 하겠습니다. BeautifulSoup는 HTML 및 XML 데이터 분석을 위한 Python 라이브러리입니다. 지난번에 알아본 urllib 라이브러리와 함께 예제로 활용했던 DART를 활용해보겠습니다. 1. BeautifulSoup 설치 BeautifulSoup는 python.org의 Document의 라이브러리에서 확인할 수 없고 PyPI(Python Package Index)에서 확인할 수 있습니다. 관련 URL> pypi.org/project/beautifulsoup4/ anaconda를 사용할 경우 자동으로 설치되어 있지만 Python만을 설치한 경우 별도의 설치가 필요합니다. #ln1: easy_install을 이..

ITStudy/Python 2021.02.01

[Python] urllib로 웹 데이터 핸들링 with DART

오늘은 파이썬 라이브러리 중 웹 데이터를 핸들링 할 수 있는 urllib에 대해서 알아보고자 합니다. urllib 중 urllib.request 모듈과 urllib.parse 모듈을 사용하여 간단하게 웹 페이지에 데이터를 요청하고 저장해보도록 하겠습니다. 오늘 사용할 예는 금융감독원에서 운영하고 있는 전자공시시스템(DART; Data Analysis, Retrieval and Transfer System)의 RSS를 통해 사용해 보도록 하겠습니다. 1. RSS RSS는 Rich Site Summary의 줄임말로 사이트에 직접 방문할 필요없이 RSS 리더를 활용하여 최신 정보를 활용할 수 있도록 해주는 콘텐츠입니다. DART에서는 RSS 리더를 통해 최근공시 혹은 회사별 공시를 확인 할 수 있도록 정보를 ..

ITStudy/Python 2021.01.31
728x90
반응형