'Data Processing' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

GitHub

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Processing (9)

JSP's Deep learning

[Data Preprocessing] DOTA -> VOC 형식 데이터 변환

DOTA 데이터셋이란? DOTA 데이터셋은 위성 시점 이미지의 객체 탐지를 위해 만들어진 데이터셋이다. 일반적인 객체 탐지 데이터셋처럼 이미지와 바운딩 박스 정보가 포함된 파일로 구성되나, 일반 객체 탐지 데이터셋과 다른 점은 각각의 바운딩 박스의 4 모서리의 좌표가 위치정보를 포함한다는 것이다. DOTA 논문을 살펴보면 (c)와 같이 바운딩 박스가 구성됨을 알 수 있다. 즉, 바운딩 박스 = ((x1, y1), (x2, y2), (x3, y3), (x4, y4))와 같다. (d)는 일반적인 객체 탐지 데이터 형식으로 구성된 바운딩 박스이다. DOTA 데이터셋 DOTA 데이터 셋을 사용하여 일반 객체 탐지 모델을 학습시키기 위해서는 데이터의 형식을 변환할 필요가 있다. 본문에서는 DOTA 형식의 데이터 ..

Data Processing/Data Preprocessing 2023. 3. 25. 13:13

[Data Analysis] 1. ols를 사용한 선형회귀 모수적 분석 루틴

여러 함수 중 가장 편리했던 방법만 기록 1. 기본 분석 (ols 기법 사용전) 결측치 확인 data.info() - pandas.DataFrame 함수 사용 특성 및 분포 확인 pandas_profiling 패키지의 profile_report 함수 사용(전반적인 데이터 확인) ex. profile = data.profile_report() data.변수.unique() : 범주형 변수의 속성을 확인 data.변수.value_counts() : 범주형 변수의 속성별 빈도수 확인 2. 기본 분석 토대로 ols 기법 사용전 전처리 불필요 변수 제거 ex. id 특징이 너무 많은 변수의 파생변수 생성(단, 원본변수는 제거하지 않고 그대로 둔다.) 범주형 변수의 속성 중 동일의미이나 오타로 잘 못 기입된 속성에..

Data Processing/Data Analysis 2022. 6. 12. 01:27

[Data Preprocessing] train_test_split의 stratify 옵션을 데이터 균형 분할

1. 코드 X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=0.2, random_state=0, stratify=y_data) 또한 Train dataset과 Test dataset을 분할할 때, 라벨의 비율에 맞게 분할할 필요가 있다. 다음의 코드를 통해서 y_data의 label 분포에 맞게 데이터를 분할한다.

Data Processing/Data Preprocessing 2022. 6. 2. 13:50

[Data Preprocessing] DataFrame의 특정 값 치환

1. 코드 data['v1'] = data['v1'].replace(['ham','spam'], [0,1]) data['v1'] 2. 실행결과 'ham' => '0'으로 'spam' => '1'로 치환

Data Processing/Data Preprocessing 2022. 6. 2. 13:43

[Crawling Tip] 1. css_selector을 사용한 element 추출시 팁

크롤링에 관하여 많이 다루지 않거나, 아예 처음 하거나, html, css, javascript에 관한 사전 지식이 부족한 경우 크롤링이 어렵다고 느끼게 된다 특히, xPath를 사용하는 것이 아닌 css_selector을 사용하고자 하면 더욱더 어렵게 느껴진다. 그래서 이번 글에서는 크롤링을 위해 알아야 할 html 구조를 가볍게 알아보자~! * 크롤링을 위해 알아야할 html 문법 * class css_selector에서 class는 .으로 표시한다. 코드는 다음과 같다. driver.find_elements_by_css_selector(".search_area") 만약, 지정한 class의 하위 class를 선택하고 싶다면? driver.find_elements_by_css_selector(".se..

Data Processing/Crawling Tip 2022. 5. 30. 11:00

[Crawling Practice] 3. 인스타그램 크롤링

이번에 할 크롤링은 인스타그램의 게시글입니다~ 게시글의 사진, 날짜, 좋아요, 해시태그를 크롤링해서 저장하는 것이 목표! 이번에는 코드를 좀더 가독성있게 보기위해 함수화를 시켰습니다! 1. 패키지 로드 import pandas as pd import numpy as np from selenium import webdriver from selenium.webdriver import ActionChains as AC import chromedriver_autoinstaller from tqdm import tqdm from tqdm import tqdm_notebook import re # 데이터 전처리 : 정규표현식 from time import sleep import time # 이미지 파일을 저장하기 ..

Data Processing/Crawling Practice 2022. 5. 26. 13:08

[Crawling Practice] 2. 프리스타일2/자유게시판 크롤링

오늘 해볼 크롤링은 프리스타일 2라는 게임 홈페이지의 자유게시판~! 유저수가 많지 않은 게임이라 아는 사람이 별로 없는 게임이지만, 나의 학창시절을 책임져준 게임... 사실해보고 싶은 이유는 추억인 부분도 있고, 이 게임이 운영을 정말 못했던 터라... 운영진들이 자유게시판을 좀 분석해봤으면 어떨까 하는 마음으로 내가 대신 데이터를 수집한다~! 이번에는 크롤링의 코드를 분리해서 분석해보고자 한다. 1. 패키지 로드 import pandas as pd import numpy as np import chromedriver_autoinstaller from selenium import webdriver # 라이브러리(모듈) 가져오라 from selenium.webdriver import ActionChains..

Data Processing/Crawling Practice 2022. 5. 25. 20:44

[Crawling Practice] 1. 메이플스토리 인벤/자유게시판의 데이터 수집

오늘은 막무가내 크롤링 첫 시작하는 날~! 막무가내 크롤링이긴해도 이왕이면 관심있는 데이터를 수집해보는게 정신건강에 좋을 것 같다! 그래서 선정한 주제는 바로 "메이플스토리 인벤 자유게시판 데이터 수집" 선정 이유는... 평소에 자연어 처리에 관심이 있기도 했고... 옛날에 자주하던 게임이 메이플이었기도 하고... 뭐 그렇다! 그럼 바로 코드로 들어가자 1. 패키지 Load import sys # 시스템 import os # 시스템 # 데이터 처리 import numpy as np import pandas as pd from bs4 import BeautifulSoup # html 전처리 from selenium import webdriver # 웹 브라우저 자동화 from selenium.webdriv..

Data Processing/Crawling Practice 2022. 5. 24. 17:38

이전 Prev 1 2 Next 다음

목록Data Processing (9)

JSP's Deep learning

티스토리툴바