본문 바로가기

Understanding data science: dimensionality reduction with R Why reduce the feature set? 결과적으로 모델의 복잡성을 줄이기 위해서이다. Feature가 많아질수록 모델이 많은 변수를 통해 작동하게된다. Neural Network의 구조를 살펴보자. 입력 레이어(Feature) - 히든 레이어 - 출력 레이어가 있다. 교육을 통해 혼련 데이터에서 가중치를 조정하여 네트워크가 모든 입력에 대해 최상의 가중치를 학습할 수 있다. Feature가 많을수록 입력이 많아지므로 히든 레이어가 더 많은 가중치를 가지게 된다. 가중치를 조절하는데 많은 시간이 걸리므로 모델이 복잡할수록 교육 시간이 늘어난다는 의미이다. 다른 이유로는 작은 세트가 종종 더 정확한 모델로 이어진다는 사실이다. 이를 curse of dimensionality라고 한다. Featur..
Understanding data science:designing useful features with R 특징 추출의 목적은 패턴 인식을 단순화하기 위한 정보를 추출하는 것이다. 매개 변수간의 우연한 연결로 인해 의도한 패턴이 흐트러지고 데이터가 많은수록 가짜 링크가 발생할 확률이 높아진다. Feature를 계산하면 데이터 포인트 수가 줄어들어 올바른 패턴에 집중할 수 있다. 하지만 패턴을 구분하기 위해서는 충분한 데이터가 필요하다. 체온이 높은 사람의 경우 그 사람이 운동을 하고 있는건지, 아픈건지를 판단하기는 매우 어렵다. 다른 특징을 제공하여야 상태를 구분할 수 있을 것이다. 이를 위해 많은 테스트가 필요하다. Types of features - Domain-specific features : 문제에 대한 지식으로 데이터를 식별 - Statistical features : 평균, 중앙값, 표준 편차와 ..
Understanding data science: feature extraction with R Keep reading for a walkthrough of how to: - Read data into R - Generate simple stats and plots for initial visualisation - Perform a Fast Fourier Transform(FFT) for frequency analysis - Caculate key features of the data - Visualise and analyse the feature space 사용하는 데이터는 University of Cincinnati에서 제공하는 bearing dataset이다. 이 데이터는 2,000rpm으로 회전하는 4개의 베어링을 연구하며 산출되었다. 또한 이 실험과정에서 일부 베어링이 고장이 났으며 데이터..
Python 교육 1일차 프로그래밍 언어의 특징 1. 인터프리터 2. 문법 3. 개발툴 Data / 함수 / 객체 - 파이썬은 모든 것이 객체이다 - Data의 자료형 > List : 데이터의 중간 결과 저장(임시 저장), 분석 결과물 저장 용도 > Tuple : 메인 함수에 여러 개의 인자를 넣을 때 (*Tuple 형식으로) key 없이 value만 모아서 쓴 것이 튜플 > Set : (Lookup table) key만 모아둔 것. > Dict : key/value로 존재. key는 고유한 단어로 존재하며 value는 key가 의미하는 내용. Dict = Set(key) + Tuple(Value) Temp(dict) = List - 객체(Class의 Instance) > int, float 이런 것들은 다 원형 class가 있..
Python PDF extract tool 정리 언어의 한계상 대부분이 그렇듯 영어는 인식률이 높지만 한글은 아직 발전해야 할 부분이 많다. 1. OCR_SPACE def ocr_space(filename, overlay=False, api_key='', language='eng'): payload = {'isOverlayRequired': overlay, 'apikey': api_key, 'language': language, } with open(filename, 'rb') as f: r = requests.post('https://api.ocr.space/parse/image', files={filename: f}, data=payload, ) return r.content.decode() 서비스는 웹에서 돌아가고 API를 통해 사용할 수 있다...