본문 바로가기

미분류/R

Understanding data science: more classification techniques 3개의 분류법을 사용하여 분류해본다. - Rpart decision trees - Support vector machines - k-nearest neighbour classification The bearings dataset 이제부터 할 분석은 4개의 베어링이 각각 7개의 상태를 가지고 있다. 이들은 서로 다른 비율로 구성된 데이터들이다. earlyfailure.b2failure.innerfailure.rollernormalstage2suspect 966 37 37 608 4344 317 2315 정확한 정보를 얻으려면 정확한 분류의 총 개수보다는 각 분류의 정확도 백분율을 기준으로 가중치의 정확도를 계산해야 한다. 또한 데이터 세트에서 무작위로 선택하지 않고 클래스에서 동등한 비율로 가지고 와야한다..
Understanding data science: classification with neural networks in R neural networks는 일반적으로 data science에서 사용한다. feature vector를 그룹화해서 클래스로 분류하고, 새로운 데이터를 라벨링해준다. 엔지니어링에서는 장비의 상태를 진단하고 정상인지 아닌지 식별하는데 사용된다. 저번에 추출한 feature를 사용하여 베어링의 상태를 알아낼 수 있도록 훈련시켜본다. The classification problem 14개의 feature로 베어링의 상태를 알아내보자. k-means clustering를 사용하였을 때에는 7가지의 상태를 알려주고 있다. green: “early” (initial run-in of the bearings) blue: “normal” yellow: “suspect” (health seems to be deteri..
Understanding data science: clustering with k-means in R R에서 k-means로 clustering 해보자. k-means clustering는 k-평균 군집화라고 불리며 군집화 알고리즘 가운데 하나이다. 군집은 하나의 중심을 가지며 개체는 가장 가까운 중심에 할당된다. k는 군집 수이다. From features to diagnosis 분석의 목표는 4개의 베어링의 상태를 진단하는 것이다. 베어링은 수명이 다 할때까지 실행되었고 데이터는 그 기록을 가지고 있기 때문에 두 개의 베어링이 실패했다는 것을 알 수 있다. 대략적인 변화상태를 알기 위해 그래프에 라벨을 붙여 판단한다. green: “early” (initial run-in of the bearings) blue: “normal” yellow: “suspect” (health seems to be de..
R 기본 (추가 중) - 반드시 사용자의 이름은 영어여야 한다 (윈도우 환경) - R 설정 중 한글이 깨지 않기 위해 인코딩을 변경해야 한다. tool > global options > codes > saving 먼저 세 과목의 합계를 출력해보자. kor num mode(num) [1] "numeric" "1"과 1은 서로 다른 존재이다. > kor above90 =90 #kor 값이 90 이상인가? > below90 print(above90) [1] TRUE > print(below90) [1] FALSE boolean 값도 저장할 수 있다. > today1 print(today1) [1] "2019-06-05" > today2 print(today2) [1] "2019-06-05 09:37:36 KST" 날짜는 시스템함수..
Understanding data science: dimensionality reduction with R Why reduce the feature set? 결과적으로 모델의 복잡성을 줄이기 위해서이다. Feature가 많아질수록 모델이 많은 변수를 통해 작동하게된다. Neural Network의 구조를 살펴보자. 입력 레이어(Feature) - 히든 레이어 - 출력 레이어가 있다. 교육을 통해 혼련 데이터에서 가중치를 조정하여 네트워크가 모든 입력에 대해 최상의 가중치를 학습할 수 있다. Feature가 많을수록 입력이 많아지므로 히든 레이어가 더 많은 가중치를 가지게 된다. 가중치를 조절하는데 많은 시간이 걸리므로 모델이 복잡할수록 교육 시간이 늘어난다는 의미이다. 다른 이유로는 작은 세트가 종종 더 정확한 모델로 이어진다는 사실이다. 이를 curse of dimensionality라고 한다. Featur..
Understanding data science:designing useful features with R 특징 추출의 목적은 패턴 인식을 단순화하기 위한 정보를 추출하는 것이다. 매개 변수간의 우연한 연결로 인해 의도한 패턴이 흐트러지고 데이터가 많은수록 가짜 링크가 발생할 확률이 높아진다. Feature를 계산하면 데이터 포인트 수가 줄어들어 올바른 패턴에 집중할 수 있다. 하지만 패턴을 구분하기 위해서는 충분한 데이터가 필요하다. 체온이 높은 사람의 경우 그 사람이 운동을 하고 있는건지, 아픈건지를 판단하기는 매우 어렵다. 다른 특징을 제공하여야 상태를 구분할 수 있을 것이다. 이를 위해 많은 테스트가 필요하다. Types of features - Domain-specific features : 문제에 대한 지식으로 데이터를 식별 - Statistical features : 평균, 중앙값, 표준 편차와 ..
Understanding data science: feature extraction with R Keep reading for a walkthrough of how to: - Read data into R - Generate simple stats and plots for initial visualisation - Perform a Fast Fourier Transform(FFT) for frequency analysis - Caculate key features of the data - Visualise and analyse the feature space 사용하는 데이터는 University of Cincinnati에서 제공하는 bearing dataset이다. 이 데이터는 2,000rpm으로 회전하는 4개의 베어링을 연구하며 산출되었다. 또한 이 실험과정에서 일부 베어링이 고장이 났으며 데이터..