본문 바로가기

Python

Python 교육 1일차 프로그래밍 언어의 특징 1. 인터프리터 2. 문법 3. 개발툴 Data / 함수 / 객체 - 파이썬은 모든 것이 객체이다 - Data의 자료형 > List : 데이터의 중간 결과 저장(임시 저장), 분석 결과물 저장 용도 > Tuple : 메인 함수에 여러 개의 인자를 넣을 때 (*Tuple 형식으로) key 없이 value만 모아서 쓴 것이 튜플 > Set : (Lookup table) key만 모아둔 것. > Dict : key/value로 존재. key는 고유한 단어로 존재하며 value는 key가 의미하는 내용. Dict = Set(key) + Tuple(Value) Temp(dict) = List - 객체(Class의 Instance) > int, float 이런 것들은 다 원형 class가 있..
Python PDF extract tool 정리 언어의 한계상 대부분이 그렇듯 영어는 인식률이 높지만 한글은 아직 발전해야 할 부분이 많다. 1. OCR_SPACE def ocr_space(filename, overlay=False, api_key='', language='eng'): payload = {'isOverlayRequired': overlay, 'apikey': api_key, 'language': language, } with open(filename, 'rb') as f: r = requests.post('https://api.ocr.space/parse/image', files={filename: f}, data=payload, ) return r.content.decode() 서비스는 웹에서 돌아가고 API를 통해 사용할 수 있다...
Table Detection using Deep Learning 따라하기 원문 : https://blog.goodaudience.com/table-detection-using-deep-learning-7182918d778 Table Detection using Deep Learning For a specific task I had to solve I recently came across some interesting paper: blog.goodaudience.com 생전 해본적도 없는 OCR과 Deep Learning을 하게 되었다. 시키는거 해야하는 찌랭이 연구원이기 때문에 얌전히 po구글 검색wer하다가 어떻게 해도 답이 안나오길래 일단 튜토리얼을 진행하기로 했다. 지금 현재 가장 시급한 테이블 인식 부분의 예시가 있어 스터디 겸 해본다. 모태가 되는 논문 : https..
가상환경에서 tesseract 실행하기 자꾸 MARVEL의 Tesseract가 생각나지만 tesseract는 구글이 개발한 OCR Engine이다. 프로젝트 때문에 사용해야 하는데 python 환경에서 사용하려면 다음과 같은 라이브러리를 설치해야한다. import pytesseract 짧은 코드를 작성하여 실행해본다. from PIL import Image import pytesseract import argparse import cv2 import os ap = argparse.ArgumentParser() ap.add_argument('-i', '--image', required=True, help="path to input image to be OCR'd") ap.add_argument('-p', '--preprocess', type=s..
왜 machine learning에서는 Normal Distributions를 사용할까? 나는 통계에 전혀 지식이 없고 수학과도 거리가 먼 사람이다. 공부를 하면서 슬금슬금 나타나는 Normal Distibution의 정체가 궁금해졌다. 도대체 왜 정규분포를 사용하는 것일까? 이것은 통계의 유구한 역사에서 기원하는데 대부분의 자연 현상을 설명해주기 때문이다. 14살 소녀들의 키를 조사하여 분포도를 그려보자. 놀랍게도 평균을 중앙값으로 가지고 이와 대칭되는 분포도가 그려진다. 우리가 접할 수 있는 다른 자연 데이터들도 이와 비슷한 값을 갖는다. Machine Learning에서 사용하는 데이터들은 결정론적인 부분과 무작위적인 부분으로 이루어져 있으며 데이터의 무작위적인 부분은 정규 분포를 가지고 있다. 이러한 현상을 중심 극한 정리(central limit theorem)이라고 한다. 동일한 ..
Tensorflow 기반 딥러닝 핵심과 활용 AI 개요 머신러닝의 동작 원리 머신 러닝의 구현 방법 및 활용 딥 러닝의 구현 방법 및 활용 1. AI 개요 1) AI 개념 인간의 지능을 컴퓨터나 시스템 등으로 만든 것 또는 만들 수 있는 방법론이나 실현 가능성 등을 연구하는 기술 또는 과학 인공지능은 다양한 컴퓨터 과학 기술의 조합을 통해 사물을 더욱 똑똑하게 만드는 과학 기술을 일컫는다 Symbolic AI 룰을 기반으로 작동되는 AI(1950s~1980s) 1980년대 expert system(전문가 시스템) Machine Learning 1990s Statistics vs. Machine Learning (이론적 vs. 실험적) Deep Learning Learning representations from data 딥러닝은 뉴럴네트워크를 이용..
TensorFlow 교육 - 2일차 1. TensorFlow Example (초급) # -*- coding: utf-8 -*- import tensorflow as tf ............. #hello ='Hello, TensorFlow!!' #print(hello) hello = tf.constant('Hello, TensorFlow!!') print(hello) Out : Tensor("Const_1:0", shape=(), dtype=string) ........ sess = tf.Session() print(hello.eval(session=sess)) Out : b'Hello, TensorFlow!!' sess.run(hello) Out: b'Hello, TensorFlow!!' tf.constant : 변수 생성 sess ..