'python' 태그의 글 목록

[국비지원무료교육][빅데이터 개발자 과정][머신러닝] 파이썬- 일곱 번째 수업: 결정 트리(2)

- 본 글은 스마트 인재개발원 서포터즈 활동으로 작성한 글입니다 지난 게시글 결정트리 이론에 이어서 실습 데이터 코드 정리를 올린다. 주피터 노트북 실습이다 보니 수업 자체가 정리가 잘 되어 있는 편이라, 업로드가 상대적으로 편한 것 같다. 그래서 굳이 코드 블럭으로 바꿔서 올리는 중 ㅎㅎ 보기도 좋고 이 실습은 내장 데이터인 mushroom.csv 를 이용하여, 식용버섯과 독 버섯을 구분해보는 실습이다. decision tree 를 사용하는 것 말고는 이전에 한 다른 모델과 거의 같은 절차를 밟는다. 그래서 그런지 수업 마지막에는 과대적합 제어 코드와 교차 검증 적용을 해보는 형태로 진행 되었다. 아래에 코드를 순서대로 첨부해놓았다. . . . 그럼 이제 진지하게 학습을 노잼 시작해보자... # 문제정..

Python/MachineLearning 2022. 3. 22. 09:24

[국비지원무료교육][빅데이터 개발자 과정][머신러닝] 파이썬- 다섯 번째 수업: iris 데이터 분석 실습 풀이

- 본 글은 스마트 인재개발원 서포터즈 활동으로 작성한 글입니다 iris 모델 선택 및 하이퍼 파라미터 튜닝 학습 평가 반복문 작성 grid Search knn train_test_ split() 함수 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 6(횟수 int 21억 2**32) # 모델 선택 및 하이퍼 파라미터 튜닝 # 모델 선택 및 하이퍼 파라미터 튜닝 ## train test 분할 ### X (문제) , y(정답) 을 넣으면 X_train, X_test, y_train, y_test로 만듦..

Python 2022. 3. 16. 00:12

[국비지원무료교육][머신러닝] 파이썬- 머신러닝 네 번째 수업: 과(대)적합, 과소적합, 일반화, KNN

1교시- 복습, qna 2교시 -일반화 / 과(대)적합/ 과소적합 일반화: 훈련 세트로 학습한 모델이 테스트 세트에 대해 정확히 예측하도록 하는것 가장 적절한 결과: " 일반화가 잘 되었다. " 테스트 세트가 높은 것. -> 일반화 성능이 최대화 되는 것 과(대)적합: 공을 설명하는데 축구공 케이스만 가지고 설명 농구공은 공이 아닌 것으로 판단해버림 너무 상세하고 복잡한 모델링 훈련 데이터에만 과도하게 정확하게 작동함 훈련세트에 너무 맞추어져 있어서 테스트 세트에서는 오히려 성능이 저하됨 과소적합: 둥근 것은 다 공이라고 설명 원, 바퀴 등등 모두 공이 되어버려서 판단을 할 수 없는 상태 모델링은 너무 간단하게 하여 성능이 제대로 나오지 않음. 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트 ..

Python 2022. 3. 10. 23:36

[국비지원무료교육][머신러닝] 파이썬- 머신러닝 세 번째 수업: 모델 선택, 학습, 평가

시각화 데이터에서 이상치, 결측치 수정하기 각각의 데이터를 직접 지정해서 잘못된 라벨 변경하기 알고리즘을 이용하여 이상치, 결측치 수정하기( 약 20시간 뒤 ) 훈련과 평가로 데이터를 나누는 이유 모델에게 학습(문제데이터, 정답데이터) 모델은 규칙을 찾는다 > 모델이 얼마나 정확한 규칙을 찾았는지는 모름 모델에게 예측(새로운데이터) > 잘 예측한건지 잘 못예측한건지 모름 훈련데이터 / 평가데이터를 나누는 이유 모델이 얼마나 규칙을 잘 찾았는지 확인하기 위함 X(문제) , y(정답) X_train(훈련용 문제) , y_train(훈련용 정답) , X_test(평가용 문제) , y_test(평가용 정답) 훈련용 데이터는 모델에게 학습을 시켜서 모델이 규칙을 찾는 용도로 사용 평가용 데이터중 X_test를 머..

Python 2022. 3. 10. 23:27

[국비지원무료교육][머신러닝] 파이썬- 머신러닝 두 번째 수업: 비지도 학습 개념, bmi-500 data, pandas와 pyplot으로 시각화 하기

- 본 글은 스마트 인재개발원 서포터즈 활동으로 작성한 글입니다 (딱딱 노잼... ) 2022.03.07(월) 수업 내용 정리 데이터 파이썬 코드 2022.03.07(월) 수업 내용 정리 - 머신러닝의 종류 - 지도학습(Supervised Learning) : 명시적인 답이 주어진 상태 (예시- 미스터리 사인) - 분류(Clasification): 미리 정의된 여러 정답 중 하나를 예측하는 것 ( 혈액형) - 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것 - 속성 값(문제)을 입력, 클래스 값(답, 클래스 레이블)을 출력으로 하는 모델 - 붓꽃(iris)의 세 품종 중 하나로 분류, 암 분류 - 이진 분류(둘 중 하나를 예측- 생/사 예측), 다중 분류(혈액형 분류) 등이 있음 - 회귀( Reg..

Python 2022. 3. 8. 00:57

pandas 기능 정리(1)

import pandas as pd series1 = pd.Series([1,2,3,4,5]) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 # 1. series 연산, 추가, 삭제 population /1000000 # series 연산 : value 에만 영향을 줌 (사칙연산 가능) population - population2 # 시리즈 끼리의 연산 # 2. series인덱싱 population[1] population['부산']..

Python 2021. 12. 30. 23:52

파이썬 list 와 Numpy 배열, 자주쓰는 함수 요약

# 추가 : insert(index , 값) 와 append(값) # 삭제 : remove(값) ,// 삭제 키워드: del list[1] # 정렬 : sort(), sort(reverse()=True), reverse() # 찾기 종류 : index() 와 count() 와 pop() 와 len() # 포함 여부True/False : in , not in # python 리스트를 numpy 배열에 넣음: arr = np.array(list1)arr에서 쓰는 확인 함수(저장안됨) # 행열 크기: .shape // # 전체요소 개수: .size // # 배열 차원: ndim # reshape(5[행],10[열]) // # 데이터타입: .dtype // # 데이터 타입 변환 : arrx.astype('int..

Python 2021. 12. 29. 23:53

start211120

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

추가 정보

인기글

최신글

페이징

티스토리툴바