| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- 스터디노트
- pandas filter
- 머신러닝
- SQL
- 통계학
- 순열
- INSERT
- MacOS
- python
- 기계학습
- Machine Learning
- 자료구조
- 파이썬
- maplotlib
- 등비수열
- pandas
- 재귀함수
- 리스트
- plt
- matplotlib
- 문제풀이
- barh
- pandas 메소드
- DataFrame
- tree.fit
- numpy
- 조합
- 등차수열
- Slicing
- Folium
Archives
- Today
- Total
목록train_test_split (1)
코딩하는 타코야끼
1. 그런데 이 결과가 맞을까? 모델이 추론한 결과가 맞다는 것을 어떻게 보증할 수 있을까? 모델을 최종 서비스에 적용하기 전에 모델의 성능을 확인하는 작업이 필요하다. 📍머신러닝 프로세스 🌓 훈련데이터셋과 평가(테스트)데이터 분할 위의 예는 우리가 만든 모델이 성능이 좋은 모델인지 나쁜 모델인지 알 수 없다. 전체 데이터 셋을 두개의 데이터셋으로 나눠 하나는 모델을 훈련할 때 사용하고 다른 하나는 그 모델을 평가할 때 사용한다. 보통 훈련데이터와 테스트데이터의 비율은 8:2 또는 7:3 정도로 나누는데 데이터셋이 충분하다면 6:4까지도 나눈다. 💡 데이터셋 분할시 주의 분류 문제의 경우 각 클래스(분류대상)가 같은 비율로 나뉘어야 한다. 🌓 scikit-learn의 train_test_split( ) ..
[T.I.L] : Today I Learned/Machine Learning
2023. 5. 28. 02:45