![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/biJVPX/btqSsQLelwv/LOeYl1KFYIu3lzVMEZZQ7K/img.png)
csv 파일의 형식은 직관적이어서 알기 쉽습니다. 열(Column)으로 데이터의 속성을 정의하고, 그 하단에 행(Row)로써 해당하는 값을 채워넣습니다. 그에 비해 json 파일은 csv보다 처음 이해할 때 조금 난이도가 있는 편입니다. 하지만 대부분의 웹이나 Open API에서 데이터를 다룰 땐 여러모로 장점이 많아서 json을 쓰죠! 어쨌든 두 파일형식 모두 다 데이터 관리에 자주 쓰입니다. 그러다보니 종종 csv 파일을 받아보면 레코드가 json 형식으로 되어있는 경우가 있어요. 예전에 캐글에서 받아두었던 영화 관련 csv 파일을 엑셀로 열어봤습니다. 컬럼수가 적어서 얼핏 보면 단순해보이지만, cast와 crew를 보시면 많은 인원 정보를 json 형식으로 담고 있어요. 제일 중요한 정보가 저 두 ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/6d1N1/btqRqbcWcyL/bsrkuAeGKex8xrvJo2qUA0/img.png)
10월 20일부터 12월 22일까지, 약 2달간 스마일게이트 챌린지 과정을 진행했습니다. 그간 게임개발은 프로그래밍 위주로 참여해왔는데, 이번엔 기획 직군으로 신청했습니다. 간단히 말하면 약 2달간 진행되는 게임잼 행사였습니다. 체감상 처음엔 길어보였는데 아주 금방 지나갔네요...ㅎ 행사 개요는 스마일게이트 퓨처랩 홈페이지에서 확인할 수 있습니다. (궁금하시면 클릭) 후기 행사 2달간 매주 1번씩 현직자분들의 멘토링 세미나가 있었습니다. 주로 게임 개발 프로세스에 대한 내용이 많아서, 프로젝트 일정 계획을 세우거나, 회사 또는 팀으로 게임을 제작하면 어떤 방식으로 흘러가는지 참고하기 좋았습니다. 특이사항으로는, 이전까지는 대면으로 진행됐지만 올해는 코로나19 때문에 전면 비대면 행사였습니다. 그나마 행사..
코딩테스트 및 알고리즘 공부에 도움되는 사이트입니다. 유용한 자료가 보이면 조금씩 추가해두겠습니다. 1. 삼성 SW 역량 테스트 기출문제 문제집: 삼성 SW 역량 테스트 기출 문제 (baekjoon) www.acmicpc.net 2. 프로그래머스 고득점 키트 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr 3. 프로그래머스 SQL 고득점 키트 SQL 기초문법 복습에 좋습니다. 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/QiEo9/btqRrQrnsgd/7WiQqII2L0Nart0xkeLUp0/img.png)
지난 글에 이어서 작성합니다. pycaret에서 제공하는 기본 시각화 기능을 살펴보고, 최종 예측을 해보겠습니다. 3. 시각화 3-1. ROC 곡선과 AUC #둘 다 같은 의미의 코드 plot_model(model_cat) #plot_model(estimator = model_cat, plot = 'auc') 3-2. 오차 행렬 plot_model(estimator = model_cat, plot = 'confusion_matrix') 3-3. Feature Importance plot_model(estimator = model_cat, plot = 'feature') 4. 최종 예측 4-1. 테스트 데이터셋 불러오기 캐글에서 제공하는 타이타닉 데이터는 train과 test 두개로 나뉘어져 있습니다. t..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/IOs2n/btqQLlVkfoc/YWFsSzTKaB7FdoMTSqPLJ1/img.png)
종종 필요할 때가 있어서 데이터분석과 머신러닝을 공부했었는데, 예측모델을 만들 때 도대체 어떤 모델을 사용해야할지... 감이 안올 때가 많았습니다. 그러던 중에 pycaret이라는 매우 유용한 라이브러리 발견! 이 라이브러리는 코드 한줄만으로 여러 모델의 정확도를 한번에 알 수 있습니다. 튜닝, 시각화 등의 기능도 제공하기에 입문자가 여러가지 시도해보기 좋을 것 같습니다. 사용법도 익힐 겸, pycaret으로 간단히 타이타닉 생존자 예측 프로젝트를 진행해봤습니다. 1. 설치하기 pip install pycaret 가끔 설치 중에 멈출 때가 있었는데 그땐 엔터를 여러번 눌러보고, 에러가 뜨면 프롬프트창을 관리자 권한으로 실행하고 다시 받아보세요. 2. 데이터 전처리 타이타닉 데이터를 전처리 없이 그대로 입..