Kubeflow 2

Kubeflow에서 tf.Keras training

Kubeflow에서 Training을 하기 위해 쓰는 방법은 크게 2종류가 있다. 1. Kubeflow에서 Jupyter 를 사용하기 Kubeflow에서 Jupyter를 만들때, Jupyter에 사용할 jupyter server image를 선택하는 부분에서 tensorflow-cpu? gpu? 선택 부분이 있고, resource할당에 cpu, gpu 코어수를 어떻게 할당할지 정할 수 가 있다. 이 부분에서 GPU를 충분히 할당해주고 실행하면 EMR 클러스터 등에서 사용하듯이 분산학습도 수행 할 수 가 있다. 장점 : 쓰기 너무 쉽다.

Kubeflow 사용법에 대한 내가 보기 위한 정리

이게 중간 과정을 그때그때 올려야 하는데, 너무 띄엄띄엄 올려서 마지막으로 올렸던 내용이랑 지금 내가 진행하는 거랑 거리감이 너무 커져버렸다. (그 동안 Jira에 2명이 추가로 합류하게 되고, 처음부터 가르쳐 줘야 하는 친구들도 있고, 개인프로젝트 방향성 전환, 해야하는 작업의 난이도 상승으로 블로그 글 쓰는게 가장 뒤로 밀려나버렸다...) 지금 현황을 먼저 이야기 하면, Terraform으로 인프라를 만들었고, Kubernetes를 직접 master, worker 설치 스크립트를 짰다가, kubernetes의 cloud native함에 정신을 못차리고 EKS로 도망왔다. 이 위에 뭘 올릴까 정말 열심히 고민해 보다가 (웹서버나, 그라파나를 올려서 내가 일하는 거의 연장선을 갈 수 도 있고, k8s에는..