머신러닝

똑똑한 인공지능 뒤에 진땀나는 노동 있더라 - 데이터 레이블링

2021-02-08T14:10:38+00:00

https://n.news.naver.com/mnews/article/308/0000028280?sid=102

"바운딩 입문은 ‘동물’ 바운딩이다. 바운딩 하나당 20포인트(20원)를 지급한다. 한 사진 안에 동물이 4마리 있으면 각각 바운딩을 한다. 그러면 80원이다. 클릭, 드래그, 더블클릭만 하면 되는 일이라 간단할 줄 알았는데, 예상보다 쉽지 않았다. 동물을 바운딩할 때 이미지 상하좌우에 여백이 남지 않도록 세밀하게 작업해야 한다. 그러지 않으면 검수 과정에서 ‘반려’가 떠 재작업을 해야 한다."

"이미지 바운딩 다음은 ‘텍스트 태깅’ 실습이다. 서비스 약관이나 법조문 옆에 질문 문항이 있다. 답에 해당하는 문구를 마우스로 긁으면(태깅) 된다. 질문 난이도에 따라 건당 20원, 40원씩이다. 이런 데이터는 검색엔진 소프트웨어 개발에 사용된다. 퀴즈처럼 쉽게 풀 줄 알았는데, 약관·법조문의 문장을 꼼꼼히 읽어야 했다. 대충 읽어서는 ‘태깅’하기가 어려웠다."

지금 딥러닝은 대부분 지도학습으로 이루어져 있습니다. 이를 위해서는 반드시 사람이 작성한 정답 라벨이 있어야 합니다. 현재 딥러닝을 탄생시킨 이미지넷 데이터도 마찬가지입니다. 전세계 수많은 사람들이 크라우드소싱으로 사진의 라벨을 달았다고 합니다.

요즘은 점점 지도학습을 벗어나려는 추세입니다. 이미 자연어처리에서는 사전훈련 모델을 만드는데 자기지도학습을 주로 사용합니다. 앞의 문장과 이어지는 다음 단어를 예측하는 경우 라벨을 자동으로 생성할 수 있습니다. 이밖에도 다양한 자기지도 방법이 계속 개발되고 있습니다.

하지만 아직은 사람의 노력이 반드시 필요합니다. 만약 기계가 우리의 도움없이 스스로 학습하게 되는 날이 온다면 어떻게 될까요. 그때는 레이 커즈와일이 말한 특이점이 멀지 않을 듯 합니다.

결정 트리, 랜덤 포레스트, 그래디언트 부스팅 설명

2020-10-20T16:48:22+00:00

결정 트리(Decision Tree)는 대표적인 머신러닝 기법입니다. 각 특징을 조건으로 구분하여 트리 모양으로 분기 후 정답을 맞춥니다. 트리를 만들기 위해서는 정보 획득(Information Gain)을 계산해야 합니다. 어떤 특징을 어느 부분에서 구분해야 데이터가 가장 잘 나누어지는지 판단합니다. 정보 획득 방법에는 엔트로피나 지니 계수가 대표적입니다.

이런 트리 하나만으로는 정확도가 그리 높지 않습니다. 그래서 여러 개의 트리를 조합하는 앙상블을 적용합니다. 앙상블 방식은 크게 배깅(Bagging)과 부스팅(Boosting)이 있습니다. 배깅은 여러개의 분류기를 만들고 그 결과를 취합하여(가방에 모아서) 가장 높은 항목을 선택합니다. 부스팅은 하나의 트리를 가지고 지속적으로 성능을 높이는(부스팅) 방법입니다.

보통 결정 트리를 기반으로 앙상블을 많이 하는 편입니다. 배깅은 랜덤 포레스트(Random Forest), 부스팅은 그래디언트 부스팅(Gradient Boosting)이 유명합니다. 캐글에서 많이 쓰이는 XGBoost는 그래디언트 부스팅의 단점을 보완한 모델입니다.

< 의사결정나무(Decision Tree) >
- https://ratsgo.github.io/machine%20learning/2017/03/26/tree/

< Random Forest >
- https://dailyheumsi.tistory.com/114

< 그래디언트 부스트(Gradient Boost) >
- https://bkshin.tistory.com/…/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB…

유튜브와 넷플릭스의 추천 알고리즘

2020-05-08T03:29:37+00:00

https://m.blog.naver.com/with_msip/221870532849

"유튜브의 최고 상품 담당자(CPO) 닐 모한(Neal Mohan)은 2019년 3월 뉴욕타임즈와의 인터뷰에서 ‘유튜브 이용자들의 시청 시간 70%가 추천 알고리즘에 의한 결과이며, 알고리즘의 도입으로 총 비디오 시청 시간이 20배 이상 증가했다.’고 밝혔습니다. 넷플릭스 또한 매출의 75%가 추천 시스템에 의해 발생한다고 자체 평가를 통해 밝혔습니다."

상품의 개수가 늘어날수록 추천 알고리즘의 중요성도 점점 커집니다. 머신러닝이 처음 주목을 받게 된 것도 아마존의 추천 시스템이었습니다. 콘텐츠 기반 필터링과 협업 필터링에 대해서 간단히 정리한 글입니다.

구글 Teachable Machine 머신러닝 무료 서비스 공개

2019-11-22T20:38:12+00:00

https://happywww.tistory.com/26

구글이 새롭게 공개한 Teachable Machine을 소개한 글입니다. 사진이나 소리, 포즈 등을 간단하게 머신러닝으로 학습할 수 있습니다. 웹캠으로 직접 찍거나, 파일을 업로드할 수도 있습니다. AutoML처럼 클라우드에서 처리되지 않고, 로컬 브라우저에서 학습이 수행됩니다.

아마 GPU를 쓸 수는 없는 것 같은데요. 제 컴퓨터에서는 파일을 읽고 처리하는데 상당히 느린 편이었습니다. 학습한 모델을 Tensorflow.js로 웹에서 활용하는 것도 가능합니다. 다만 외부에서 사용하려면 코딩 스킬이 많이 필요합니다. 학생들에게 머신러닝이 무엇인지 교육용으로 보여주기 좋을 것 같습니다.

Classification 모델 평가 기준 - Accuracy / Precision / Recall

2019-08-26T20:32:41+00:00

https://brunch.co.kr/@chris-song/54

머신러닝의 평가 기준에 대해서 잘 설명한 글입니다. 모델을 평가할 때 보통 정확도(accuracy)를 많이 사용합니다. 데이터의 전체 개수에서 맞게 판단한 개수의 비율입니다. 예를 들어, 100개 중 99개가 일치한다면 99%의 정확도입니다.

하지만 데이터의 클래스가 한쪽으로 편중되어 있을 경우 문제가 발생합니다. 100개 중 1개가 암이고 99개가 정상인 데이터가 있습니다. 다음과 같은 2개의 모델이 있다고 생각해보겠습니다.

< 모델A >
- 99개 정상 데이터 : 모두 맞힘
- 1개 암 데이터 : 틀림
- 정확도 : 99%

< 모델B >
- 99개 정상 데이터 : 98개 맞힘/1개 틀림
- 1개 암 데이터 : 맞힘
- 정확도 : 99%

같은 99%의 정확도이지만 암 데이터를 맞힌 모델B가 더 뛰어나다고 볼 수 있습니다. 이렇게 정확도로 판단하기 어려운 상황이 많이 발생합니다. 그럴 경우 정밀도(precision)나 검출율(recall) 같은 다른 평가 방법을 적용하는 것이 좋습니다.

머신러닝의 역사

2019-08-10T16:19:18+00:00

https://www.samsungsds.com/global/ko/support/insights/1207951_2284.html

과거 인공지능의 주류는 사람이 직접 모든 것을 설계하는 방식이었습니다. 엄밀히 말해 실제로는 기계의 지능이 아닙니다. 단지 사람의 지능을 기계에 집어넣은 것뿐입니다.

그후 머신러닝이 등장하며 점점 주목을 받기 시작했습니다. 물론 모델 자체는 사람이 작성하지만 학습의 주체는 기계입니다. 데이터를 통해 스스로 규칙을 발견하기 때문에, 비로소 기계의 지능이라고 부를 수 있습니다.

머신러닝에는 그 종류가 매우 다양합니다. 딥러닝 역시 머신러닝의 한 방법입니다. 이 글에서는 베이즈 분류기, 신경망, 디시전 트리, SVM, 부스팅, 랜덤 포레스트 등을 간략하게 설명하고 있습니다.

넘파이와 데이터 표현 - A Visual Intro to NumPy and Data Representation

2019-07-11T16:30:04+00:00

https://jalammar.github.io/visual-numpy/

유명한 블로거인 Jay Alammar의 새로운 글입니다. 파이썬의 대표적인 라이브러리인 NumPy로 벡터와 행렬을 어떻게 사용하지는 보여주고 있습니다. 특히 그림으로 설명하기 때문에 정말 쉽게 이해가 가능합니다.

뒷부분에서는 시계열, 이미지, 텍스트 등을 저장하는 방법을 다루고 있습니다. 이런 데이터 표현은 머신러닝에서 가장 기본이 되는 기술입니다. 이번 기회에 완벽하게 이해하시기를 추천드립니다.

머신러닝으로 IDE 자동완성을 추천하는 인공지능 - Kite

2019-01-30T21:00:19+00:00

https://kite.com/

보통 비주얼 스튜디오나 파이참 같은 IDE에는 자동완성 기능이 있습니다. 하지만 클래스의 메소드를 알려주는 정도라 크게 유용하지는 않습니다.

Kite는 github에 있는 코드들을 머신러닝으로 학습하여 보다 다양한 자동완성 명령어들을 보여줍니다. 특히 바로 위에 있는 변수명을 자동으로 파악하여 함수의 파라미터까지 같이 추천합니다. 현재는 파이썬만 가능하지만 앞으로 다양한 언어를 지원할 예정입니다.

물론 인공지능이 혼자 프로그래밍을 하는 것은 아직도 먼 미래의 일입니다. 하지만 이런 기술이 점점 발전하면 스스로 진화하는 기계가 나올지도 모르겠습니다.

머신러닝 경진대회 - 카카오 아레나

2018-11-07T18:04:04+00:00

https://arena.kakao.com/

'카카오 아레나'라고 캐글과 비슷한 머신러닝 경진대회가 생겼습니다. 첫번째 주제는 쇼핑몰 상품 카테고리 맞추기입니다. 상품명, 브랜드명, 제조사, 이미지 정보 등이 입력되면 다음과 같은 카테고리를 분류합니다.

대분류: 음료/생수/커피
중분류: 차/티백
소분류: 차 선물세트
세분류: 없음

이미지 정보는 사진 자체가 아니라 ResNet50 모델의 출력값입니다. 사진 정보뿐만 아니라 자연어처리를 통해 의미를 분석하는게 중요할 것 같습니다.

그런데 다운로드하는 데이터 크기만 450G라 하네요^^; 학습시간도 엄청나게 필요할테니 개인차원에서는 조금 힘들수도 있겠습니다. 총 상금 3,000만원이 걸려있으니 관심있는 분들은 지원해보세요~

빅데이터, 더 나은 데이터

2018-06-27T21:06:57+00:00

빅데이터와 머신러닝의 장점과 단점에 대해서 알려주는 테드 영상입니다. 여러가지 예를 들면서 알려주기 때문에 정말 쉽게 이해할 수 있습니다. 데이터가 왜 중요한지, 그리고 기계학습을 통해 어떻게 유용한 정보를 얻어내는지 설명하고 있습니다.

유튜브의 완벽한 피드

2018-06-24T16:03:44+00:00

https://medium.com/@nottora2/youtube-feed-f0554e90f88d

"지난 몇 년 동안 유저의 시청 패턴을 확인하고 새로운 것을 추천하기까지 여러 날이 걸렸습니다. 때문에 실시간 인기 급상승 중인 비디오를 찾아내는 것도 어려웠습니다. 토드 보프레는 이를 개선하기 위해 많은 노력을 기울였고, 이제는 며칠이 아닌 몇 시간 또는 몇 분만 기다리면 유저의 행태가 정확하게 파악되어 추천으로 이어집니다."

"구글 브레인의 본격적인 통합 이후, 사용자의 동영상 시청 시간의 70% 이상이 유튜브 추천 알고리즘을 통해 발생하고 있습니다."

현재 유튜브는 카카오톡, 네이버, 페이스북을 넘어 사용 시간 1위를 기록하고 있습니다. 특히 10대들에게는 상상을 초월하는 인기를 얻고 있는데요. 여기에는 개인에게 맞는 동영상을 보여주는 추천 알고리즘이 가장 큰 역할을 했다고 합니다.

저도 유튜브의 추천 영상을 보고 놀랄때가 많았습니다. 특히 검색 후 거의 즉시 반영되는 속도가 인상적입니다. 단순히 협업 필터링만 사용한 것은 아닌 듯 한데 정확한 알고리즘이 궁금하네요.

선형회귀분석을 통한 머신러닝의 기본 개념 이해

2018-06-14T18:44:59+00:00

http://bcho.tistory.com/m/1139

머신러닝의 가장 기본이 되는 방법 중 하나가 선형 회귀(linear regression)입니다. 회귀라는 말이 약간 어려울 수 있는데 돌아오다, 복귀하다란 뜻입니다. 데이터를 반복적으로 관찰하면 어떤 패턴으로 회귀한다는 것을 의미합니다.

선형 회귀는 이 패턴이 직선의 모습을 하고 있는데 'y = wx + b'라는 1차 방정식으로 표현됩니다. 예를 들어, 거리에 따른 택시요금 데이터가 있을때 이를 사용하여 방정식의 w와 b값을 구합니다. 그러면 새로운 거리인 x가 주어졌을때 택시요금 y를 추정할 수 있습니다.

선형 회귀를 구하는 방법은 첫번째로 최소제곱법을 들 수 있습니다. 유명한 수학자인 가우스가 1795년 발견하였는데 특정 공식을 사용하여 w와 b를 계산합니다.

두번째 방법은 경사하강법을 이용한 학습 알고리즘입니다. 예측값이 y'고 실제값이 y라면 오차인 (y' - y)^2을 더하여 비용함수(cost function)를 만듭니다. 이는 w와 b의 2차 함수의 U자 모양 그래프로 나타낼 수 있는데 각각을 편미분 하여 기울기를 구하면 파라미터가 어느 방향으로 이동해야 오차를 줄일 수 있는지 알 수 있습니다.

이렇게 '데이터 -> 오차 -> 비용함수 -> 경사하강법 학습'이 머신러닝의 공통적인 프로세스입니다.

영화 추천 파이썬 예제

2018-03-16T11:22:19+00:00

http://yumere.tistory.com/70?category=430507

http://yumere.tistory.com/72?category=430507

집단지성 프로그래밍이라는 책에 나온 예제를 소개한 글입니다. 협업 필터링 알고리즘을 사용하여 영화를 추천하는 간단한 프로그램을 보여주고 있습니다. 넷플릭스나 아마존에서 구현된 추천 시스템이 어떤 원리로 만들어졌는지 이해하는데 도움이 될 것입니다.

머신러닝 용어집 by Google

2018-03-16T00:46:35+00:00

https://developers.google.com/machine-learning/glossary/

구글에서 저 링크에 친절하게 머신러닝 용어들을 이것저것 정리해 놓았군요.

구글 머신러닝 단기집중과정

2018-03-01T22:37:24+00:00

https://developers.google.com/machine-learning/crash-course/

구글에서 사내교육에 사용되었던 머신러닝 교육과정을 공개하였습니다.

동영상 강의도 있는데 인공지능으로 한국어 자동 더빙이 되어있는게 신기하네요.