코세라 머신러닝 강의 https://www.coursera.org/learn/advanced-learning-algorithms
Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera
Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, certificates, Specializations, & MOOCs in data science
www.coursera.org
강의 내용을 이해한대로 정리를 해보았다.
이전 강의에 대한 내용은 아래 게시글에서 확인 가능하다.
2023.02.17 - [Coursera/02_ Advanced Learning Algorithms] - [Coursera] 01_ Neural networks intuition
01_Neural Network layer
- Neural network layer 구조를 살펴보자
- 입력으로 들어가는 X 벡터는 layer 0번, 3개의 유닛이 포함된 layer는 1번, output이 출력되는 layer는 2번이라고 순번을 매겨준다.
- layer 1번 구조부터 살펴보면, layer 0번에 해당하는 입력값인 X벡터를 입력으로 받는다. (4 by 1 벡터라고 가정함)
- layer 1번의 뉴런은 총 3개
- 세 개의 뉴런은 각각 약간의 로지스틱 회귀 단위 또는 로지스틱 회귀함수를 구현하고 있다.
- 첫번째 hidden unit이라는 것을 나타내기 위해 w_1, b_1로 나타낸다.
- w와 b가 하는 일은, x와 b_1이 있는 제품에서 w_1의 g인 활성화 값 a를 출력하는 것이다.
- layer 1번 output으로는 첫번째 뉴런임을 나타내기 위해 a_1로 보여짐.
- 세 개의 뉴런은 0.3, 0.7, 0.2를 출력하고 이 세 숫자의 벡터는 활성화 값 a의 벡터가 되며 이 벡터는 신경망의 최종 Layer로 전달된다.
- layer 2번의 구조를 살펴보자
- layer 1번과 동일하게 이전 레이어 출력값을 입력값으로 받아준다.
- layer 2번은 output 출력 전 layer이다.
- output은 스칼라 벡터로, 하나의 값으로 출력된다
- 출력 layer에는 하나의 뉴런만 있기 때문에 뉴런의 출력인 a_1을 a^[1]이 있는 제품에서 w_1에 적용된 시그모이드 함수 g()로 계산만 해주면 된다.
- 해당 예시에서는 출력 레이어에는 단일 뉴런만 있기 때문에 이 출력은 단지, 스칼라이고 벡터가 아닌 숫자이다.
- 마지막에 출력된 하나의 숫자에 대해서 0.5보다 크면 y_hat = 1로 예측할 수 있고, 0.5미만이면 y_hat = 0으로 예측해볼 수 있다.
- layer개수를 세아릴 때는 Input layer는 포함시키지 않는다.
그럼, 아래의 그림에서 layer는 몇개인가? 총 4개의 layer가 존재한다. - w and b are the parameters associated with neurons in Layer3 and that these activations are activations with Layer.
- 위 이미지에서 질문에 대한 답은?
02_forward_prop
- 하나의 layer에 25개의 units이 있다는 것은 무슨 의미일까?
-> 해당 layer에는 w와 b에 각 25개의 숫자가 있다는 의미이다. 즉, w 값이 1~25개, b값이 1~25개가 있다는 것이다. - 아래 그림에서 Image grid를 나타낸 예제를 확인해보면, 각 pixel의 숫자가 255에 가까울수록 검은색, 0에 가까울수록 흰색을 나타낸다. 그리고 64개의 Input Feature가 있다고 이해할 수 있다.
- Input으로 Image grid가 입력되고 Output layer를 거치고나면, 64개(8x8)개의 pixel 값이 "1"인 확률을 scalar 값으로 나타내준다.
- 신경망 아키텍처
=> 초기에 더 많은 hidden units이 있다가 output layer에 가까워질수록 줄어든다. (정방향 전파) - a^3 (Output) layer는 f(x)로 사용해서 함수로 나타내어 scalar 값을 출력하도록 할 수 있다.
반응형
'Study > Coursera' 카테고리의 다른 글
[Recommend] Content-based filtering (0) | 2023.05.06 |
---|---|
[Coursera] Advanced Learning Algorithms 수료증 취득! (0) | 2023.04.26 |
[Coursera] 01_ Neural networks intuition (0) | 2023.02.17 |
[Coursera] Machine Learning 첫번째 수료증 취득! (0) | 2023.02.12 |