Skip to content
총 23개의 글이 있습니다.
Multi-head Attention
Head는 하나의 어텐션 매커니즘을 의미, 입력 텍스트의 해석을 하나의 관점이 아닌 여러 관점에 집중
Head의 예시
문법적인 요소, 시제에 집중
Entity (사란, 장소, 물건 등)의 관계에 집중
문장 내에서 일어나는 환동에 집중
Word Rhyme(단어의 운율)의 집중
Query, Key, Value 벡터를 각각 h번 Linear projection으로 변환
Linear Projection(선형 투영)은 선형 대수학에서 나오는 개념, 여기서는 고차원의 벡터를 저차원으로 나눌 때 사용한다.
Long context prompting tips
긴 문서나 입력을 프롬프트의 상단에 배치 (지시사항, 질문, 예시보다 더)
질문을 마지막에 배치하거나, 마지막 선형회귀 : 최소제곱법
--1:403F53"tensorflow as tf--1:403F53"matplotlib.pyplot as plt--1:403F53"numpy as np
X = [0, 0.5, 1.0, 1.5, 2.0, 2.5]Y = [0.3, 1.9, 2.4, 4.1, 6.8, 7.9]
x_mean = sum(X)/len(X)y_mean = sum(Y)/len(Y)
division = sum((y-y_mean)*(x-x_mean) for y, x in list(zip(Y,X)))divisor = sum((x-x_mean)2 for x in X)
a = division / divisorb = y_mean - a * x_mean
new_X = np.arange(0, 3, 0.05)new_Y = a * --1:403F53"numpy as np--1:403F53"tensorflow as tf
x = np.array([[0,0], [1,0], [1,1], [0,0], [0,0], [0,1]]) 바퀴, 날개y = np.array([ [1,0,0], 배 [0,1,0], 자동차 [0,0,1], 비행기 [1,0,0], [1,0,0], [0,0,1]])
model = tf.keras.Sequential()model.add(tf.keras.layers.Dense(input_dim=2, units=10, activation='relu')) input_dim : 입력값 갯수model.add(tf.keras.layers.Dense(units=5, activation='relu')) units : 출력값