Skip to content

태그: AI

총 26개의 글이 있습니다.

LangchainOptions

Langchain의 Chain은 여러 LLM 호출이나 다른 유틸리티들을 연결하여 복잡한 작업을 수행할 수 있게 해주는 핵심 구성 요소이다. Chain 실행 옵션 early_stopping_method: Chain이 중간에 중단될 때 사용할 전략을 설정하는 옵션이다. "generate": 현재까지 생성된 결과를 반환한다. "force": 강제로 중단하고 빈 결과를 반환한다. from langchain.chains --1:403F53"LLMChain chain = LLMChain(...)result = chain.run( input="질문", early_stopping_method="generate") "generate" 방식은 부분적인 결과라도 활용할 수 있어 유용하다. "force" 방식

A postmortem of three recent issues 2025-09-17 글: 해커뉴스: 8월~9월 초 claude 모델의 성능 저하에 대한 포스트 모템 서버 부하로 인해 모델 품질을 줄인 것은 아니고, 여러 문제가 겹쳐서 생긴 현상이라고 함 모델을 어느 플랫폼에서 사용하냐에 따라 오류 발생률이 달랐다는 점이 개인적으로 신기함 (API, Bedrock, Vertex AI 등..) 컨텍스트 서버 라우팅 오류 sonnet 모델은 기본 200k token 크기의 컨텍스트를 제공하고, 8월

HNSW는 고차원 벡터 공간에서 빠른 근사 최근접 이웃 검색을 위한 그래프 기반 알고리즘이다. 다층 그래프: Small World 네트워크 이론을 기반으로 여러 층으로 구성된다. Layer 0 (최하단층): 모든 벡터가 포함된 완전한 그래프 상위 층들: 확률적으로 선택된 일부 벡터들만 포함 각 층은 독립적인 연결 구조를 가진다. 장점 대용량 데이터에서 빠른 탐색 속도를 제공한다. 적은 메모리로 높은 성능을 달성한다. 실시간으로 벡터를 추가할 수 있다. 단점 정확한 최근접 이웃을 보장하지 않는다. 벡터 삭제가 복잡하다. 인덱스 구성에 시간이 소요된다. 세부 동작 삽입: 새 벡터를 인덱스에 추가하는 과정 지수 분포를 사용하여 새 벡터의 최대 층 수를 결정한다. 최상위 층의 진입

참고 Continuous Thought Machine(CTM)은 생각한다는 행위를 계산 가능한 절차로 환원하기 위해 개발된 인공지능 아키텍처이다. 크게 Internal Ticks, MLM, SR 세 가지 개념으로 모델을 구성한다. 내부 사고 차원(Internal Ticks) CTM의 internal tick은 모델 내부에서 자율적으로 진행되는 사고 단계이다. 독립적

Curcuit Tracing

위 글의 이해를 위한 번역, 정리글입니다. Circuit Tracing: Revealing Computational Graphs in Language Models 딥러닝 모델은 수많은 계산 단위(인공 뉴런)의 작용으로 출력을 생성한다. 딥러닝 모델을 인간이 이해 가능한 언어로 설명하는 것은 바이너리 프로그램을 리버스 엔지니어링하는 것과 유사한 역추적이 필요하며, 이 분야에 대한 연구를 Mechanistic interpretability(MI)라고 부른다. Anthropic 팀은 이를 이해하기 위해 우선 모델이 계산에 사용하는 특징(feature

Prompt Engineering

Multi-head Attention Head는 하나의 어텐션 매커니즘을 의미, 입력 텍스트의 해석을 하나의 관점이 아닌 여러 관점에 집중 Head의 예시 문법적인 요소, 시제에 집중 Entity (사란, 장소, 물건 등)의 관계에 집중 문장 내에서 일어나는 환동에 집중 Word Rhyme(단어의 운율)의 집중 Query, Key, Value 벡터를 각각 h번 Linear projection으로 변환 Linear Projection(선형 투영)은 선형 대수학에서 나오는 개념, 여기서는 고차원의 벡터를 저차원으로 나눌 때 사용한다. Long context prompting tips 긴 문서나 입력을 프롬프트의 상단에 배치 (지시사항, 질문, 예시보다 더) 질문을 마지막에 배치하거나, 마지막

OpenAI에서 공개한 Whisper는 다양한 언어를 인식할 수 있는 범용 음성 인식 모델이다. 입력으로 오디오 데이터를 받아 텍스트로 변환한다. 하지만 기본 Whisper 모델은 속도가 느리고 리소스를 많이 사용하는 단점이 있다. 이를 개선하기 위한 프로젝트들이 다음과 같다. ⸻ CTranslate2 CTranslate2는 Facebook의 fairseq에서 영감을 받아 만들어진 변환기(Transformer) 모델을 위한 고성능 추론 엔진이다. ONNX 모델을 최적화된 형식으로 변환한 후, CPU나 GPU에서 빠르게 실행할 수 있도록 설계되었다. Whisper의 디코더 부분이 Transformer 기반이기 때문에, Whisper 모델의 디코딩 속도를 빠르게 만들기 위해 CTranslate2가 사

자연어처리

잠재 의미 분석(Latent Semantic Analysis, LSA) 잠재 의미 분석(Latent Semantic Analysis, LSA)은 자연어 처리 분야에서 문서와 단어 간의 숨겨진 의미 관계를 발견하기 위한 통계적 기법이다. 이는 주어진 문서 집합에서 단어들의 공동 발생 패턴을 분석하여, 단어와 문서 간의 잠재된 의미 구조를 파악하는 데 사용된다. LSA의 기본 개념 LSA는 다음과 같은 절차를 따른다: 문서-단어 행렬(DTM) 생성: 문서 집합에서 각 문서와 단어의 발생 빈도를 나타내는 행렬을 만든다. 특이값 분해(Singular Value Decomposition, SVD): DTM에 SVD를 적용하여 세 개의 행렬로 분해한다. 이를 통해 데이터의 차원을 축소하고 노이즈를 제거

embedding and chunking

Long-Context Embedding In general, it doesn’t harm retrieval accuracy to include as much text of your documents as you can to the input of your embedding model. However, long-context embedding models often focus on the beginning of documents, as they contain content like titles and introduction which are more important for judging relevance, but the models might miss content in the middle of the d

CNN이 나오기 이전, 이미지 인식은 2차원으로 된 이미지(채널까지 포함해서 3차원)를 1차원배열로 바꾼 뒤 FC(Fully Connected)신경망으로 학습시키는 방법이었다. 단순 FC 방식은 위와 같이 이미지의 형상을 고려하지 않고, raw data를 직접 처리하기 때문에 많은 양의 학습데이터가 필요하고 학습시간이 길어진다. 또한 이미지가 회전하거나 움직이면 새로운 입력으로 데이터를 처리해줘야 한다. 이미지의 특성을 이해하지 못하고 단순 1D 데이터로 보고 학습을하는것이 특징이다. 이러한 방법은 이미지 데이터를 평면화 시키는 과정에서 공간정보가 손실될 수밖에 없다. 즉, 신경망이 특징을 추출하고 학습하는데 있어 비효율적이고 정확도를 높이는데 한계가 있다. 이런 단점을 보완하여 이미지의 공간정보를 유

Drop-out은 서로 연결된 연결망(layer)에서 0부터 1 사이의 확률로 뉴런을 제거(drop)하는 기법이다. 예를 들어, 위의 그림 1 과 같이 drop-out rate가 0.5라고 가정하자. Drop-out 이전에 4개의 뉴런끼리 모두 연결되어 있는 전결합 계층(Fully Connected Layer)에서 4개의 뉴런 각각은 0.5의 확률로 제거될지 말지 랜덤하게 결정된다. 위의 예시에서는 2개가 제거된 것을 알 수 있다. 즉, 꺼지는 뉴런의 종류와 개수는 오로지 랜덤하게 drop-out rate에 따라 결정된다. Drop-out Rate는 하이퍼파라미터이며 일반적으로 0.5로 설정한다. 사용 목적 Drop-out은 어떤 특정한 설명변수 Feature만을 과도하게 집중하여 학습함으로

케라스 케라스는 파이썬으로 구현된 쉽고 간결한 딥러닝 라이브러리로, 내부적으로 텐서플로우Tensorflow, 티아노Theano,CNTK 등의 딥러닝 전용 엔진이 구동되지만 내부엔진을 알 필요 없이 직관적인 API로 쉽게 다층퍼셉트론 신경망 모델, 컨벌루션 신경망 모델, 순환 신경망 모델 등 다양한 구성을 할 수 있다. 케라스의 가장 핵심적인 데이터 구조는 바로 모델이다. 케라스에서 제공되는 시퀀스 모델을 사용하면 원하는 레이어를 쉽게 순차적으로 정의할 수 있고, 다중 출력과 같이 좀 더 복잡한 모델을 구성하려면 케라스 함수 API를 사용하면 된다. 케라스로 딥러닝 모델을 만들 때는 다음과 같은 순서로 작성한다. 과정설명데이터셋 전처리원본 데이

손실함수를 줄여나가면서 학습하는 방법은 여러가지가 있는데, 이를 최적화 하는 방법들을 Optimizer라고 부른다. 경사 하강법 경사하강법은 손실 함수또는 비용 함수라 불리는 목적 함수를 정의하고, 이 함수의 값이 최소화되는 파라미터를 찾는 방법이다. 손실 (loss) : 실제값과 모델로 예측한 값이 얼마나 차이가 나는가를 나타내는 값으로, 손실이 작을수록 예측값이 정확한 것이다.비용(cost, error)은 손실을 전체 데이터에 대해 구한 경우이며 비용을 함수로 나타낸 것을 손실 함수또는 비용 함수라고 한다. 함수의 최소값을 찾기 위해 임의의 위치에서 시작해서 기울기를 따라 조금씩 더 낮은 위치로 내려가며 극값에 이를 때까지 반복시킨다. 손실 함수는 인공지능의 파라미터를 통하여 나온 예측 값과 실제 값

RAG(Retrieval-Augmented Generation)는 대규모 언어 모델의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 절차이다. Advanced RAG 단순히 문서를 조회 -LLM 응답을 하는 Naive한 기본 RAG에서, 아래 방법들을 적용해 답변 품질을 개선할 수 있다. 메타데이터 활용 데이터에 대한 추가적인 정보를 제공하여 검색 결과의 정확도를 높인다. 고도화된 Chunking 전략 semantic chunking: 문맥적으로 관련된 내용을 하나의 청크로 묶는다. small to big: RAG에서 Chunk 를 retrieval 할때, 그 Chunk의 위와 아랫부분을 확장해서 같이 리턴하는 방법으로, 더 상세한 컨택

은닉층 안에 하나 이상의 순환 계층을 갖는 신경망 기존 신경망 구조: 모든 입력과 출력이 각각 독립적이라 가정하고, 시간에 따른 입출력 간의 관계를 고려되지 않았음 RNN은 현재 입력을 유추할 때 이전 결과를 반영하여 계산하기 때문에 시간적 순서를 가지는 Sequence 기반 데이터, 연속적인 시계열(time series) 데이터를 잘 다룸 시간 순서를 기반으로 데이터들의 상관관계를 파악해서 그를 기반으로 현재 및 과거 데이터를 통해서 미래에 발생될 값을 예측 활성화 함수로 탄젠트 하이퍼볼릭을 많이 사용함 Cell 안에 Unit이 여러개 들어가고, 각 Cell마다 은닉상태를 가짐 유형 영향을 주는 셀과 영향받는 셀의 관계에 따라 One-to-One, One-to-Many, Many-to-Many 등으로

Distance Metrics

Use the distance metric that matches the model that you’re using. Cosine Similarity The cosine similarity measures the angle between two vectors in a multi-dimensional space – with the idea that similar vectors point in a similar direction. Cosine similarity is commonly used in Natural Language Processing (NLP). It measures the similarity between documents regardless of the magnitude. Dot Product

Index-realated chians

Stuffing 모든 관련 데이터를 프롬프트에 context로 채워 넣어 모델에 전달 제일 심플하지만 데이터가 많으면 답변 품질이 낮아질 수 있음 Map Reduce 각 데이터 chunk에 대해 요약 등 초기 처리(map), 이후 초기출력들을 조합(reduce)해 최종적인 프롬프트를 실행 Refine 첫번째 데이터 청크에서 초기 프롬프트를 실행하여 출력 생성. 앞 단계 출력 + 다음 문서 조합하여 다시 출력 생성 Map Rerank 각 데이터 Chunk에 대해 초기 프롬프트를 실행하고 답변이 얼마나 확실한지에 대한 점수를 부여 점수에 기반하여 응답의 순위가 매겨 가장 높은 점수를 반환 참고

벡터 검색은 데이터의 의미를 기반으로 결과를 반환하는 검색 방법이다. 텍스트 일치를 찾는 기존 전체 텍스트 검색과 달리 벡터 검색은 다차원 공간에서 검색 쿼리에 가까운 벡터를 찾는다. 벡터가 쿼리에 가까울수록 의미가 더 유사하다. 벡터 검색을 통해 검색어와 데이터의 의미를 해석함으로써 검색자의 의도와 검색 컨텍스트를 고려하여 보다 관련성이 높은 결과를 검색할 수 있다. 벡터는 데이터를 여러 차원으로 나타내는 숫자 배열이다. 벡터는 텍스트, 이미지, 오디오, 구조화되지 않은 데이터까지 모든 종류의 데이터를 나타낼 수 있다. 의미적 유사성은 벡터 사이의 거리를 측정하여 결정된다. 과정 벡터 임베딩: vector embedding 데이터의 의미있는 특징을 벡터로 나타낸다. 유사도 점수 계산: similar

임베딩은 자연어의 통계적 패턴을 숫자 벡터로 바꾼 결과이다. 고려하는 정보 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 있다. 첫째는 문장에 어떤 단어가 많이 쓰였는지이고, 둘째는 단어가 어떤 순서로 등장하는지이며, 마지막은 문장에 어떤 단어가 같이 나타났는지와 관련한 정보다. 백오브워즈(bag of words) 가정 수학에서 bag이란 중복 원소를 허용한 집합을 뜻한다. 백오브워즈 가정에서는 어떤 단어가 많이 쓰였는지 정보를 중시하고, 단어의 등장 순서는 무시한다. 단어 빈도 또는 등장 여부를 그대로 임베딩을 쓰는 것은 문서의 주제를 반영하지 못 할 수도 있다는 단점이 있다. (e.g. 은, 는과 같은 조사는 문서의 주제와 상관 없이 자주 등장) 이러한 단점을 보환하기 위해 TF-IDF(Ter

선형회귀 : 최소제곱법 --1:403F53"tensorflow as tf--1:403F53"matplotlib.pyplot as plt--1:403F53"numpy as np X = [0, 0.5, 1.0, 1.5, 2.0, 2.5]Y = [0.3, 1.9, 2.4, 4.1, 6.8, 7.9] x_mean = sum(X)/len(X)y_mean = sum(Y)/len(Y) division = sum((y-y_mean)*(x-x_mean) for y, x in list(zip(Y,X)))divisor = sum((x-x_mean)2 for x in X) a = division / divisorb = y_mean - a * x_mean new_X = np.arange(0, 3, 0.05)new_Y = a *

mnist 알파벳 데이터를 식별하는 CNN 모델 예제이다. --1:403F53"tensorflow as tf--1:403F53"numpy as np --1:403F53"matplotlib.pylab as plt (train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data() plt.figure(figsize=(6,1)) for i in range(36): plt.subplot(3,12,i+1) plt.imshow(train_images[i], cmap="gray") plt.axis("off") plt.show() 28 * 28의 벡터 이미지 60000개, 채널은 1개train_images = tra

MNIST 숫자 판별

--1:403F53"tensorflow as tf--1:403F53"numpy as np --1:403F53"matplotlib.pylab as plt (train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data() plt.figure(figsize=(6,1)) for i in range(36): plt.subplot(3,12,i+1) plt.imshow(train_images[i], cmap="gray") plt.axis("off") plt.show()train_images = train_images.reshape((60000, 28*28))test_images = test_images.resha

배, 자동차, 비행기 분류하기

--1:403F53"numpy as np--1:403F53"tensorflow as tf x = np.array([[0,0], [1,0], [1,1], [0,0], [0,0], [0,1]]) 바퀴, 날개y = np.array([ [1,0,0], 배 [0,1,0], 자동차 [0,0,1], 비행기 [1,0,0], [1,0,0], [0,0,1]]) model = tf.keras.Sequential()model.add(tf.keras.layers.Dense(input_dim=2, units=10, activation='relu')) input_dim : 입력값 갯수model.add(tf.keras.layers.Dense(units=5, activation='relu')) units : 출력값

자연어처리

BERT는 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. 구글이 2018년 공개하였다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하였기 때문이다. 넓은 범위에 대해 학습한 모델을 기반으로 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 거치는 것을 파인 튜닝(Fine-tuning)이라고 한다. 스팸 메일 분류를 하고 싶다고 할때, 이미 위키피디아 등으로 사전 학습된 BERT 위에 분류를 위한 신경망을 한 층 추가한다. 이 경우, 비유하자면 B

퍼셉트론의 구조 입력값마다 다른 weight을 곱한 값을 모두 더하고 여기에 bias라고 불리는 값을 더한다. 더해진 총 합은 활성화 함수에 적용, 활성화 수준을 계산한 값이 출력된다. 여기서, 출력값과 목표 값이 다른 경우 Error를 통해 가중치를 업데이트한다. 결국 학습이라는 것은 이 가중치를 반복적으로 조정하면서 알맞은 가중치와 bias, 즉 학습 목표인 두 부류로 선형분리하기 위한 학습 벡터를 찾아내는 과정이라고 볼 수 있다. 단층 퍼셉트론의 구현 --1:403F53"numpy as np--1:403F53"tensorflow as tf def step_func(x): 계단함수 return (x >= 0) * 1 def sigmoid(x): return 1 / (1 + np.exp

활성화함수

--1:403F53"numpy as np--1:403F53"matplotlib.pyplot as plt 1. 계단 함수(Step function) def step(x): return np.array(x > 0, dtype=np.int)x = np.arange(-5.0, 5.0, 0.1) -5.0부터 5.0까지 0.1 간격 생성y = step(x)plt.title('Step Function')plt.plot(x,y)plt.show() 0, dtype=np.int)x = np.arange(-5.0, 5.0, 0.1) -5.0부터 5.0까지 0.1 간격 생성y = step(x)plt.title(&x27;Step Function&x27;)plt.plot(x,y)plt.show()"> 음수면 0,