1. 인코딩 (Encoding)
- 정의: 데이터를 모델이 이해할 수 있는 형식으로 변환하는 과정입니다.
- 설명: 범주형 변수를 수치형 데이터로 변환할 때 자주 사용됩니다. 예를 들어, 원-핫 인코딩은 각 카테고리를 벡터 형식으로 나타내는 방법입니다.
- 참고 링크: [인코딩의 이해](https://towardsdatascience.com/understanding-feature-engineering-part-2-categorical-data-f54324193e63)
2. 텍스트 임베딩 (Text Embedding)
- 정의: 텍스트 데이터를 벡터로 표현하여 모델 학습에 활용하는 기법입니다.
- 설명: 텍스트 임베딩은 단어 간 의미를 벡터 형태로 나타내며, 단어2벡터(Word2Vec), 글로브(GloVe) 등 다양한 기법이 있습니다. 텍스트 유사도 분석 및 문서 분류에 유용합니다.
- 참고 링크: [텍스트 임베딩 이해](https://machinelearningmastery.com/what-are-word-embeddings/)
3. 감정 분석 (Sentiment Analysis)
- 정의: 텍스트 데이터에서 감정을 분석하고 긍정, 부정 등을 예측하는 기법입니다.
- 설명: 감정 분석은 NLP의 한 분야로, 리뷰, 소셜 미디어 포스트 등에서 고객의 감정 상태를 분석하는 데 사용됩니다. 비즈니스 인텔리전스와 마케팅에서 인사이트를 얻는 데 유용합니다.
- 참고 링크: [감정 분석 개념](https://www.lexalytics.com/technology/sentiment-analysis)
4. 클러스터링 (Clustering)
- 정의: 데이터를 유사한 그룹으로 나누는 비지도학습 기법입니다.
- 설명: 클러스터링은 비슷한 데이터를 군집으로 묶어 패턴을 찾고 분석하는 데 사용됩니다. K-평균(K-Means)과 계층적 클러스터링이 대표적인 예입니다.
- 참고 링크: [클러스터링 이해하기](https://www.geeksforgeeks.org/clustering-in-machine-learning/)
5. 특징 공학 (Feature Engineering)
- 정의: 원시 데이터를 모델이 이해할 수 있는 형태로 변환하여 학습 성능을 향상시키는 과정입니다.
- 설명: 특징 공학은 데이터에서 중요한 속성을 추출하고 변환해 모델이 더 쉽게 학습할 수 있도록 하는 과정입니다. 이 과정에는 변수 변환, 결측값 처리, 변수를 생성하거나 조합하는 작업 등이 포함됩니다.
- 참고 링크: [특징 공학 소개](https://towardsdatascience.com/feature-engineering-for-machine-learning-3a5e293a5114)
6. 활성화 함수 (Activation Function)
- 정의: 신경망에서 각 뉴런의 출력을 결정하는 함수입니다.
- 설명: 활성화 함수는 신경망이 비선형 문제를 해결할 수 있도록 하는 역할을 합니다. Sigmoid, ReLU, Tanh 등이 대표적인 활성화 함수로, 각각의 함수는 특정한 데이터와 문제에 따라 다르게 적용됩니다.
- 참고 링크: [활성화 함수의 이해](https://machinelearningmastery.com/choose-an-activation-function-for-deep-learning/)
7. 편향 (Bias)
- 정의: 모델의 예측이 특정 방향으로 치우쳐진 상태입니다.
- 설명: 편향은 모델이 특정 패턴에 과도하게 치우치면서 데이터 전체의 일반성을 놓치는 문제를 일으킬 수 있습니다. 데이터 편향은 사회적 편향이나 불공평한 의사결정을 초래할 수 있어 윤리적 측면에서도 중요하게 다루어집니다.
- 참고 링크: [편향과 분산 설명](https://towardsdatascience.com/bias-variance-tradeoff-explained-3d8e5e3c5a5)
8. 드롭아웃 (Dropout)
- 정의: 신경망의 과적합을 방지하기 위해 무작위로 뉴런을 비활성화하는 기법입니다.
- 설명: 드롭아웃은 학습 과정에서 신경망의 일부 뉴런을 비활성화하여 학습을 방해함으로써 모델의 일반화 성능을 높입니다. 주로 과적합을 방지하고, 여러 특성에 균등하게 의존하도록 합니다.
- 참고 링크: [드롭아웃 이해하기](https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)
9. 그래디언트 소실 문제 (Vanishing Gradient Problem)
- 정의: 딥러닝 학습 시 기울기 값이 점점 작아져 가중치가 업데이트되지 않는 문제입니다.
- 설명: 그래디언트 소실 문제는 깊은 신경망에서 역전파 과정 중 기울기가 사라지면서 학습이 제대로 이루어지지 않는 현상입니다. 이를 해결하기 위해 ReLU 같은 활성화 함수가 사용되며, LSTM과 같은 순환 신경망 구조에서도 개선됩니다.
- 참고 링크: [그래디언트 소실 문제 해결](https://www.deeplearning.ai/ai-notes/initialization/)
10. 대조 학습 (Contrastive Learning)
- 정의: 유사한 데이터는 가까이, 다른 데이터는 멀리 배치하는 방식으로 학습하는 방법입니다.
- 설명: 대조 학습은 이미지, 텍스트 등의 비지도학습에서 유사성을 기반으로 특징을 학습하는 기법입니다. 주로 이미지 유사도, 얼굴 인식 등에서 활용됩니다.