현재 계획 중에 있는 AI 관련 기능 개발은 아래와 같이 진행될 예정이다.
- MVP AI 기능
- 데이터 전처리
- 기본 AI Agent
- API 서버 전환
- 1차 API 서버 최적화
- 2차 AI 기능 고도화
- 데이터 전처리 -> LLM for Data Preprocessing or ChatGPT 파인튜닝
- 기본 AI Agent -> Multi AI Agent
- API 서버 전환 -> Fail Over, Exception Handling, Web socket
구현 계획 선정 동기
위와 같은 구현 계획을 선정하는 데에 있어서 한 가지의 현실과 그로 인한 수요가 크게 작용했다.
먼저 현실이다.
흔히 말하는 SaaS(Software as a Service)에서의 AI 개발은 현재 불가능에 가깝다. 또한 AI 개발이라 했을 때 나와야 하는 결과물이 무엇이냐고 물어봤을 때 그 대답이 전혀 일치하지 않는다. 대표적으로 AI 개발자를 뽑는다는 회사의 포지션 설명을 보면 바로 확인할 수 있다. 어디서는 모델 개발 어디서는 파인튜닝 물론 회사의 상황에 따라 다를 수 있으나 그 범주가 너무 크다. 물론 바이오, 의료 혹은 Robotics, 추천 시스템과 같이 데이터가 풍부하고 방향성 또한 확실하나 그 외의 AI 서비스라 했을 때 방향성도 모호하고 실제로 구현하는 게 비효율적이다.
그래서 현실적으로 SaaS단계의 AI 그 중에서도 LLM의 경우 기존의 LLM의 OpenAPI를 호출하여 사용하고 서비스에 맞춰 정확성을 높이고 사용하는 환경과 구조를 효율적으로 만드는 게 핵심이라고 판단했다. 그리고 이게 지금 현실적인 LLM을 활용하는 개발자이자 AI Engineer 혹은 LLM Application 개발이라고 할 수 있다고 생각한다. 그리고 실제 많은 회사에서 이런 일을 담당하는 개발자를 채용하고 있다.
그래서 이번 '온 세상의 주식이야'에서는 아래의 목표를 바탕으로 구현 계획을 수립하게 됐다.
- 서비스 의도에 맞춘 정확한 결과 생성과 생성 방식에 대한 데이터를 기반으로한 기초적인 고민
- Fine-tuning, Data Preprocessing, Multi Agent LLM
- AI System의 API 서버에 대한 안정적인 서버 구현
- 비동기 처리, Fail Over, Pydantic
이 두가지를 목표로 구현 계획을 수립했다. 그래서 먼저 기본적인 LLM Application을 만들기 위해 전처리 된 데이트를 기반으로 가장 유사한 주식 종목을 반환하는 ChatPromptTemplate을 활용한 AI Agent를 만들었다.(물론 생성결과와 이어지는 Function Call 없기에 Agent라 하기는 어려우나 추후 Multi Agent로의 변환을 위해 편의상 Agent라 지칭하겠다.)
문제상황 1: 너무 많은 데이터
적은 데이터로 인해 생성 결과가 나빠지는 경우도 있지만 데이터가 많다고 해서 생성 결과가 뛰어나지 않고 생성이 되더라도 비효율적일 수 있다. 심지어 최악의 경우에는 안 좋은 결과를 생성하기도 한다. 그래서 개인적으로 핵심은 생성하고자 하는 결과 혹은 LLM에게 요청할 내용과 관련된 적합한 내용과 LLM의 판단에 도움이 되지 않는 정보들을 전처리 해줘야 한다. 그래서 이전 글에서 언급했듯이 1차적으로 Frontend에서 요청이 들어올 때 html tag와 같은 정보들을 정재 했으나 여전히 무의미한 정보가 많았다.
그래서 추가적인 데이터 전처리를 진행하기로 결정했고 현재는 MVP단계이기 때문에 먼저 가장 기본적인 Text Cleaning을 진행했다. LLM이 요청을 수행하기 위해 유의미 하지 않은 정보들 예를 들어 줄 바꿈, 이메일주소, 특수문자들을 수정하였다. 추후에는 이와 관련하여 고도화를 진행할 예정이다. 어떻게 할 건지는 비밀이다.(😉)
Text Cleaning에 대한 기준은 아래의 글을 참고 하였고 현재는 MVP단계이기 때문에 유관정보에 대한 판단보다는 길이와 Token 수를 기준으로 평가를 진행했다. Token으로 선정한 이유는 TPM 이슈를 예방하기 위해서다.(다른 글들도 있으나 링크를 잃어버렸다.)
Data Collection and Preprocessing for Large Language Models
Data Collection and Preprocessing for LLMs [Updated]
Boost Your LLM Success! Discover the Essential Things to Consider for Data Collection and Preprocessing. Don't Miss Out!
www.labellerr.com
먼저 전처리 결과는 아래와 같이 나온다.
| Before | After |
| KR 탐색 건너뛰기 만들기 11:02 / 23:04 • 길거리에서 갑자기 싸우는 커플 BLACKPINK 지수 vs BMI 지수! 월드 클래스일수록 이 악물고 도발하는 토크쇼 | 딱대EP27 지수 빠더너스 BDNS 구독자 182만명 구독중 2.8만 공유 오프라인 저장 조회수 89만회 2일 전 인기 급상승 동영상 #38 0:00 힐링 토크쇼 딱대 0:07 오늘의 딱맞는 게스트 : 블랙핑크 지수 님 3:15 블랙핑크 레전드 히트곡 메들리 … ...더보기 모두 빠더너스 BDNS 제공 관련 콘텐츠 추천 최근에 업로드된 동영상 감상한 동영상 학습 24:28 지금 재생 중 [#동네스타K3] ※고막주의※ 퀸카 아이들 미연 X 민니 X 우기👑 이번엔 훌라후프 갈기고 감ㅋㅋㅋ | EP.6 (여자)아이들 디글 :Diggle 조회수 163만회 1년 전 Shorts 로제 열애설 종결 인터뷰 조회수 97만회 넷플릭스 폰트를 싹 다 바꾼 20대 한국인 직원 조회수 263만회 일단 비주얼이 킬링임 조회수 173만회 아이브 유진이 헬스장에서 30분만에 나온 이유 #틈만나면 #유재석 #유연석 #안유진 #아이브 #IVE #재밌는영상 #웃긴영상 #shorts 조회수 66만회 교포 같은 가비 VS 동포 같은 문상훈 조회수 28만회 은근 주변에 흔한 무한도전 과다복용 조회수 670만회 여친이 블랙핑크 지수인 말년병장 박정민의 전역날 '좀비사태'가 벌어지는 개불쌍한ㅋㅋ 근데 지수가 각성해서 군대로 남친 구하러 간다고?ㅋㅋ쩌는데? [뉴토피아] 고몽 조회수 128만회 3일 전 새 동영상 Kendrick Lamar's Apple Music Super Bowl Halftime Show NFL 조회수 2767만회 1일 전 새 동영상 aespa - Supernova / THE FIRST TAKE THE FIRST TAKE 조회수 1561만회 5개월 전 |
kr 탐색 건너뛰기 만들기 1102 2304 길거리에서 갑자기 싸우는 커플 blackpink 지수 vs bmi 지수! 월드 클래스일수록 이 악물고 도발하는 토크쇼 딱대ep27 지수 빠더너스 bdns 구독자 182만명 구독중 2.8만 공유 오프라인 저장 조회수 89만회 2일 전 인기 급상승 동영상 38 000 힐링 토크쇼 딱대 007 오늘의 딱맞는 게스트 블랙핑크 지수 님 315 블랙핑크 레전드 히트곡 메들리 ...더보기 모두 빠더너스 bdns 제공 관련 콘텐츠 추천 최근에 업로드된 동영상 감상한 동영상 학습 2428 지금 재생 중 동네스타k3 고막주의 퀸카 아이들 미연 x 민니 x 우기 이번엔 훌라후프 갈기고 감ㅋㅋㅋ ep.6 여자아이들 디글 diggle 조회수 163만회 1년 전 shorts 로제 열애설 종결 인터뷰 조회수 97만회 넷플릭스 폰트를 싹 다 바꾼 20대 한국인 직원 조회수 263만회 일단 비주얼이 킬링임 조회수 173만회 아이브 유진이 헬스장에서 30분만에 나온 이유 틈만나면 유재석 유연석 안유진 아이브 ive 재밌는영상 웃긴영상 shorts 조회수 66만회 교포 같은 가비 vs 동포 같은 문상훈 조회수 28만회 은근 주변에 흔한 무한도전 과다복용 조회수 670만회 여친이 블랙핑크 지수인 말년병장 박정민의 전역날 좀비사태가 벌어지는 개불쌍한ㅋㅋ 근데 지수가 각성해서 군대로 남친 구하러 간다고?ㅋㅋ쩌는데? 뉴토피아 고몽 조회수 128만회 3일 전 새 동영상 kendrick lamars apple music super bowl halftime show nfl 조회수 2767만회 1일 전 새 동영상 aespa - supernova the first take the first take 조회수 1561만회 5개월 전 |
물론 이부분도 Frontend에서 어느 정도 구현할 수 있겠으나 추후의 계획이 있기 때문에 Backend 서버에서 진행했다. 그리고 총 5 종류의 글에서 Text Cleaning을 진행했을 때 아래와 같은 결과가 나왔다.

평균적으로 길이의 경우 185.2정도 감소하였고 Token의 경우 226 토큰 정도 감소하였다. 그리고 이를 기반으로 LLM Agent를 Test 해보고 API로 전환하여 MVP AI API 서버 구현을 마무리했다.
다음으로는 1차 MVP AI API Server 최적화에 대해 정리할 예정이다. 구현된 코드는 아래 링크에서 확인할 수 잇다.
GitHub - jwywoo/SAE-AI-Feature-DEV
Contribute to jwywoo/SAE-AI-Feature-DEV development by creating an account on GitHub.
github.com
'AI > Projects' 카테고리의 다른 글
| Project Joing: StoryBoard Generator(콘티 생성기) Flux.1 Dev Fine-tuning: LoRa & PEFT (0) | 2025.04.25 |
|---|---|
| Project Joing: StoryBoard Generator(콘티 생성기) - 이미지 생성 모델 선정 3 (0) | 2025.04.16 |
| Project: 온 세상이 주식이야 - Chrome Extension 개발 Intro & MVP (1) | 2025.02.12 |
| Project: 온 세상이 주식이야 - 구현계획 (2) | 2025.02.11 |
| Project: 온 세상이 주식이야 - Intro (0) | 2025.02.10 |