에이전트 자가학습 — 과거 판단을 배워 전문가가 되다

신진형 · 에스엘파워 · 2026.06.18

직원은 퇴사하면 그동안 배운 게 0이 됩니다. 새 직원은 처음부터 다시 배웁니다. 이 구조를 깨려면 노하우가 사람 머릿속이 아니라 시스템에 쌓여야 했습니다. 에이전트가 과거 판단을 학습해 그 업무의 베테랑으로 자라는 것 — 이게 SL.AIMS를 만든 가장 깊은 동기였습니다. 이 글은 그 학습이 가능하려면 무엇을 먼저 박아 둬야 하는지의 기록입니다.

기억하는 창고가 아니라, 배우는 직원

기존 ERP는 데이터를 보관합니다. 거대한 창고입니다. 10년을 써도 첫날과 똑같이 일합니다. 더 똑똑해지지 않습니다. 우리가 만들려는 건 쓸수록 더 잘하는 시스템이었습니다. 차이는 의외로 한 가지에서 갈립니다.

기존 시스템도 “누가 언제 무엇을 바꿨다”는 흔적은 남깁니다. 그런데 그것만으로는 학습이 안 됩니다. 빠진 게 하나 있습니다 — **“왜 바꿨는가”**입니다. 누가 연차를 반려했다는 기록은 남지만, 왜 반려했는지(잔여 연차 부족? 성수기 집중? 결재선 오류?)는 남지 않습니다. 판단의 이유가 없으면, 그 판단에서 배울 수가 없습니다.

판단의 이유를 남기고, 그 이유를 다시 학습 재료로 쓰는 것. 이 한 끗이 “기록만 하는 시스템”과 “배우는 시스템”을 가릅니다.

	기록만 하는 시스템 (기존 ERP)	배우는 시스템
남기는 것	누가·언제·무엇을 바꿨나	+ 왜 바꿨나, 사람이 어떻게 평가했나
10년 후	첫날과 똑같이 일함	쓸수록 더 잘함
노하우 위치	직원의 머릿속	시스템 안
퇴사 시	노하우가 함께 떠남	판단이 시스템에 남음

학습 고리 — 네 단계가 매일 돈다

자가학습은 마법이 아니라 단순한 고리의 반복입니다. 네 단계가 매일 조금씩 돕니다.

단계	무슨 일이 일어나는가
① AI가 일한다	데이터를 보고 판단해 초안·결정을 만든다 (예: 결재자 추천, 병목 감지)
② 사람이 검사한다	승인하거나, 틀린 곳을 고친다 (HITL)
③ 결과가 기록된다	”AI가 뭐라 했고, 사람이 왜 고쳤는지”가 정답지로 저장된다
④ 다음엔 더 잘한다	쌓인 정답지로 재학습 → 같은 실수를 반복하지 않는다

네 단계가 시계방향으로 돕니다. 결정적 고리는 ②→③입니다 — 사람이 승인·반려하는 그 행위 자체가 정답지를 만듭니다. 그래서 HITL은 안전장치인 동시에 학습 엔진입니다.

핵심은 ③의 피드백입니다. 사람이 AI의 판단을 **“맞음 / 틀림 / 부분적으로 맞음”**으로 평가하고, 틀렸다면 왜 틀렸는지를 함께 남깁니다. 이 피드백이 다음 학습의 1차 입력이 됩니다. HITL이 단지 안전장치가 아니라 학습 엔진이기도 한 이유가 여기 있습니다 — 사람이 승인·반려하는 그 행위 자체가 정답지를 만듭니다. 안전을 위해 둔 사람의 검토가, 공짜로 학습 데이터를 생산합니다.

먼저 골격을 박는다 — 의사결정 기록 구조

학습 엔진을 돌리려면 먼저 먹일 재료가 있어야 합니다. 그래서 두 가지를 미리 깔았습니다.

의사결정 기록 장치 — 에이전트가 내린 모든 결정을, 무엇을 판단했고·얼마나 확신했고·사람이 어떻게 평가했는지까지 남기는 전용 기록 구조.
업무 데이터의 학습용 칸 — 거의 모든 표에 “이 기록을 AI가 제안했나 / 얼마나 확신했나 / 사람이 덮어썼나 / 왜 덮어썼나”를 미리 박았습니다.

의사결정 로그가 남기는 칸 — 기존 ERP와 갈리는 지점

의사결정 기록 구조를 일반화해 그리면 대략 이런 모양입니다(필드 이름은 설명을 위한 예시입니다).

의사결정 로그
  결정 유형        : 무엇에 대한 판단인가 (예: 결재자 추천)
  입력 요약        : 무엇을 보고 판단했나
  결정 결과        : AI가 내놓은 결론
  판단 근거        : 왜 그렇게 판단했나  ← 기존 ERP엔 없던 칸
  확신도           : 0.0 ~ 1.0
  사람의 검토 필요  : 기본값 = 필요함
  ── 사람이 검사한 뒤 채워지는 칸 ──
  인간 피드백       : correct | wrong | partial
  학습된 패턴       : 이 결정에서 뽑아낸 규칙
  결과 점수        : 이 결정이 옳았나  -1 ~ +1

여기서 기존 ERP와 갈리는 칸은 판단 근거·인간 피드백·학습된 패턴입니다. 보통의 시스템은 “결정 결과”까지만 남깁니다. 자가학습이 가능하려면 “왜 그 결정을 했고, 사람이 그걸 어떻게 평가했는가”까지 남아야 합니다. 이 세 칸이 정답지의 핵심 재료입니다.

지금 어디까지 왔나 — 정직한 구분

과장 없이 말하면, 지금은 이 골격을 정확히 박는 단계입니다. 비전과 구현을 정직하게 갈라 적으면 이렇습니다.

동작을 확인한 것	아직 설계 단계인 것
결재자 추천·병목 감지·서술형 SLA 진단 같은 초기 에이전트는 실제로 동작을 확인. 개인 업무 영역에서는 AI가 할 일을 제안하고 사람이 검토하면 그 판단이 결정 기록으로 남도록 배선.	쌓인 정답지로 모델이 스스로 더 똑똑해지는 재학습 엔진은 아직 설계·골격 단계. “1,000건이 쌓이면 패턴을 뽑아 다음을 예측한다” 같은 수치는 목표이지, 지금 매일 돌고 있는 동작이 아님.

그러나 기록 구조가 없으면 나중에 학습시킬 재료 자체가 없기 때문에, 골격을 먼저 박는 순서가 옳았습니다. 여기에 학습 엔진을 붙이는 것이 다음 목표입니다.

이 글은 SL.AIMS를 만들며 겪은 현장 회고 중 하나입니다. 전체 그림은 〈사례연구: SL.AIMS〉에 있습니다.