에이전트 자가학습 — 과거 판단을 배워 전문가가 되다
직원은 퇴사하면 그동안 배운 게 0이 됩니다. 새 직원은 처음부터 다시 배웁니다. 이 구조를 깨려면 노하우가 사람 머릿속이 아니라 시스템에 쌓여야 했습니다. 에이전트가 과거 판단을 학습해 그 업무의 베테랑으로 자라는 것 — 이게 SL.AIMS를 만든 가장 깊은 동기였습니다. 이 글은 그 학습이 가능하려면 무엇을 먼저 박아 둬야 하는지의 기록입니다.
기억하는 창고가 아니라, 배우는 직원
섹션 제목: “기억하는 창고가 아니라, 배우는 직원”기존 ERP는 데이터를 보관합니다. 거대한 창고입니다. 10년을 써도 첫날과 똑같이 일합니다. 더 똑똑해지지 않습니다. 우리가 만들려는 건 쓸수록 더 잘하는 시스템이었습니다. 차이는 의외로 한 가지에서 갈립니다.
기존 시스템도 “누가 언제 무엇을 바꿨다”는 흔적은 남깁니다. 그런데 그것만으로는 학습이 안 됩니다. 빠진 게 하나 있습니다 — **“왜 바꿨는가”**입니다. 누가 연차를 반려했다는 기록은 남지만, 왜 반려했는지(잔여 연차 부족? 성수기 집중? 결재선 오류?)는 남지 않습니다. 판단의 이유가 없으면, 그 판단에서 배울 수가 없습니다.
판단의 이유를 남기고, 그 이유를 다시 학습 재료로 쓰는 것. 이 한 끗이 “기록만 하는 시스템”과 “배우는 시스템”을 가릅니다.
| 기록만 하는 시스템 (기존 ERP) | 배우는 시스템 | |
|---|---|---|
| 남기는 것 | 누가·언제·무엇을 바꿨나 | + 왜 바꿨나, 사람이 어떻게 평가했나 |
| 10년 후 | 첫날과 똑같이 일함 | 쓸수록 더 잘함 |
| 노하우 위치 | 직원의 머릿속 | 시스템 안 |
| 퇴사 시 | 노하우가 함께 떠남 | 판단이 시스템에 남음 |
학습 고리 — 네 단계가 매일 돈다
섹션 제목: “학습 고리 — 네 단계가 매일 돈다”자가학습은 마법이 아니라 단순한 고리의 반복입니다. 네 단계가 매일 조금씩 돕니다.
| 단계 | 무슨 일이 일어나는가 |
|---|---|
| ① AI가 일한다 | 데이터를 보고 판단해 초안·결정을 만든다 (예: 결재자 추천, 병목 감지) |
| ② 사람이 검사한다 | 승인하거나, 틀린 곳을 고친다 (HITL) |
| ③ 결과가 기록된다 | ”AI가 뭐라 했고, 사람이 왜 고쳤는지”가 정답지로 저장된다 |
| ④ 다음엔 더 잘한다 | 쌓인 정답지로 재학습 → 같은 실수를 반복하지 않는다 |
핵심은 ③의 피드백입니다. 사람이 AI의 판단을 **“맞음 / 틀림 / 부분적으로 맞음”**으로 평가하고, 틀렸다면 왜 틀렸는지를 함께 남깁니다. 이 피드백이 다음 학습의 1차 입력이 됩니다. HITL이 단지 안전장치가 아니라 학습 엔진이기도 한 이유가 여기 있습니다 — 사람이 승인·반려하는 그 행위 자체가 정답지를 만듭니다. 안전을 위해 둔 사람의 검토가, 공짜로 학습 데이터를 생산합니다.
먼저 골격을 박는다 — 의사결정 기록 구조
섹션 제목: “먼저 골격을 박는다 — 의사결정 기록 구조”학습 엔진을 돌리려면 먼저 먹일 재료가 있어야 합니다. 그래서 두 가지를 미리 깔았습니다.
- 의사결정 기록 장치 — 에이전트가 내린 모든 결정을, 무엇을 판단했고·얼마나 확신했고·사람이 어떻게 평가했는지까지 남기는 전용 기록 구조.
- 업무 데이터의 학습용 칸 — 거의 모든 표에 “이 기록을 AI가 제안했나 / 얼마나 확신했나 / 사람이 덮어썼나 / 왜 덮어썼나”를 미리 박았습니다.
의사결정 로그가 남기는 칸 — 기존 ERP와 갈리는 지점
섹션 제목: “의사결정 로그가 남기는 칸 — 기존 ERP와 갈리는 지점”의사결정 기록 구조를 일반화해 그리면 대략 이런 모양입니다(필드 이름은 설명을 위한 예시입니다).
의사결정 로그 결정 유형 : 무엇에 대한 판단인가 (예: 결재자 추천) 입력 요약 : 무엇을 보고 판단했나 결정 결과 : AI가 내놓은 결론 판단 근거 : 왜 그렇게 판단했나 ← 기존 ERP엔 없던 칸 확신도 : 0.0 ~ 1.0 사람의 검토 필요 : 기본값 = 필요함 ── 사람이 검사한 뒤 채워지는 칸 ── 인간 피드백 : correct | wrong | partial 학습된 패턴 : 이 결정에서 뽑아낸 규칙 결과 점수 : 이 결정이 옳았나 -1 ~ +1여기서 기존 ERP와 갈리는 칸은 판단 근거·인간 피드백·학습된 패턴입니다. 보통의 시스템은 “결정 결과”까지만 남깁니다. 자가학습이 가능하려면 “왜 그 결정을 했고, 사람이 그걸 어떻게 평가했는가”까지 남아야 합니다. 이 세 칸이 정답지의 핵심 재료입니다.
지금 어디까지 왔나 — 정직한 구분
섹션 제목: “지금 어디까지 왔나 — 정직한 구분”과장 없이 말하면, 지금은 이 골격을 정확히 박는 단계입니다. 비전과 구현을 정직하게 갈라 적으면 이렇습니다.
| 동작을 확인한 것 | 아직 설계 단계인 것 |
|---|---|
| 결재자 추천·병목 감지·서술형 SLA 진단 같은 초기 에이전트는 실제로 동작을 확인. 개인 업무 영역에서는 AI가 할 일을 제안하고 사람이 검토하면 그 판단이 결정 기록으로 남도록 배선. | 쌓인 정답지로 모델이 스스로 더 똑똑해지는 재학습 엔진은 아직 설계·골격 단계. “1,000건이 쌓이면 패턴을 뽑아 다음을 예측한다” 같은 수치는 목표이지, 지금 매일 돌고 있는 동작이 아님. |
그러나 기록 구조가 없으면 나중에 학습시킬 재료 자체가 없기 때문에, 골격을 먼저 박는 순서가 옳았습니다. 여기에 학습 엔진을 붙이는 것이 다음 목표입니다.
이 글은 SL.AIMS를 만들며 겪은 현장 회고 중 하나입니다. 전체 그림은 〈사례연구: SL.AIMS〉에 있습니다.