콘텐츠로 이동

Part 2. AI의 본질 — 기계는 무엇이 달라졌는가

Part 1에서 문제(판단이 사람 머릿속에 있다)와 방향(질문을 동사로 바꾼다)을 잡았다. 그 동사를 실제로 수행할 주체가 AI다. 그런데 30년 ERP를 만든 사람일수록 “AI가 기존 프로그램과 무엇이 다른지” 손에 잡히지 않는다. 이 부는 그 본질을 네 단계로 짚는다.

4장. 계산기 vs 신입사원 — 기존 SW와 무엇이 다른가

섹션 제목: “4장. 계산기 vs 신입사원 — 기존 SW와 무엇이 다른가”

핵심 질문: “파이썬 코드 한 줄 안에 인공지능이 있는 것도 아닌데, AI는 도대체 무엇이 다른가?”

차이는 처리 속도가 아니라 두 축에 있다. 입력의 종류모르는 상황에서의 행동 방식.

전통 소프트웨어는 고성능 계산기다. 정형 데이터(숫자·코드값·정해진 필드)만 처리하고, 규칙이 코드에 미리 적혀 있어야 한다. if 재고 < 안전재고 then 발주처럼. 규칙에 없는 상황이 오면 멈춘다. 결정론적이라 같은 입력에 항상 같은 출력을 준다. 정확하지만 융통성이 없다 — 10년을 써도 첫날과 똑같다.

AI(LLM)는 배우는 신입사원이다. 비정형 정보 — 이메일, 회의록, 도면 설명, CAN 로그, 클레임 문장 — 를 ‘1차 시민’으로 다룬다. 확률론적이라 같은 질문에 다른 답을 줄 수 있다. 모호한 지시에도 ‘아마 이런 뜻이겠지’ 하고 초안을 만든다. AI가 틀리는 것은 설계 결함이 아니라 본질이다. 이 사실을 받아들이는 것이 안전 설계(13장)의 출발점이다.

구분고성능 계산기(전통 SW)배우는 신입사원(AI/LLM)
주 입력정형 데이터비정형 + 정형
결정 방식결정론 — 같은 입력 같은 답확률론 — 같은 질문 다른 답 가능
모르는 상황멈춤/오류추정해서 답함(틀릴 수 있음)
강점정확·재현성맥락 이해·유연성
우리 회사 예출퇴근·급여 계산거래처 메일에서 발주 의도 추출

워크드 예시 — 거래처 메일 한 통

섹션 제목: “워크드 예시 — 거래처 메일 한 통”

거래처 메일: “지난번 그 모델 200개, 단가는 좀 봐주시고 다음 달 말까지요.” 계산기형 시스템은 이 문장을 처리하지 못한다(정형 필드가 없으므로). 신입사원형 AI는 해석한다: 품목=‘지난번 그 모델’(직전 거래 이력에서 추정), 수량=200, 가격=‘협상 요청’, 납기=‘다음 달 말일’. AI는 멈추지 않고 ‘지난번 모델’을 거래 이력에서 조회하는 도구를 호출해 특정한다(이것이 Part 3의 Tool Use다).

한 장 요약 — 전통 SW는 정형·결정론의 계산기, AI는 비정형·확률론의 신입사원. AI가 가끔 틀리는 것은 본질이며, 그래서 역할을 나눠 쓰고 검토 장치를 둔다.

5장. LLM·추론 모델은 어떻게 작동하는가

섹션 제목: “5장. LLM·추론 모델은 어떻게 작동하는가”

핵심 질문: AI는 어떻게 한 번도 안 본 질문에 그럴듯한 답을 만들어내는가? 그리고 왜 가끔 자신 있게 틀리는가?

LLM은 인터넷 규모의 텍스트로 “이 문장 다음에 올 단어는 무엇일까”를 수없이 맞히도록 훈련된다. 그 과정에서 문법·상식·코드 패턴·업무 문서 구조까지 통계적으로 체득한다. 비유하면 휴대폰 키보드의 ‘다음 단어 추천’을 수천억 배 정밀하게 만든 것이다. 그 정밀함이 임계점을 넘으면 ‘이해처럼 보이는 행동’이 창발한다.

핵심 한계도 여기서 나온다. LLM은 ‘그럴듯한 문장’과 ‘참인 문장’을 구분하지 못한다. 사실 검증 능력이 없고 확률론이라, 자신 있게 틀린 답(환각)을 만들 수 있다. 이것이 13장 환각 방어의 출발점이다.

추론 모델은 곧바로 답하지 않고 “조건 정리 → 경우 분리 → 계산 → 결론”의 사고 단계를 내부적으로 거치는 변종이다. 복합 의사결정에 강하지만 느리고 비싸다. 단순 분류에 추론 모델을 쓰는 것은 택배 한 개를 5톤 트럭으로 나르는 격이다.

워크드 예시 — 모델 선택의 비용

섹션 제목: “워크드 예시 — 모델 선택의 비용”

‘거래처 메일 분류’(하루 수백 건)에 추론 모델을 쓰면 비용이 폭증하고 느려진다. 분류는 단순하므로 빠른 일반 모델로 충분하다. 반대로 ‘한 로봇 고객사의 셀 200개 긴급 조달 시나리오 비교’는 다단계 추론이 필요하므로 추론 모델이 맞다. 모델 선택은 작업 난이도에 맞춰야 하며, 이 라우팅은 14장의 ‘비용 가드/모델 라우터’로 자동화한다.

한 장 요약 — LLM은 ‘다음 단어 예측’으로 학습된 패턴 기계라 사실 검증 능력이 없다. 추론 모델은 복합 의사결정에 강하나 느리고 비싸다. 작업 난이도에 맞춰 모델을 선택한다.

6장. 동결 모델 + 회사 전용 캐비닛 — ‘똑똑해진다’의 정확한 정의

섹션 제목: “6장. 동결 모델 + 회사 전용 캐비닛 — ‘똑똑해진다’의 정확한 정의”

핵심 질문: “쓸수록 똑똑해진다? 그러면 처음엔 멍청하다는 뜻인가? 우리 데이터로 모델을 다시 학습시키는 건가?”

둘 다 아니다. 모델은 첫날부터 끝날까지 동일하게 똑똑하다. 처음에 멍청한 게 아니라 ‘일반적’이다. 변하는 것은 모델 옆의 캐비닛이다. 자기학습 ≠ 모델 파인튜닝이며, 모델 가중치는 변하지 않는다. 5년차 직원이 신입보다 잘하는 이유가 IQ가 올라서가 아니라 회사 노하우가 쌓여서이듯, 에이전트도 “쓸수록 회사 맥락을 더 많이 보유하게 된다”가 정확한 의미다.

그 캐비닛은 네 개의 저장소로 동시에 자란다.

저장소인간 기억역할
SKILL.md절차 기억반복 작업 절차서를 에이전트가 스스로 작성·갱신 (예: “BMS CAN 로그 분석 절차”, “KC 인증 신청 12단계”)
MEMORY.md의미 기억회사 사실을 사실 단위로 누적, 매 대화에 자동 주입 (예: “모회사는 코스닥 상장사”, “이 고객사 담당자는 기술 이슈에 민감”)
세션 DB(FTS5)일화 기억모든 대화·도구 호출·결과를 풀텍스트 검색 가능하게 저장
User Model사용자 모델의사결정 패턴·선호·리스크 허용도 누적

자기학습 루프는 5단계로 돈다 — 실행 → 자기평가 → (비자명한 성공이면) SKILL.md로 추출 → (새 실패를 만나면) 스스로 patch → 재발 시 자동 로드. 가장 중요한 것은 4단계다. 사람이 만든 매뉴얼은 정적이지만, 에이전트의 SKILL.md는 새 실패를 만날 때마다 스스로 갱신한다. 사내 매뉴얼이 늘 늦게 갱신되던 문제가 구조적으로 사라진다.

토큰 폭발은 **점진적 공개(Progressive Disclosure)**로 막는다. 평소엔 목차(스킬 이름·설명)만 컨텍스트에 올리고, 진짜 필요한 순간에만 해당 SKILL.md를 펼친다. 스킬이 1만 개여도 컨텍스트는 터지지 않는다.

워크드 예시 — SKILL.md 한 장이 태어나는 순간

섹션 제목: “워크드 예시 — SKILL.md 한 장이 태어나는 순간”

에이전트가 BMS CAN 로그 수만 프레임을 분석하라는 요청을 받는다. 여러 번의 도구 호출과 시행착오 끝에 성공한다. 작업 후 에이전트가 스스로 판단한다: ‘이거 다음에 또 나올 패턴인가?’ → 그렇다 → SKILL.md를 직접 쓴다(이름·When to Use·Procedure·Pitfalls). 다음에 비슷한 로그가 오면 이 스킬을 자동으로 꺼내 쓴다. 신입에게 한 번 가르치면, 그 신입이 스스로 매뉴얼을 써서 후임에게 영원히 전수하는 구조다.

한 장 요약 — 모델은 동결된 채 SKILL·MEMORY·세션DB·User Model이라는 캐비닛이 쌓이는 것이 ‘똑똑해진다’의 정확한 의미다. 핵심은 스스로 갱신, 토큰은 점진적 공개로 관리한다.

7장. 인간과 AI의 관계 — 대체가 아니라 위임과 검증

섹션 제목: “7장. 인간과 AI의 관계 — 대체가 아니라 위임과 검증”

핵심 질문: AI가 일을 점점 잘하면 사람의 자리는 어떻게 되는가?

전통 흐름은 사람이 일을 시작하고 ERP가 거든다. 사람이 화면을 열고, 조회하고, 판단하고, 입력한다. AI 라인은 정반대다. AI가 24/7 데이터를 모니터링하고 이상을 감지하며, 분석·종합·초안까지 수행한 뒤 사람에게 ‘결재 요청’을 올린다. 사람은 AI의 판단을 검증하고 승인한다.

여기서 절대 원칙이 생긴다. 외부 효과가 발생하는 액션(메일 발송, 계약 서명, 자금 이체)은 5년차에도 100% 사람 승인(HITL)을 거친다. 신입사원에게 입사 첫날 법인 인감을 주지 않는 것과 같다. 신뢰는 점진적으로만 부여한다.

워크드 예시 — 같은 ‘연차 승인’의 두 모습

섹션 제목: “워크드 예시 — 같은 ‘연차 승인’의 두 모습”

ERP 시대: 직원이 연차 화면에 신청 → 부서장이 ERP를 열어 확인 → 승인 클릭. 일의 시작은 사람이다. AI 라인: 직원이 메신저에 “다음주 월~수 가족 행사로 쉴게요”라고 쓰면, AI가 잔여일수 확인·휴일 계산·대체 인력 영향까지 분석해 ‘승인 권고’ 카드를 부서장에게 올린다. 부서장은 30초 만에 검증·승인한다. 사람은 ‘입력’에서 ‘검증’으로 이동했다.

흔한 오해 하나. “AI가 사람을 대체한다”는 두려움 — 단일 능력에서 인간 베테랑은 여전히 더 정확하다. 사람의 새 역할(무엇을 시스템에 새길지 정하고, 예외를 판단하고, 두려움을 설계로 바꾸는 일)은 사라지지 않는다. 역할이 이동할 뿐이다. 다만 ‘대체 불안’은 진짜 위험이며, ‘걱정 마세요’라고 단언하는 사람은 멀리해야 한다. 답은 통제 가능 영역부터 점진적으로 가는 것이다.

한 장 요약 — AI 라인에서는 AI가 일을 시작하고 사람이 검증·승인한다. 외부효과는 5년차에도 사람 결재(HITL), 신뢰는 점진적으로만. 사람의 역할은 검증·판단·방향으로 이동한다.


다음 → 〈Part 3. AI Agent〉: 그 AI가 ‘스스로 도구를 쓰고 배우는 일꾼’이 되는 메커니즘.