작성자: sonslab | 발행일: 2025년 5월 6일
들어가며
어느날 문득 이런 생각이 들었습니다. 어떻게 한때 '죽은 기술'로 여겨지던 인공신경망이 몇십 년의 암흑기를 지나 오늘날 AI 혁명의 중심에 서게 되었을까? 이 질문은 단순한 기술 변천사를 넘어 인간 지적 탐구의 끈질김과 혁신의 본질에 대해 생각하게 만듭니다. 무시당하고 조롱받던 아이디어가 시대를 뒤바꾸는 기술로 부활하는 과정은 과학의 역사에서 드문 일이 아닙니다. 하지만 신경망의 부활은 그 드라마틱한 반전과 영향력 측면에서 특별합니다.
마치 저희팀에서 개발 중인 반도체 이미지 분석 AI 플랫폼의 끈질긴 헌신과 혁신의 10년의 역사 보는것 같습니다. 현재는 팀원도 늘고 전폭적인 지지와 성장을 하고있지만 중간에 프로젝트가 중단되고 홀로 근근히 유지하던 암흑기도 있었습니다.
이전 연재에서 우리는 AI의 역사적 발전 단계와 AI 겨울과 르네상스 시기의 교훈 그리고 규칙에서 데이터 중심으로 패러다임 변화에 대해 살펴보았습니다. 오늘은 그 흐름을 이어받아 신경망의 부활과 딥러닝의 부상이라는 현대 AI 역사의 가장 흥미로운 챕터를 깊이 탐구해 보겠습니다.
퍼셉트론에서 신경망으로: 포기를 모르는 선구자들
1969년, 기호주의 AI의 대표주자였던 마빈 민스키와 세이머 페퍼트의 저서 『퍼셉트론』은 당시 신경망 연구에 치명타를 입혔습니다. 단층 퍼셉트론이 XOR 문제와 같은 비선형 분류를 해결할 수 없다는 그들의 수학적 증명은 로젠블랫의 신경망 비전에 찬물을 끼얹었고, 연구 기금과 관심이 급격히 줄어들었습니다. 거의 모든 AI 연구자들이 신경망을 외면하고 민스키가 주도하는 기호적 접근법으로 방향을 틀었습니다.
이 혹독한 시기에 제프리 힌튼(Geoffrey Hinton)이라는 영국 출신의 젊은 과학자가 주목받지 못하는 신경망 연구에 뛰어들었습니다. 흥미롭게도 힌튼은 부울 대수의 창시자 조지 부울의 직계 후손으로, 과학적 천재성이 가문에 흐르는 인물이었습니다. 그는 케임브리지에서 심리학을 전공한 후, 에든버러 대학에서 인공지능으로 박사 학위를 받았습니다.
힌튼은 기호주의가 사람의 학습과 인지 방식을 제대로 모델링하지 못한다고 확신했습니다. 그는 "인간의 뇌가 아날로그 방식으로 작동하는데, 왜 디지털 규칙으로 지능을 구현하려 하는가?"라는 근본적인 질문을 던졌습니다. 기호주의 접근법이 AI 학계를 지배하던 시기에, 힌튼은 홀로 역류하며 신경망 연구를 이어갔습니다.
1986년, 힌튼과 그의 동료들인 데이비드 럼멜하트(David Rumelhart)와 로널드 윌리엄스(Ronald Williams)는 오류 역전파(backpropagation) 알고리즘을 개발했습니다. 이 알고리즘은 다층 퍼셉트론(MLP)이 XOR 문제를 포함한 복잡한 패턴을 학습할 수 있게 했습니다. 그들의 논문 "Learning representations by back-propagating errors"는 신경망 연구에 새로운 희망의 불씨를 지폈습니다.
그러나 성공의 달콤함은 오래가지 못했습니다. 신경망의 층이 깊어질수록 기울기 소실(vanishing gradient) 문제와 과적합(overfitting) 현상이 발생했습니다. 이 문제들은 1990년대 후반에 이르러 인공신경망 연구의 두 번째 침체기를 가져왔습니다. 이 시기 대부분의 연구자들은 서포트 벡터 머신(SVM)과 같은 다른 머신러닝 기법으로 관심을 돌렸지만, 힌튼은 신경망 연구에 집중했습니다.
2000년대 신경망 연구의 돌파구: 사전학습과 깊은 구조의 재발견
"정말 좋은 아이디어라고 생각하는데 다른 사람들이 완전히 말도 안 된다고 말한다면, 그 아이디어가 정말 좋은 아이디어라는 것을 알 수 있습니다." 제프리 힌튼(Geoffrey Hinton)의 이 말은 신경망 연구의 역사를 상징적으로 요약합니다.
2000년대 초반까지도 신경망 연구는 대부분의 AI 학계에서 주류로 인정받지 못했습니다. 그러나 힌튼은 1987년 캐나다 토론토 대학교로 자리를 옮긴 이후에도 묵묵히 신경망 연구를 지속했습니다. 그는 당시 "모든 사람들이 틀렸다고 말하는데, 내가 옳다는 것을 증명하는 데 평생이 걸릴지도 모른다"고 생각했습니다.
2006년, 마침내 중대한 전환점이 찾아왔습니다. 힌튼과 사이먼 오신데로(Simon Osindero), 이화이 테(Yee-Whye Teh)는 "A Fast Learning Algorithm for Deep Belief Nets"라는 논문을 발표했습니다. 이 논문에서 그들은 심층 신뢰 신경망(Deep Belief Network, DBN)을 제안했습니다. 이 접근법의 핵심은 비지도 학습을 통한 사전 훈련(pre-training)이었습니다.
이 방법은 인간의 학습 과정에서 영감을 받았습니다. 어린 아이들이 언어를 배울 때, 단어나 문장의 의미를 명시적으로 배우기 전에 음소, 단어, 문장 패턴을 자연스럽게 흡수합니다. 이와 유사하게, DBN은 레이블 없는 데이터로 먼저 충분한 학습을 한 후, 지도 학습으로 미세 조정을 수행합니다. 이 방식으로 기울기 소실 문제를 상당 부분 해결할 수 있었습니다.
같은 해, 힌튼과 루슬란 살라쿠트디노프(Ruslan Salakhutdinov)는 "Reducing the Dimensionality of Data with Neural Networks"라는 논문을 발표하여, 심층 오토인코더(deep autoencoder)를 활용한 차원 축소 기법을 소개했습니다. 이 연구는 고차원 데이터를 효과적으로 저차원으로 압축하는 방법을 제시하며, 딥러닝의 가능성을 더욱 확장시켰습니다.
이 시기에 '딥러닝(Deep Learning)'이라는 용어가 본격적으로 사용되기 시작했습니다. 흥미롭게도, 힌튼이 이 용어를 선택한 이유 중 하나는 단순히 마케팅적 이유였습니다. 당시 학계에서 '인공신경망'이라는 단어가 들어간 논문은 편견 때문에 자동으로 거부당하는 경우가 많았습니다. 새로운 용어는 과거의 편견을 우회하는 전략이기도 했습니다. 이때는 훗날 본인이 노벨상을 받게되리라고는 아마도 상상을 하지 못했을 것입니다.
세 가지 촉매제: 하드웨어, 빅데이터, 그리고 알고리즘
신경망 이론의 재발견만으로는 딥러닝 혁명이 일어나지 않았을 것입니다. 2010년대에 들어서며 세 가지 중요한 요소가 완벽하게 결합하여 딥러닝의 폭발적 성장을 가능하게 했습니다.
컴퓨팅 파워의 혁신적 발전: GPU의 등장
컴퓨터 그래픽 처리를 위해 개발된 GPU(Graphics Processing Unit)는 뜻밖의 곳에서 딥러닝의 구세주가 되었습니다. 게임과 영상 편집을 위해 설계된 이 하드웨어는 수천 개의 작은 계산 코어를 병렬로 실행할 수 있어, 신경망의 대규모 행렬 연산에 이상적이었습니다.
특히 엔비디아(NVIDIA)의 CUDA 아키텍처는 GPU를 범용 계산에 활용할 수 있게 했습니다. 2011년 스위스 IDSIA의 댄 크리슨(Dan Ciresan)은 GPU로 훈련된 심층 신경망으로 이미지 분류 대회에서 우승하며 GPU의 잠재력을 증명했습니다. 기존 CPU 대비 10-50배 빠른 학습 속도는 더 깊고 복잡한 모델을 실험할 수 있게 했습니다.
빅데이터의 폭발적 증가: 풍부한 학습 연료
딥러닝 모델은 엄청난 양의 데이터를 필요로 합니다. 인터넷과 스마트폰의 보급으로 매일 생성되는 디지털 데이터의 양이 기하급수적으로 증가했습니다. 소셜 미디어에 올라오는 수십억 장의 이미지, 유튜브에 업로드되는 수천 시간의 비디오, 웹에 저장된 방대한 텍스트는 모두 딥러닝의 훌륭한 '연료'가 되었습니다.
특히 이미지넷(ImageNet)과 같은 대규모 레이블링된 데이터셋의 등장은 결정적이었습니다. 2009년 페이페이 리(Fei-Fei Li) 교수가 구축한 이미지넷은 1,400만 개 이상의 분류된 이미지를 제공했습니다. 이런 대규모 데이터셋 없이는 오늘날의 딥러닝 혁명은 불가능했을 것입니다.
알고리즘의 혁신: 학습 효율성의 비약적 향상
하드웨어와 데이터의 진화와 함께, 알고리즘의 혁신도 딥러닝 발전에 결정적 역할을 했습니다. 2012년 알렉스 크리제브스키(Alex Krizhevsky)가 개발한 드롭아웃(Dropout) 기법은 과적합 문제를 해결하는 간단하면서도 강력한 방법이었습니다. 학습 과정에서 무작위로 뉴런을 비활성화함으로써, 모델이 특정 특징에 과도하게 의존하는 것을 방지했습니다.
또한 ReLU(Rectified Linear Unit)와 같은 새로운 활성화 함수는 기울기 소실 문제를 크게 완화했고, 배치 정규화(Batch Normalization)는 학습 속도를 획기적으로 향상시켰습니다. 이러한 기술적 혁신들이 신경망의 층을 더 깊게 쌓을 수 있게 만들었습니다.
AlexNet 의 충격: 인공지능의 코페르니쿠스적 전환
2012년, 토론토 대학의 알렉스 크리제프스키(Alex Krizhevsky), 일리야 서츠케버(Ilya Sutskever), 그리고 앞서 언급한 제프리 힌튼이 개발한 심층 합성곱 신경망(CNN) 모델인 '알렉스넷(AlexNet)'은 이미지넷 챌린지에서 기존 컴퓨터 비전 기술보다 현저히 뛰어난 성능을 보여주었습니다. 오류율을 무려 10% 이상 낮춘 것입니다.
이 사건은 딥러닝 혁명의 시작을 알렸습니다. 알렉스넷의 성공은 단순한 기술적 성취를 넘어, 인공지능 연구의 패러다임을 완전히 바꾸었습니다. 기존의 '특성 공학(feature engineering)'이라 불리던 접근법—즉, 전문가가 수작업으로 데이터의 중요한 특성을 추출하고 설계하는 방식—에서, 네트워크가 원시 데이터로부터 직접 학습하는 '엔드 투 엔드(end-to-end)' 학습으로 전환되었습니다.
이전 글에서 언급했던 AI의 "규칙에서 데이터 중심으로"의 변화가 여기서 정점에 달했습니다. 딥러닝은 인간이 설계한 규칙이나 특성에 의존하지 않고, 데이터 자체에서 패턴을 발견합니다. 마치 코페르니쿠스가 지구 중심 우주관에서 태양 중심 우주관으로 전환했듯이, AI도 '인간 설계 중심'에서 '데이터 중심'으로 전환했습니다.
신경망 아키텍처의 다양화와 발전
알렉스넷 이후, 딥러닝 연구자들은 다양한 문제를 해결하기 위한 여러 형태의 신경망 아키텍처를 개발했습니다. 여기서 몇 가지 중요한 발전을 살펴보겠습니다.
합성곱 신경망(CNN)의 진화 이미지 인식에 특화된 CNN은 VGGNet, GoogLeNet, ResNet 등으로 진화했습니다. 특히 2015년 마이크로소프트 연구팀이 개발한 ResNet은 '잔차 학습(residual learning)'이라는 개념을 도입해 더 깊은 네트워크(152층까지)를 효과적으로 훈련시킬 수 있게 했습니다. 이는 기존의 '그래디언트 소실 문제(vanishing gradient problem)'를 해결한 중요한 혁신이었습니다.
순환 신경망(RNN)과 시퀀스 모델링 시간적 순서가 중요한 데이터(텍스트, 음성, 시계열 데이터 등)를 처리하기 위한 순환 신경망도 크게 발전했습니다. 특히 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit)와 같은 구조는 장기 의존성 문제를 해결하여 자연어 처리에 혁신을 가져왔습니다.
제가 현재 개발 중인 반도체 결함 분석 시스템에서도 시간에 따른 패턴 변화를 추적하기 위해 LSTM 모델을 활용하고 있는데, 이러한 기술이 없었다면 불가능했을 분석이 이제는 가능해졌습니다.
생성적 모델의 등장 2014년에 이안 굿펠로우(Ian Goodfellow)가 제안한 생성적 적대 신경망(GAN)은 실제와 구별하기 어려운 이미지를 생성할 수 있는 능력을 보여주었습니다. GAN은 '생성자(generator)'와 '판별자(discriminator)' 두 신경망의 경쟁을 통해 학습하는데, 이는 마치 위조지폐범과 경찰의 끊임없는 진화 게임과 같습니다.
이 생성적 모델링은 이후 VAE(Variational Autoencoder), 흐름 기반 모델 등으로 다양화되었고, 최근의 안정적 확산(Stable Diffusion), DALL-E와 같은 이미지 생성 모델의 기초가 되었습니다.
딥러닝의 철학적 함의: 블랙박스에서 해석가능성으로
딥러닝의 부상은 과학적, 기술적 성취일 뿐만 아니라 철학적 질문도 제기합니다. 가장 중요한 문제 중 하나는 '블랙박스 문제'입니다. 딥러닝 모델, 특히 깊은 네트워크는 놀라운 성능을 보이지만 왜 그런 결정을 내렸는지 설명하기 어렵습니다.
이는 의사결정이 투명해야 하는 의료, 금융, 법률 분야 등에서 중요한 문제입니다. 반도체 업계에서도 마찬가지입니다. 우리 팀이 개발한 AI 계측 시스템이 특정 결함 패턴을 식별했다고 할 때, 엔지니어들은 "왜 그렇게 판단했는지"를 반드시 알아야 합니다.
이런 요구에 맞춰 '설명 가능한 AI(XAI)'라는 새로운 연구 분야가 등장했습니다. LIME(Local Interpretable Model-Agnostic Explanations), SHAP(SHapley Additive exPlanations)과 같은 기법들은 복잡한 모델의 결정을 해석하는 데 도움을 줍니다. 또한 신경망 내부를 시각화하는 기술도 발전하고 있어, 예를 들어 CNN의 각 층이 이미지의 어떤 특성을 '보고' 있는지 이해할 수 있게 되었습니다.
그리스 철학자 소크라테스는 "설명되지 않은 삶은 살 가치가 없다"고 했습니다. 마찬가지로, "설명할 수 없는 AI는 신뢰할 가치가 없다"고 말할 수 있을 것입니다. 딥러닝의 미래는 성능과 해석가능성 사이의 균형을 찾는 방향으로 진화할 것입니다.
자율주행부터 의료 혁신까지: 실생활에서의 딥러닝
딥러닝의 영향력은 학문적 성취를 넘어 이미 우리 일상 곳곳에 스며들었습니다. 몇 가지 중요한 응용 사례를 살펴보겠습니다.
컴퓨터 비전의 혁명 자율주행차는 CNN을 기반으로 도로 상황을 인식하고 장애물을 식별합니다. 의료 영상에서는 방사선 전문의와 비슷하거나 때로는 더 나은 정확도로 종양을 감지합니다. 저희가 개발 중인 반도체 검사 시스템에서도, 육안으로는 구별하기 어려운 나노미터 수준의 결함을 AI가 정확히 식별해냅니다.
자연어 처리의 진화 LSTM과 같은 순환 신경망은 기계 번역, 감정 분석, 챗봇 등 텍스트 처리 분야에 혁신을 가져왔습니다. 물론 이것은 다음 글에서 다룰 트랜스포머 모델의 등장으로 더욱 가속화됩니다.
과학 연구의 새로운 도구 딥러닝은 단백질 구조 예측(AlphaFold), 신약 개발, 기후 모델링 등 과학 연구에도 혁명을 일으키고 있습니다. 특히 알파폴드가 50년 이상 풀지 못했던 단백질 접힘 문제를 해결한 것은 과학사에 남을 성취입니다.
도전과 한계: 딥러닝이 만능은 아니다
눈부신 성과에도 불구하고, 딥러닝에는 여전히 해결해야 할 과제가 많습니다.
데이터 의존성과 편향 딥러닝 모델은 훈련 데이터의 양과 질에 크게 의존합니다. 따라서 데이터가 부족하거나 편향된 경우, 모델 역시 편향된 결과를 낼 수 있습니다. 예를 들어 특정 인종이나 성별에 편향된 얼굴 인식 시스템이 사회적 문제를 일으킨 사례가 있습니다.
계산 비용과 환경 영향 최신 딥러닝 모델을 훈련시키는 데는 막대한 컴퓨팅 자원이 필요하며, 이는 상당한 에너지 소비와 탄소 배출로 이어집니다. 스탠포드 대학의 연구에 따르면, GPT-3와 같은 대형 언어 모델을 훈련시키는 과정은 자동차 여러 대가 평생 배출하는 양의 탄소를 발생시킵니다.
인과관계 추론의 어려움 현재의 딥러닝 모델은 주로 상관관계를 학습하고, 인과관계를 이해하는 데는 한계가 있습니다. 이는 새로운 상황에 적응하거나 반사실적 추론(counterfactual reasoning)을 하는 능력을 제한합니다.
신경과학으로부터의 영감: 뇌의 비밀에서 배우다
딥러닝이 인간 뇌에서 영감을 받았다고는 하지만, 현재의 인공 신경망은 생물학적 뇌와는 많은 차이가 있습니다. 뇌는 약 860억 개의 뉴런과 100조 개 이상의 시냅스로 구성되어 있으며, 딥러닝 모델보다 훨씬 에너지 효율적이고 적은 데이터로도 학습할 수 있습니다. 신경과학과 AI의 상호 영향은 계속되고 있습니다. 예를 들어, 스파이킹 신경망(Spiking Neural Networks)은 생물학적 뉴런의 작동 방식에 더 가깝게 모델링하는 시도입니다. 반대로, 딥러닝의 성공은 신경과학자들에게 뇌 기능을 이해하기 위한 새로운 도구와 가설을 제공하고 있습니다. 이는 우리에게 중요한 질문을 던집니다. 더 효율적인 AI를 개발하기 위해 뇌의 어떤 측면을 더 깊이 이해해야 할까요? 인간 지능의 어떤 측면이 아직 인공지능에 통합되지 않았을까요?
마치며: 기억 속에서 미래로
신경망이 수십 년간의 침체기를 지나 AI의 중심으로 재부상한 과정은 과학과 기술의 역사에서 보기 드문 극적인 부활 사례입니다. 한때 '실패한 접근법'으로 여겨졌던 것이 이제는 가장 성공적인 AI 패러다임이 되었습니다. 2024년 10월 존 홉필드와 제프리 힌튼 노벨 물리학상 공동 수상으로 이는 더욱 명확해 졌습니다.
이 이야기는 과학에서 지속적인 탐구의 가치와, 때로는 잊혀진 아이디어가 새로운 컨텍스트(여기서는 컴퓨팅 파워와 데이터)에서 혁명을 일으킬 수 있다는 사실을 상기시켜 줍니다.
처음 질문으로 돌아가자면, 오늘날의 신경망은 아직 인간 뇌의 복잡성과 효율성에 미치지 못합니다. 하지만 그것은 계속해서 발전하고 있으며, 다음 글에서 살펴볼 '트랜스포머와 LLM의 혁신'은 이러한 진화의 다음 단계를 보여줄 것입니다.
과학자이자 철학자였던 마이클 폴라니(Michael Polanyi)는 "우리는 우리가 말할 수 있는 것보다 더 많은 것을 알고 있다"고 했습니다. 딥러닝은 어쩌면 우리가 명시적으로 표현할 수 없지만 데이터 속에 잠재된 패턴을 찾아내는 강력한 도구인지도 모릅니다. 그것은 우리의 '암묵적 지식(tacit knowledge)'을 형식화하는 새로운 방법을 제시합니다.
여러분은 어떻게 생각하시나요? 딥러닝의 부상이 가져온 가장 중요한 변화는 무엇일까요? 앞으로의 시리즈에서 더 깊이 탐구해 보겠습니다.
Sonslab은 현재 반도체 MI 분야에서 엔지니어들에게 AI 기술을 활용하여 전자 현미경 이미지를 계측 분석하는 플랫폼을 개발하고 있습니다. 2024년 DDCON에서 "자동화 시대의 AI와 인간의 협업 시너지" 주제로 강연을 진행했으며, 인간 중심 AI 기술과, 응용 Application 개발에 관심을 가지고 관련 도서를 준비 중입니다.
'1. AI의 기본 개념과 역사' 카테고리의 다른 글
현대 AI의 패러다임 변화: 규칙에서 데이터 중심으로 (0) | 2025.05.05 |
---|---|
AI 겨울과 르네상스 시기의 교훈: 기대와 실망의 역사적 순환 (0) | 2025.04.26 |
논리의 언어로 기계를 깨우다: 초기 AI 연구의 주요 접근법 (0) | 2025.04.22 |
튜링 테스트와 AI의 철학적 의미: 기계는 생각할 수 있는가? (0) | 2025.04.21 |
약한 인공지능과 강한 인공지능의 구분: 의식을 가진 기계는 가능할까? (1) | 2025.04.20 |