SW개발자의 AI 도구 활용 생산성 연구들

#	연구	연도	참여자	작업 유형	AI 도구	결과	링크
[1]	GitHub Copilot RCT Peng et al. · MIT/Microsoft	2023	95명	HTTP 서버 구현 (단순 격리 환경)	GitHub Copilot	+55.8% 빠름	arXiv ↗
[2]	MS·Accenture·Fortune 100 RCT Demirer et al. · MIT·Princeton·Wharton	2024	4,867명	실제 업무 (PR, commit, build)	GitHub Copilot	+26% PR 완료 주니어 +35~39%	PDF ↗
[3]	Google 내부 RCT Paradis et al. · Google Research	2024	96명	엔터프라이즈 코딩 (로깅 기능, 474 LOC)	Google 내부 AI 3종	+21% 빠름	arXiv ↗
[4]	METR RCT Becker et al. · METR	2025	16명	실제 OSS 이슈 (버그픽스·기능·리팩터)	Cursor Pro + Claude 3.5/3.7	−19% 느려짐	METR ↗ / arXiv ↗
[5]	Google DORA 보고서 Google DORA Research Team	2024	39,000명+	실제 업무 전반 (자기보고 + 실측)	다양한 AI 도구	체감↑ 안정성 −7.2%	DORA ↗
[6]	Stack Overflow 개발자 설문 Stack Overflow	2025	49,000명+	설문 (자기 보고)	다양한 AI 도구	긍정 60% (2023년 70%+에서 하락)	SO ↗
[7]	GitClear 코드 품질 분석 Harding & Kloster · GitClear	2024	1억5,300만 LOC	실제 코드베이스 분석	AI 코딩 도구 전반	Code churn 2배 증가	GitClear ↗

(작업 복잡도) 격리·단순 작업에서는 최대 +55.8%, 실제 복잡한 코드베이스에서는 −19%까지 결과가 달라진다. AI는 맥락 없는 작업에 강하고, 암묵적 요구사항(코드 스타일·테스트·문서화)이 많은 작업에는 약하다.
(경험 수준) 주니어 개발자의 효과(+35~39%)가 시니어(+8~16%)보다 크고, 최고 숙련자에게는 역효과도 발생한다. AI는 "지식 격차 메우기" 도구로 가장 효과적이며, 전문 도메인 지식을 보유한 개발자에게는 마찰을 유발할 수 있다.
(인식 vs 실측) 자기보고 생산성 향상은 실측값과 체계적으로 다르다. DORA(75% 체감 vs 안정성 −7.2%), METR(+20% 느낌 vs −19% 실측) 모두 같은 방향성을 보인다. 자기 보고는 신뢰할 만한 생산성 지표가 아니다.
(속도 vs 품질) 코드 작성 속도는 증가하나 유지보수성이 저하된다. GitClear의 1억5천만 줄 분석에 따르면 AI 도입 이후 2주 내 폐기되는 코드(code churn)가 2배 증가했다. 단기 생산성 이득이 장기 기술 부채로 전환될 수 있다.

728x90

KV 캐시 기술동향 분석 (0)	2026.03.26
북한의 인공지능 기술 발전 (0)	2026.03.26
Defense Llama (0)	2025.08.06
America's AI Action Plan: Winning the Race 2025 (0)	2025.07.29
Harnessing the Universal Geometry of Embeddings (0)	2025.07.23

Xdots in my habitus