무기체계와 컴퓨터/인공지능과 머신러닝 AI Machine Learning
인공지능 (머신러닝) 시사점
xdots
2023. 10. 2. 19:13
1. 학습 데이터 완전성
입력 데이터의 품질이 낮거나 보정이 불량할 경우 학습의 품질이 저하될 수 있으며, 데이터를 여러 소스에서 가져온 경우 더 자주 문제가 된다. 누락된 데이터는 세 가지 주요 형태를 취할 수 있으며, 각 형태는 결과에 서로 다른 영향을 미친다.
- 완전히 랜덤하게 누락된 경우 모델의 확률적 성질에 따라 영향이 적다.
- 특정한 데이터만 누락된 경우 결과 모델에 부정적인 영향을 미친다.
- 특정한 데이터의 특정 부분이 누락된 경우 탐지가 매우 어려워 더 나쁜 경우로 이러한 데이터를 이용한 모델은 심각하다.
2. 학습 데이터 레이블링
지도 학습은 학습 데이터가 정확하다고 가정하지만, 실제로 학습 데이터의 레이블이 100% 정확하지는 않음. 레이블 작업자가 버튼을 잘못 누르거나, 잘못된 지시로 인한 작업 실수를 하거나, 레이블 선정에 있어서 다른 의견을 가진다거나 고의적인 실수를 하는 등의 인간 작업자에 의한 실수가 반영된다.
- 레이블은 항상 하나 또는 두 개의 클래스로 나누는 단순한 분류가 아니며 복잡한 레이블링은 정확한 레이블에 대한 의문을 생기게 한다.
- 레이블링은 다양한 방법으로 수행될 수 있다. (내부 팀/외부팀에 의한 레이블링, 클라우드 소싱된 레이블, 합성 데이터 생성, AI-기반 레이블링)
3. 학습 데이터와 목표 시스템에 사용되는 데이터 차이
머신 러닝의 주요한 불확실성은 학습 데이터 분포와 목표 시스템의 데이터 분포의 불일치임. 이 두 데이터 분포 사이가 불일치할 경우 모델에 의해 제공된 예측에 결함이 생긴다.
- 일단 시스템이 작동되면, 예측된 운영 데이터가 변경됨에 따라 학습 데이터 분포와 목표 데이터 분포 사이의 거리가 종종 증가한다.
- 특별히 프로그래밍 되지 않는 한 대부분의 머신러닝 시스템은 분포 이동을 식별할 수 없으며 낮은 수준의 신뢰도로 예측값을 제공하게 된다.
- 이상적으로는 시스템이 현재 운영 데이터 분포와 마지막으로 학습된 데이터 분포 간에 중대한 불일치를 감지하도록 시스템을 정기적으로 테스트해야 하고 불일치가 감지되면 업데이트된 학습 데이터를 사용하여 시스템을 다시 학습시켜야 한다.
4. 알고리즘/모델 선정
모델 설정과 모델 파라미터의 선택이 과학(Science)과 예술(Art) 사이에 있음. 문제 상황의 분석으로부터 최적의 세트를 선택할 수 있는 명확한 접근 방식은 없다.
- 알고리즘 선택의 결정에 도움을 주는 것은 모델의 기능이 어떤 결과를 제공하는지, 알고리즘과 모델에 어떠한 데이터가 이용 가능한지, 어떤 기능적/비기능적인 요소를 만족해야 하는지에 대한 정보가 필요하다.
- 기능적인 관점에서 모델은 통상 분류, 예측, 군집 등을 제공하는데, 얼마 만큼의 데이터가 이용 가능한지 알게 되면 특정한 알고리즘을 배제할 수 있다.
5. 머신러닝 시스템 문서화 필요
무기체계 시스템 연구개발 절차에 따른 산출물과 같은 머신러닝 시스템 개발의 문서화 기준이 없다. 머신러닝 시스템이 점점 확산되고, 중요한 분야에서 사용되고 있어 머신러닝 시스템의 문서화를 위한 노력 증대가 필요하다.
- 문서화의 장점으로 기능의 설명, 성능 특징에 대한 설명, 개발자와 사용자간의 커뮤니케이션 촉진, 투명성 증대, 재사용성 증가 등이 있다.
- ABOUT ML(Annotation and Benchmarking on Understanding and Transparency of Machine Learning Lifecycles), Datasheets for Datasets, Google Model Cards, IBM Factsheets 등에서 시작하고 있다.