K-SMARTFACTORY

AI & Big Data

사내 제작 ai 인공지능 로 로보트 강화 학습 중편

2021-05-22

사내 제작 AI(인공지능) 로보트 강화 학습을 통한 기술자 공수 대폭 삭감 (중편)






**「로봇 자동생산시스템」으로 「작업 자동화」
**

OKI데이터 공장에서 「로봇 자동생산시스템」을 실현하여 외판용 LED모듈 부품조립과 검사공정을 무인화 했다. 구체적인 부품종류에 대해서는 공표하고 있지 않지만, 「성형」 「조립」 「고착」 「특성검사」 공정의 자동설비 4대와 가와다로보틱스의 양팔 로봇 「NEXTAGE」를 융합하여 로봇이 자발적으로 판단하는 무인라인을 구축하였다. 로봇은 주로 설비간의 운반을 담당한다.


이 라인을 무인화한 핵심은 「작업의 자동화」와 「사고의 자동화」 두 개의 측면에서 자동화를 추진하였다.


먼저, 「작업의 자동화」측면을 살펴보자. 이전 기술로 로봇에게 모든 작업을 티칭할 경우, 무인라인 입구에 캐리어 놓는 장소가 80개소이고, 여기로부터 성형장치가 보유하고 있는 캐리어 놓는 장소 5개소 중 어느 한 곳으로 옮기는 것이 공정의 최초 작업이 된다. 이 경우 로봇의 동작수는 80*5400 스텝이 된다. 이처럼 무인화 라인 내에서 로봇의 동작을 계산해보면 835종류의 행동을 한 것이다.


한편, 로봇이 운반해도 좋은지 아닌지의 판단도 필요하다. 이 라인 내에서 캐리어를 놓는 장소는 176개소이고 여기에 「운반해도 좋다」 「운반하면 안됨」 2종류 중 어느 쪽인가에 대한 판단이 필요하므로 2의 176승 동작패턴이 존재한다. 이 구조를 그대로 개발한다면, 835종류의 작업 패턴을 로봇에게 티칭하여야 한다. 또한, 동작을 선택하는 시켄스는 835*2의 176승이 된다. 이 모든 것을 현장 기술자가 개발하는데의 비용은 비현실적이다.


그래서, OKI데이터 하드웨어 기술본부 요소기술센터에서 로봇작업의 여러 패턴 중에서 중요패턴을 선택하고, 그 판단을 AI로 실현하고자 했다. 최종적으로 로봇작업 패턴은 5개 동작으로 줄였다. 동작은 기본자세에서부터 작업을 하고 기본자세로 돌아올 때까지로 정의하였다.


포인트는 「판단부」를 로봇외부로 내보내 「외부화」한 것이다. 「판단」과 「작업」을 분리하여 구조를 간단히 하였다. 최근에 로봇에게도 간단히 판단할 수 있도록 시스템을 도입하고 있지만, 외부정보와 조합하여 최적의 판단을 하도록 하기에는 아직 어렵다고 한다. 그래서, 외부의 AI대응 PC에서 판단하도록 하는 시스템을 생각하고 있다고 한다.


기본적으로는 공장의 로봇과 생산라인에 설치되어 있는 카메라와 센서로부터 정보를 취득하여 「판단부」로 보내면, 「판단부」가 그 상황에 맞는 작업지시를 하나 내리고, 로봇은 5개의 기본 행동 중 하나를 실행하는 형태이다. 이렇게 하여 로봇에게 티칭하는 코스트와 엔진니어의 업무 부하를 경감하면서 자동화하게 되었다.






본 시스템의 순환으로 점점 최적화 되어간다






**강화학습을 사용 「사고의 자유화」
**

「판단부」에서는 강화학습을 사용하여 「사고의 자유화」를 추진하였다. 강화학습의 수법은 「TD(시간적 차분) 학습」 중, 「Q학습」이다. 수렴하는 최적 평가치를 찾아 그 평가치를 가지고 앞서 설명한 2의 176승 만큼의 판단패턴에서 최적 작업을 판단한다. 행동가치함수에서 주어지는 보수지표를 「전체 작업시간」으로 놓고 전체 작업시간이 보다 짧아지도록 학습시킨다.


“처음에는 단순히 좋은 결과를 플러스로, 나쁜 결과를 마이너스가 되도록 평가했지만, 제대로 수렴된 결과를 얻을 수 없었다. 이것 저것 시행착오를 거친 후, 좋은 결과는 원안대로 플러스로 평가하면서 나쁜 결과일지라도 좋은 결과 쪽에 가까운 것은 플러스로 평가하는 지표로 삼았더니 의도했던 지표를 얻을 수 있었다”고 추진 성과를 OKI데이터 하드웨어 기술본부 요소기술센터 관계자가 설명하였다.


「판단부」가 학습으로 최적결과를 찾아내 자동으로 작업지시를 내리는 시스템을 만들어 로봇에 의한 자동생산라인을 실현할 수 있었다. 이 「판단부」와 로봇의 작업부를 분리한 개념이 로봇이나 대규모 제조장치의 약점인 「변화에 약하다」라는 과제를 해결한 것이다. 로봇 그 자체는 최소 패턴의 기본 행동을 작업지시에 따라 하나 하나 실행할 뿐으로, 갑작스런 트러블이 발생하여 정지되었을 경우에도 대부분의 경우 재가동시키는 부담이나 티칭하는 수고를 저감할 수 있다.


판단부의 학습은 기본적으로 라인 변경 시나 공정 추가 시에 하며, 학습으로 얻어진 실행엔진은 라인 옆에 놓여 있는 산업용 PC로 가동시킨다. 단지, 가동 데이터는 항상 「OPTAS」로 취득, 축적하고 있어 다음 라인 변경 시에 새로운 학습성과를 내도록 하고 있다.


자동화 라인은 이미 2017년 6월부터 양산을 시작하였다. 현재까지 여러 번 라인변경과 준비교체도 실시하였는데, 아주 단시간 내에 변경을 할 수 있어 성과를 실감할 수 있었다고 한다.


(후편은 다음 주에 이어집니다)






출처:[[http://monoist.atmarkit.co.jp/mn/articles/1806/04/news064.html|Monoist]]
번역: K-Smart Factory