메뉴바로가기본문바로가기

동아사이언스

과학기술 논문·R&D 보고서 활용해 기계학습 데이터 구축한다

통합검색

과학기술 논문·R&D 보고서 활용해 기계학습 데이터 구축한다

2020.07.24 09:59
KISTI '기계학습 데이터 구축사업' 시작…청년 2천명 채용

KISTI '기계학습 데이터 구축사업' 시작…청년 2천명 채용

 

정부가 과학기술 국내 논문과 국가 연구개발(R&D) 보고서 원문을 기반으로 과학기술 분야 인공지능(AI) 개발 등에 활용할 수 있는 기계학습 데이터를 구축한다.

 

과학기술정보통신부는 디지털 뉴딜 사업의 일환으로 한국과학기술정보연구원(KISTI)이 축적한 논문을 활용해 '과학기술 기계학습 데이터 구축사업'을 시작한다고 24일 밝혔다.

 


국가 과학기술분야 기계학습 데이터 인프라 구축
 
[과학기술정보통신부 제공. 재판매 및 DB 금지]

KISTI는 만 19세에서 34세 이하 2천명을 채용해 12월까지 사업을 시행할 예정이다. 참여자는 1·2차로 나눠 모집하며, 1차 모집은 25일부터 내달 10일까지 진행된다.

 

KISTI는 논문 본문, 보고서의 표·그림 설명 등 데이터 5종, 최대 425만여건을 레이블링 등 작업을 통해 기계학습에 활용할 수 있는 형태의 데이터로 가공할 계획이다.

 

 

구축된 기계학습 데이터는 과학기술분야 언어이해 모델개발과 자연어 처리 문제 해결 등에 활용될 예정이다.

 

과기정통부는 이렇게 구축한 데이터를 과학기술 분야 지식자원 연계와 융합연구 지원, 중소기업 기술혁신을 위한 비즈니스 등에 활용할 수 있을 것으로 내다봤다.

 

이 사업 참여자는 재택근무를 통해 비대면으로 일하며, 초급인력(1천400명)은 205만원 수준의 월 급여(세전)와 4대 보험 가입, 고급인력(600명)은 265만원 수준의 월 급여(세전)와 4대 보험 가입 처우를 받는다.

 

KISTI는 사업 참여자들이 기계학습 데이터 구축 역량을 계발해 향후 과학기술분야 기계학습 데이터 레이블링 전문 인력으로 계속 활동할 수 있도록 교육 등을 통해 지원할 방침이다.

 

자세한 내용은 KISTI 홈페이지(https://kisti.recruiter.co.kr)에서 25일부터 확인할 수 있다.

 

[과학기술 기계학습 데이터 5종]

 

구축 데이터 구축 대상(건) 구축 내용
국내
논문
전문 텍스트 504,000 국내논문 PDF를 기계학습이 가능한 텍스트 형태로 구축
질의응답 셋 128,000 국내논문에서 질의와 정답 쌍 구축
문장의미태깅 100,000 국내논문의 연구목적, 연구방법, 연구결과 등 문장 의미 태깅
보고서 표/그림 설명 3,300,000 국가R&D보고서 원문의 표/그림에 대한 설명 텍스트 구축
기관식별 225,000 국내논문, 국가R&D보고서에서 저자의 소속기관명 식별데이터 구축
합계 4,257,000  

 

관련 태그 뉴스

이 기사가 괜찮으셨나요? 메일로 더 많은 기사를 받아보세요!

댓글 0

4 + 5 = 새로고침
###
    과학기술과 관련된 분야에서 소개할 만한 재미있는 이야기, 고발 소재 등이 있으면 주저하지 마시고, 알려주세요. 제보하기