• 제목/요약/키워드: Data Processing Software

검색결과 2,366건 처리시간 0.029초

한국어 목적격조사의 몽골어 격 어미 번역 (Translation of Korean Object Case Markers to Mongolian's Suffixes)

  • ;신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권2호
    • /
    • pp.79-88
    • /
    • 2019
  • 최근 기계 번역에 관한 연구들이 활발하게 이루어지고 있고 한국어와 몽골어 간의 상호 기계 번역 시스템도 개발되고 있다. 한국어와 몽골어는 계통적으로 같은 어족에 속하며 '주어+목적어+서술어'라는 비교적 자유로운 어순을 가지는 언어이고 어미와 조사가 발달한 것이 그 특징이다. 따라서 기계 번역 시 양언어의 조사나 어미의 의미를 잘 번역하는 것이 중요하다. 그러나 한국어 목적격 조사를 몽골어로 번역할 때 한국어 목적격 조사가 몽골어의 여러 격 어미로 번역이 될 수 있는데, 기존의 연구들은 한 가지 격 어미로만 번역해 정확한 의미를 전달하지 못하는 문제점이 있다. 본 논문에서는 이러한 문제점을 개선하기 위하여 한국어 형태소 분석과 동시에 품사 및 동형이의어 태깅 시스템인 유태거(UTagger)를 기반으로 하여 한국어 목적격 조사의 몽골어 격 어미 결정 방법을 제안한다. 제안하는 방법에서는 한국어 목적격 조사에 대응하는 몽골어 격 어미들을 살펴보고 데이터 테이블을 설계하여 적절한 격 어미를 결정한다. 제안한 방법의 성능을 검증하기 위하여 한국어기초사전에서 데이터를 추출하고 유태거와 비교 실험하였다. 실험 결과 목적격 조사를 바로 대격 어미로 번역한 유태거의 정확률은 46.9%인데 반해 본 논문에서 제안한 방법은 88.38%로 제안한 방법이 41.48%p 더 우수한 결과를 보였다.

대화 말뭉치 구축을 위한 반자동 의미표지 태깅 시스템 (A Semi-Automatic Semantic Mark Tagging System for Building Dialogue Corpus)

  • 박준혁;이성욱;임윤섭;최종석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권5호
    • /
    • pp.213-222
    • /
    • 2019
  • 지능형 음성 대화 인터페이스 구현에 있어 핵심어의 의미표지는 사용자 의도 파악을 위한 중요한 요소이다. 대화시스템은 사용자 발화의 의도를 파악하기 위해 핵심어와 그 의미표지를 이용하여 발화의 의도를 결정한다. 하나의 핵심어는 여러 개의 의미표지를 가질 수 있는 중의성을 지닌다. 이러한 중의성을 지닌 핵심어를 사용자의 의도와 일치하는 의미표지로 결정하는 것은 단어 의미 분별 문제와 유사하다. 우리는 전사된 대화 말뭉치의 약 23%를 수동으로 의미를 부착하여 핵심어에 대한 의미표지 사전, 유의어 사전, 문맥벡터 사전을 먼저 구축한 후, 나머지 77% 대화 말뭉치에 존재하는 핵심어의 의미를 자동으로 부착한다. 중의성을 가진 핵심어는 문맥벡터 사전으로부터 문맥 벡터 유사도를 계산하여 의미를 결정한다. 핵심어가 미등록어인 경우에는 유의어 사전을 이용하여 가장 유사한 핵심어를 찾아 그 핵심어의 의미를 부착한다. 중의성을 가진 고빈도 핵심어 3개와 저빈도 핵심어 3개를 말뭉치에서 선정하여 제안 시스템의 성능을 평가하였다. 실험결과, 수동으로 구축한 말뭉치를 사용하였을 때 약 54.4%의 정확도를 얻었고, 반자동으로 확장한 말뭉치를 사용하였을 때 약 50.0%의 정확도를 얻었다.

멜로디 라인의 변곡점을 활용한 커버곡의 원곡 검색 알고리즘 (Algorithm to Search for the Original Song from a Cover Song Using Inflection Points of the Melody Line)

  • 이보현;김명
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권5호
    • /
    • pp.195-200
    • /
    • 2021
  • 동영상 공유 플랫폼의 발전으로 인해 동영상 업로드 분량이 폭발적으로 증가하고 있다. 그러한 동영상에는 다양한 형태의 음악이 포함되는 경우가 많으며, 그중에는 커버곡이 포함된다. 음악의 저작권을 보호하기 위해서는 커버곡의 원곡을 찾아내는 알고리즘이 필요하지만, 커버곡은 원곡의 조성, 속도와 전체적인 구성이 변형된 것이기 때문에 커버곡의 원곡을 찾기는 쉽지 않다. 이와 같이 변형된 커버곡으로부터 원곡을 검색하는 효율적인 알고리즘은 현재까지 알려진 바가 없다. 이에 본 연구에서는 멜로디 라인의 변곡점들을 활용한 커버곡의 원곡 검색 알고리즘을 제안한다. 변곡점은 멜로디 시퀀스에서 특징적인 변화 지점을 나타낸다. 제안하는 알고리즘은 원곡의 대표 구절에 대한 변곡점 시퀀스를 사용하여 원곡과 커버곡을 비교한다. 원곡의 대표 구절의 특징을 사용하기 때문에 커버곡이 전체적인 곡의 구성을 변형하여 만들어진 곡이라고 해도, 알고리즘의 검색 성능이 우수하다. 또한, 제안한 알고리즘은 변곡점 시퀀스의 특징만을 저장하고 사용하므로 메모리 사용량이 매우 적다. 알고리즘의 효율성은 성능평가를 통해 검증하였다.

자동차 개발 프로세스에서의 보안 내재화 방법론 (A Methodology for Integrating Security into the Automotive Development Process)

  • 정승연;강수영;김승주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권12호
    • /
    • pp.387-402
    • /
    • 2020
  • 기존의 자동차 개발은 주로 정확성(Correctness) 및 안전성(Safety) 확보에 초점을 맞추어 왔으며, 이에 반해 보안성(Security)은 비교적 소홀하게 다루어져 왔다. 하지만 최근 자동차의 인터넷 연결성이 높아짐에 따라 자동차 해킹 사례가 증가하면서, 유엔유럽경제위원회(United Nations Economic Commission for Europe, UNECE)와 같은 국제기관은 자동차 개발에 대한 보안성을 확보하기 위해 사이버보안 규제를 준비하고 있다. 다른 IT 제품과 마찬가지로 자동차 사이버보안 규제에서 또한 개발 초기부터 보안성을 고려하는 "보안 내재화(Security by Design)"의 개념을 강조한다. 특히 자동차 개발은 생명주기가 길고 공급망이 복잡하기 때문에 개발 이후에 아키텍처를 변경하는 것이 매우 어려우므로, 자동차 개발에 있어 보안 내재화는 기존 IT 제품에 비해 훨씬 더 중요시된다. 그러나 문제는 아직 자동차 개발 과정에 보안을 내재화하는 구체적인 방법론이 제시되지 못하고 있다는 것이다. 이에 본 논문에서는 자동차 보안 내재화를 위한 구체적인 방법론을 제안한다. 본 논문에서 제안된 방법론을 통해 자동차 제조사는 자동차 개발 과정에 있어 기능 안전성과 보안성의 측면을 동시에 고려할 수 있으며, 다가오는 UNECE 자동차 사이버보안 규제에 대한 인증에도 대응할 수 있을 것이다.

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

LX-PPS GNSS 상시관측소의 정밀측위 활용 가능성 분석 (Avaliable analysis of precise positioning using the LX-PPS GNSS permanent stations)

  • 하지현;박관동;김혜인
    • 지적과 국토정보
    • /
    • 제51권1호
    • /
    • pp.23-38
    • /
    • 2021
  • 본 논문에서는 LX-PPS 상시관측소를 이용하여 건물 옥상에 설치된 GNSS 상시관측소에 대한 정밀측위 활용 가능성을 분석하였다. 이를 위해 LX-PPS 상시관측소와 가장 인접한 지역에 위치한 국토지리정보원 상시관측소를 선정하였으며, GIPSY를 이용하여 고정밀 처리하여 좌표변동 경향을 상호 비교, 분석하였다. 그 결과 양 기관의 정밀좌표 시계열 모두 한반도 지각변동 속도와 일치하는 수평, 수직 변동경향이 나타났으며, 서로 그 크기와 방향도 매우 유사하게 나타났다. 또한 좌표시계열에서 속도를 제거한 후 두 기관의 상시관측소에서 유사한 크기의 계절신호가 관측되었으며, 이 신호는 서로 다른 지역에 위치한 상시관측소에 비해 2km 이내의 동일 지역에 매우 인접하게 설치된 상시관측소에서 진폭과 위상 모두 매우 비슷하게 나타났다. 계절신호 제거 후 국토지리정보원 좌표를 기준으로 LX-PPS 상시관측소의 좌표 오차를 산출했을 때 RMS와 표준편차는 모두 남북 1mm, 동서 2mm, 수직 5mm로 나타났다. 이와 같이 LX-PPS 상시관측소는 건물 옥상에 설치되어 있음에도 불구하고 지표면에 설치된 국토지리정보원의 상시관측소와 동일한 수준의 높은 측위 성과 달성이 가능하다는 것을 확인할 수 있었다.

적외선 카메라를 이용한 비제약적 환경에서의 얼굴 인증 (Face Identification Using a Near-Infrared Camera in a Nonrestrictive In-Vehicle Environment)

  • 기민송;최영우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.99-108
    • /
    • 2021
  • 차량 내부에는 조명 변화, 부분적인 가림 및 운전자의 상태 변화와 같은 제한되지 않은 조건들이 존재한다. 본 논문에서는 비 제약적인 차량 환경에서의 운전자 얼굴 인증 시스템을 제안한다. 제안한 방법은 차량 내부 및 외부의 조명 변화에 따라 발생하는 얼굴 이미지의 변화를 최소화하기 위해서 근적외선(NIR) 카메라를 사용한다. 특히 정면에서의 강한 빛에 노출된 얼굴 이미지를 처리하기 위해서, 학습 이미지의 평균과 분산을 사용하여 정상적인 얼굴 이미지로부터 빛에 과다하게 노출된 이미지로 변환하여 사용한다. 따라서 정상적인 조명에서의 얼굴 분류기와 강한 정면광에서의 얼굴 분류기를 각각 동시에 만들어진다. 제안하는 얼굴 분류기는 얼굴 랜드마크를 추출하고 각 랜드마크의 신뢰도 점수를 합산하여 얼굴을 최종적으로 식별한다. 특히 각 랜드마크를 인식하여 부분적인 얼굴 가림에 강하기 때문에 안경이나 선글라스를 착용하는 상황에서도 높은 성능 향상이 가능하다. 즉 가려지지 않은 남은 랜드마크의 점수를 사용하여 운전자를 인식할 수 있다. 또한 등록 운전자와 미등록 운전자 간의 관계를 고려한 새로운 인식 거부 방법과 새로운 평가 방법을 논문에서 제안한다. 자체 취득한 데이터 셋, 공인된 PolyU 및 ORL 데이터 셋으로 실험한 결과 제안한 방법이 효과적임을 확인할 수 있었다.

가변성을 고려하는 VENTOS 기반 군집 자율주행 시뮬레이션 (VENTOS-Based Platoon Driving Simulations Considering Variability)

  • 김영재;홍장의
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.45-56
    • /
    • 2021
  • 군집주행은 여러 대의 자율 주행 차량이 통신을 사용하여 서로 정보를 교환하며 하나의 군집을 이루어 주행하는 것이다. 이러한 군집주행 기술은 더 좁은 차량 간 간격을 유지하며 주행함으로써 도로의 통행량 증대, 에너지 소비 및 오염물질 배출 감소 등의 다양한 장점을 가진다. 그러나 군집주행의 좁은 차량 간 간격은 긴급한 사고 발생 시 대처를 더 어렵게 만들며, 이에 따라 필수적으로 확보되어야 할 군집주행의 안전성을 보장하는데 어려움을 주고 있다. 특히 주행 중 나타날 수 있는 가변성은 군집주행의 안전에 악영향을 미칠 수 있다. 이러한 가변성은 발생 예측이 어렵고, 재현이 어려운 특성으로 인해 가변성으로부터 발생하는 위험 요소를 방지하는 안전대책 마련에 어려움이 있다. 본 논문에서는 군집주행 중에 생겨날 수 있는 가변성에 따른 위험을 회피하기 위한 시뮬레이션 방법을 연구하였다. 이를 위해 가변성을 고려하는 다양한 시나리오를 개발하고, 가변성을 핸들링할 수 있는 안전 대책을 고안, 적용하였으며, 또한 오픈소스 군집주행 시뮬레이터인 VENTOS를 확장하여 시나리오 시뮬레이션을 수행하였다. 그 결과 가변성으로 인한 군집주행의 위험성을 제거하여 안전한 군집주행이 가능함을 확인하였다. 제시하는 가변성 대응 시나리오 시뮬레이션은 군집주행에서의 안전성을 확보하기 위한 연구 개발에 기여할 것으로 판단한다.

신뢰성있는 딥러닝 기반 분석 모델을 참조하기 위한 딥러닝 기술 언어 (Deep Learning Description Language for Referring to Analysis Model Based on Trusted Deep Learning)

  • 문종혁;김도형;최종선;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권4호
    • /
    • pp.133-142
    • /
    • 2021
  • 최근 딥러닝은 하드웨어 성능이 향상됨에 따라 자연어 처리, 영상 인식 등의 다양한 기술에 접목되어 활용되고 있다. 이러한 기술들을 활용해 지능형 교통 시스템(ITS), 스마트홈, 헬스케어 등의 산업분야에서 데이터를 분석하여 고속도로 속도위반 차량 검출, 에너지 사용량 제어, 응급상황 등과 같은 고품질의 서비스를 제공하며, 고품질의 서비스를 제공하기 위해서는 정확도가 향상된 딥러닝 모델이 적용되어야 한다. 이를 위해 서비스 환경의 데이터를 분석하기 위한 딥러닝 모델을 개발할 때, 개발자는 신뢰성이 검증된 최신의 딥러닝 모델을 적용할 수 있어야 한다. 이는 개발자가 참조하는 딥러닝 모델에 적용된 학습 데이터셋의 정확도를 측정하여 검증할 수 있다. 이러한 검증을 위해서 개발자는 학습 데이터셋, 딥러닝의 계층구조 및 개발 환경 등과 같은 내용을 포함하는 딥러닝 모델을 문서화하여 적용하기 위한 구조적인 정보가 필요하다. 본 논문에서는 신뢰성있는 딥러닝 기반 데이터 분석 모델을 참조하기 위한 딥러닝 기술 언어를 제안한다. 제안하는 기술 언어는 신뢰성 있는 딥러닝 모델을 개발하는데 필요한 학습데이터셋, 개발 환경 및 설정 등의 정보와 더불어 딥러닝 모델의 계층구조를 표현할 수 있다. 제안하는 딥러닝 기술 언어를 이용하여 개발자는 지능형 교통 시스템에서 참조하는 분석 모델의 정확도를 검증할 수 있다. 실험에서는 제안하는 언어의 유효성을 검증하기 위해, 번호판 인식 모델을 중심으로 딥러닝 기술 문서의 적용과정을 보인다.

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.