• 제목/요약/키워드: 데이터 파싱 알고리즘

검색결과 9건 처리시간 0.03초

한국어 의미 자원 구축 및 의미 파싱을 위한 Korean AMR 데이터 자동 증강 (Automatic Data Augmentation for Korean AMR Sembanking & Parsing)

  • 최현수;민진우;나승훈;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-291
    • /
    • 2020
  • 본 연구에서는 한국어 의미 표상 자원 구축과 의미 파싱 성능 향상을 위한 데이터 자동 증강 방법을 제안하고 수동 구축 결과 대비 자동 변환 정확도를 보인다. 지도 학습 기반의 AMR 파싱 모델이 유의미한 성능에 도달하려면 대량의 주석 데이터가 반드시 필요하다. 본 연구에서는 기성 언어 분석 기술 또는 기존에 구축된 말뭉치의 주석 정보를 바탕으로 Semi-AMR 데이터를 변환해내는 알고리즘을 제시하며, 자동 변환 결과는 Gold-standard 데이터에 대해 Smatch F1 0.46의 일치도를 보였다. 일정 수준 이상의 정확도를 보이는 자동 증강 데이터는 주석 프로젝트에 소요되는 비용을 경감시키는 데에 활용될 수 있다.

  • PDF

사용자의 실시간 상황정보를 이용한 사용자 맞춤 검색 시스템 (Customized Search System using Real-time Contexts of User)

  • 권미림;홍광진;정기철
    • 한국산업정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.19-30
    • /
    • 2016
  • 오늘날 우리는 인터넷에서 쉽게 정보를 얻지만, 수많은 정보들은 데이터 검색에 방해가 되며 비효율적이다. 그러므로 적절한 정보를 제공하는 사용자 맞춤의 웹 검색 시스템이 필요하다. 본 논문에서는 날씨, 위치, 시간 등 사용자가 처한 상황 정보를 반자동으로 수집하여 사용자에게 필요한 정보를 제공할 수 있는 검색 시스템을 제안한다. 이러한 상황 정보를 이용하면 검색 시스템은 사용자가 특정한 상황에서 어떤 정보를 원하는지 알 수 있으며, 사용자에게 보다 더 유용한 정보를 제공할 수 있다. 제안된 시스템은 '자발적 공유경제 방식의 개인 한글 콘텐츠 제작/공유 서비스'에 기반 하여 각 입력, 저장, 검색 부분에 데이터 파싱 알고리즘을 추가하였다. 실험에서는 몇 개의 일반적인 검색어를 이용해서 기존의 시스템과 제안된 시스템의 결과를 비교한다.

어절 내부 의존관계를 고려한 확률 의존 문법 학습 (Probabilistic Dependency Grammar Induction using Internal Dependency Relation in Words)

  • 최선화;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.507-510
    • /
    • 2001
  • 본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 특히 의존 문법 생성을 위해 확률 재추정 알고리즘을 의존문법생성에 맞도록 변형하여 학습하였으며 정확한 문법 생성 및 회귀데이터(Data Sparseness)문제 해결을 위해서 구성요소의 대표 지배소들 간의 의존관계 만을 학습했던 기존 연구와는 달리 구성요소 내부의 의존관계까지 학습하는 방법을 제안한다. KAIST 의 트리 부착 코퍼스 31,086 문장에서 추출한 25,000 문장의 Tagged Corpus 을 가지고 한국어 확률 의존 문법 학습을 시도 하였다. 그 결과 초기문법을 10.97% 에서 23.73% 까지 줄인 2,349 개의 정확한 문법을 얻을 수 있었다. 문법의 정확성을 실험 하기 위해 350 개의 실험문장을 Parsing 한 결과 69.61%의 파싱 정확도를 보였다. 이로서 구성요소 내부의 의존관계 학습으로 얻어진 의존문법이 더 정확했으며, 회귀데이터 문제 또한 극복할 수 있음을 알 수 있었다.

  • PDF

XQuery2SQL 변환기 위한 알고리즘 구현 (Algorithm Embodiment for XQuery2SQL Converter)

  • 서현호;김영국;김덕만
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 춘계 종합학술대회 논문집
    • /
    • pp.335-341
    • /
    • 2004
  • 웹 기술의 급속한 발전으로 인한 인터넷의 사용과 정보의 양이 급증하는 요즘 표현 중심적인 언어인 HTML에서는 웹의 정보를 이용하는데 한계를 가져왔으며 이로 인한 대안으로 웹상에서 자유로운 문서 전송 및 교환을 위한 표준이며 W3C에서 데이터 자체의 의미나 상관관계를 표현하는 n이 등장하였다. 이러한 XML문서를 RDBMS에서 저장해서 사용하기 위한 많은 노력이 있으나 구조적으로 XML문서는 트리구조이어서 관계형 DB에 자료를 질의하기 위한 언어인 SQL과 완벽한 호환을 이루지 못한다. 그래서 W3C의 XML 표준 질의인 XQuery가 등장하게 되었다. 이 논문에서는 XML 문서를 파싱하고 DOM 트리과정을 거쳐 RDBMS에 저장된 XML 정보들을 Xeuery2SQL이라는 변환기를 통해서 SQL질의로 변환한 후 RDBMS에 있는 정보를 추출하는 XQuery2SQL 변환 알고리즘을 구현하고자 한다.

  • PDF

비행시험 발사통제 시스템의 신호처리 알고리즘 (The signal processing algorithm of the Missile Flight Test Launch Control System)

  • 오진오
    • 한국정보통신학회논문지
    • /
    • 제19권8호
    • /
    • pp.1965-1972
    • /
    • 2015
  • 비행시험 발사통제 시스템은 유도무기 비행시험 시 사격통제 시스템과 연동하여 동작하고, 유도무기의 종류 및 시험 목적에 따라 시험의 통제 및 상황 감시를 하는 시스템이다. 사격통제 시스템과 비행시험 발사통제 시스템이 연동하기 위한 메시지 구조, 통신 프로토콜, 데이터 타입 등은 발사통제 ICD(Interface Control Document)에 정의되어 있고, ICD는 유도무기 체계별, 시험 목적별로 모두 다르게 구성되어 있다. 기존에는 사격통제 시스템과 연동하기 위해 별도의 연동 소프트웨어를 개발하였으나, 이는 다양한 문제점을 가지고 있었다. 따라서 다양한 발사통제 ICD를 수용할 수 있도록 새로운 파싱 알고리즘을 개발하였고, 사격통제 시스템과 연동하여 다양한 메시지들이 송ㆍ수신되는 것을 확인하여 알고리즘이 정상적으로 동작하는 것을 검증하였다.

HFS+ 저널 파일 파싱 알고리즘을 이용한 삭제된 파일 복구 기법 향상 방안 (A Study to Improve Recovery Ratio of Deleted File Using the Parsing Algorithm of the HFS + Journal File)

  • 방승규;전상준;김도현;이상진
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제5권12호
    • /
    • pp.463-470
    • /
    • 2016
  • 최근 MAC 시스템의 점유율 증가로 MAC 기반 디지털 포렌식 기술의 필요성이 증대되고 있다. 디지털 포렌식 분석 과정에서 시스템 사용자가 의도적으로 증거를 삭제한 경우, 시스템에서 삭제된 파일을 복구하여 혐의를 입증하기도 한다. 이를 위해 파일시스템으로부터 삭제된 파일을 복구하기 위한 연구가 꾸준히 이루어져 왔으며, MAC 기반 파일시스템인 HFS+ 또한 이에 대한 연구가 수행되어왔다. HFS+의 운영 및 구조적 특성상 파일이 삭제되면 해당 파일의 메타데이터가 다른 파일 또는 폴더의 메타데이터에 의해 삭제되기 때문에 주로 시그니처를 활용한 카빙 기법이 사용되어왔다. 하지만 File Content가 파일시스템 상에 분할되어 저장되는 경우, 카빙 기법 또한 파일의 일부분만을 복구하거나 파일 전체를 복구할 수 없었다. 본 논문에서는 HFS+ 저널을 이용한 삭제된 파일의 복구 기법에 대해 소개한다. 이는 기존 연구를 통해 제안된 기법으로 HFS+ 저널에 남아있는 메타데이터를 이용하여 삭제된 파일을 복구하는 기법이다. 하지만 해당 기법은 특정 파일이 복구 대상에서 배제되기 때문에 이에 대한 개선의 여지가 남아있다. 본 연구에서는 HFS+ 저널을 상세히 분석할 수 있는 알고리즘을 제시한다. 또한 해당 알고리즘을 기반으로 추출한 메타데이터를 통해 복구 대상에서 배제되는 파일 없이 삭제된 파일을 복구할 수 있음을 실험을 통해 입증한다.

SQLite 데이터베이스 파일에 대한 데이터 은닉 및 탐지 기법 연구 (The Research on Data Concealing and Detection of SQLite Database)

  • 이재형;조재형;홍기원;김종성
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1347-1359
    • /
    • 2017
  • SQLite는 트랜잭션을 제공하는 파일 기반의 DBMS(Database Management System)이며 경량 플랫폼에 적절하기 때문에 요즘에는 스마트폰에 주로 적재된다. 따라서 스마트폰의 사용량이 증가함에 따라 SQLite와 관련된 범죄가 발생할 가능성이 있다. 본 논문에서는 SQLite 데이터베이스 파일에 대한 새로운 은닉 기법과 이에 대한 탐지 방법을 제안한다. 은닉 실험 결과, 데이터베이스 파일 헤더의 영역 중 70바이트에 고의적으로 데이터를 은닉하는 행위가 가능하였다. 또한 데이터베이스 파일의 페이지 영역을 추가하여 기존의 페이지를 은닉할 수 있었다. 그러나 SQLite 구조를 기반으로 헤더의 70바이트를 파싱하거나 레코드 및 인덱스의 개수를 이용하여 제안하는 은닉을 탐지하는 방법이 가능하였다. 이후, SQLite 은닉된 데이터에 대한 탐지 알고리즘을 제시하였다.

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

우리나라 도로명주소를 활용한 지오코딩 및 역 지오코딩 기법 개발 (Development of Geocoding and Reverse Geocoding Method Implemented for Street-based Addresses in Korea)

  • 석상묵;이지영
    • 한국측량학회지
    • /
    • 제34권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 현재 국내 포털사이트 및 기타 공공기관에서 제공하는 지오코딩 서비스는 어드레스-포인트 지오코딩 기법을 활용한다. 이 기법은 매우 높은 위치 정확도를 가지는 반면, 데이터의 품질이 지오코딩 결과물에 큰 영향을 미치며, 3차원 주소에 대한 지오코딩 및 역 지오코딩에 활용될 수 없다는 한계점이 있다. 이에 본 연구에서는 미국 센서스 국에서 개발한 도로 기반 지오코딩 기법에 기반 하여, 우리나라 도로명주소를 활용한 지오코딩 기법을 제시한다. 이때, 본 연구에서 제안하는 지오코딩 기법은 (1) 단일 건물을 표현하는 2차원 주소뿐만 아니라 지하 건축물 또는 실내 공간까지 포함하는 3차원 주소의 지오코딩을 지원하는 지오코딩 기법과, (2) 특정 지점을 주소로 반환하는 역지오코딩 기법으로 구분된다. 실제 연구 대상지역을 대상으로 제안한 지오코딩 기법을 적용한 결과, 도로명주소의 지오코딩 시 82.63% 매칭률, 역 지오코딩 시 98.5% 매칭률을 가지는 것으로 나타났으며, 평균 위치 오차가 1.7미터로 나타남에 따라 제안한 지오코딩 기법을 활용한 위치 기반 서비스가 가능함을 보였다. 지오코딩 기법 개발에 있어, 본 연구에서는 주소 정규화를 위한 파싱 알고리즘 및 농촌지역, 도로종속 구간 등의 일부 지역을 고려하지 않고 수행하였다. 이에 향후 연구에서는 이와 같은 사항을 고려한 개선된 지오코딩 기법이 제시될 필요가 있다.