• 제목/요약/키워드: Korean parsing

검색결과 325건 처리시간 0.026초

문장구조분석을 위한 서술성 명사 복원 (Restoring a Predicative Noun to Verb for Parsing)

  • 임수종;이창기;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.475-477
    • /
    • 2005
  • 본 연구는 신문기사나 백과사전 등의 문서에서 빈번히 발생하는 동사 파생 접미사와 어미가 생략된 형태의 서술성 명사를 동사로 복원하는 방법에 대한 것으로 이러한 복원은 문장구조 분석에 영향을 미친다. 기존 연구는 간단한 규칙만을 사용하지만 규칙을 사용하는 방법은 재현률에서 성능 저하를 보이기 때문에 본 연구에서는 이러한 생략 형태를 구분하여 규칙과 통계 방법을 사용하여 각각 적합한 형태에 적용하였다. 본 연구의 접근 방법은 규칙 기반에 비해 약 $30\%$, 통계 기반에 비해 약 $8\%$의 성능 향상을 보여서 문장 구조 분석에서는 $3.6\%$의 성능 향상을 보였다.

  • PDF

포렌식 컴퓨팅을 위한 XML 기반 지적 재산권 매핑 시스템 (Happing System of XML-based Intellectual Property Rights for Forensic Computing)

  • 황철;노흥식;황대준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.655-657
    • /
    • 2001
  • 포렌식 컴뷰팅에 관하여 1984년부터 많은 연구가 진행되어 왔으며, 이 분야 연구는 주로 디스크에 관한 화학적, 물리적 방법을 이용한 증거 추출(Evidence Capture)에 중점을 두어 왔다. 최근 forensic software engineering 분야의 접근은 알고리즘의 error detection에 연구방향을 두고 있다. 그러나 지적 재산권 법을 온라인 상에서 컨텐츠를 이용하는 가운데 적용 시키는 연구는 미비하다. 본 연구에서는 지적 재산권을 이용한 XML tree를 만들고, parsing하여 RDB를 구축한 후 질의 (query)하여 매핑(mapping)시키는 시스템을 구현 하고자 한다. 입력자료는 우리가 기존에 개발한 DRM(Digital Rights Management)시스템에서 사용자를 모니터링하여 검출한 불법 복사/증거 프로 파일로 한다. 이것은 법 전문가에 의뢰하기 전에, 사용되는 컨텐츠가 법에 위배 된다면 지적재산권 법 몇조 몇항에 해당되는지를 사용자, 대리인/변호인, attorney, judge 등에게 컨설팅 해주는 시스템이다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 (A Korean Grammar Checker using Lexical Disambiguation Rule and Partial Parsing)

  • 소길자;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권3호
    • /
    • pp.305-315
    • /
    • 2001
  • 본 논문에서는 우리말 문서에 있는 오류를 어절 단위로 검증하는 철자 오류와 여러 어절을 분석해야 처리할 수 있는 문법 오류로 분류하였다. 문법 오류를 처리할 때 전체 문장 분석은 시간이 많이 소요되고 구현하기 어려우므로 대부분 부분 문장 분석 방법을 이용한다. 기존 연구에서 사용한 부분 문장 분석은 분석 어절에 어휘 중의성이 있을 때 문장 분석 종결 또는 과분석 등의 오류가 발생한다. 본 논문에서는 문법 검사기에서 어휘 중의성 때문에 발생하는 문제점을 해결하는 방법으로 어휘 중의성 제거 규칙을 사용한다. 본 논문에서 구현한 어휘 중의성 제거 모듈은 코퍼스 데이타에서 얻은 경험적 규칙을 기반으로 한다. 이 경험적 규칙은 언어적 지식을 기반으로 한다.

  • PDF

MPEG-IoMT 참조 SW 에서의 웨어러블 기반 의료정보 서술 툴 검증 (Verification on Description of Wearable - Based Healthcare Information in MPEG-IoMT Reference SW)

  • 양안나;이예진;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.285-287
    • /
    • 2019
  • MPEG - IoMT(Internet of Media Things) 는 사물 인터넷 및 웨어러블 환경에서의 효율적인 미디어 서비스 제공을 위한 데이터 포맷 및 API(Application Programming Interface) 표준을 제공하고 있다. 본 논문에서는 MPEG - IoMT 에 채택된 헬스케어(healthcare) 정보 서술 툴에 대한 IoMT 참조 SW 에서의 검증 실험내용을 기술한다. IoMT 는 의료영상 저장/관리 및 통신을 위한 표준인 DICOM (Digital Imaging a nd Communication in Medical)을 기반으로 의료 미디어 정보를 기술하기 위한 Healthcare Information 스키마(schema)와 이를 기반으로 서술된 정보를 IoT 및 웨어러블 환경에서 활용하기 위한 API 표준을 포함하고 있다. 본 논문에서는 IoMT 참조 SW 를 이용하여 헬스케어 스키마에 따른 헬스케어 정보의 생성 및 파싱(parsing) 을 검증하고, 서술정보를 MThing (Media Thing) 들 간의 교환을 위한 API 에 대한 검증 내용을 보인다.

  • PDF

한국어 의미 자원 구축 및 의미 파싱을 위한 Korean AMR 데이터 자동 증강 (Automatic Data Augmentation for Korean AMR Sembanking & Parsing)

  • 최현수;민진우;나승훈;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-291
    • /
    • 2020
  • 본 연구에서는 한국어 의미 표상 자원 구축과 의미 파싱 성능 향상을 위한 데이터 자동 증강 방법을 제안하고 수동 구축 결과 대비 자동 변환 정확도를 보인다. 지도 학습 기반의 AMR 파싱 모델이 유의미한 성능에 도달하려면 대량의 주석 데이터가 반드시 필요하다. 본 연구에서는 기성 언어 분석 기술 또는 기존에 구축된 말뭉치의 주석 정보를 바탕으로 Semi-AMR 데이터를 변환해내는 알고리즘을 제시하며, 자동 변환 결과는 Gold-standard 데이터에 대해 Smatch F1 0.46의 일치도를 보였다. 일정 수준 이상의 정확도를 보이는 자동 증강 데이터는 주석 프로젝트에 소요되는 비용을 경감시키는 데에 활용될 수 있다.

  • PDF

글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시 (Suggestion of development for domestic game market through big data analysis of global game trend)

  • 송준협;임민우;김한수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

TPEG-GPS 데이터를 활용한 실시간 교통정보 검증 시스템 개발에 관한 연구 (A study on development of verification system for real-time traffic data using TPEG data and GPS device)

  • 박영수;정용무;민수영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 춘계학술대회
    • /
    • pp.547-549
    • /
    • 2012
  • 본 연구에서는 TPEG(Transport Protocol Expert Group)의 수신 플랫폼을 개발하고 이에 대한 정확도를 검증하기 위한 실시간 검증 플랫폼을 개발하였다. GPS 장치를 갖춘 차량을 통해 얻은 실제 도로 교통정보와 같은 시간의 TPEG 데이터를 수신하고 파싱하여 얻어진 교통정보를 비교했다. 그 결과 TPEG은 실제 교통정보와 차이가 발생함을 알 수 있었다.

  • PDF

선박 블록 단위의 대용량 JT 파일을 안드로이드 기기에서 가시화하는 방법 (A Method for Visualizing a Large JT File of Ship Blocks in an Android Device)

  • 천상욱;서흥원
    • 한국CDE학회논문집
    • /
    • 제18권4호
    • /
    • pp.258-266
    • /
    • 2013
  • In shipbuilding, 2D manufacturing drawings are crucial for building a ship. Even various types of 3D models are being utilized for supporting ship manufacturing, which does not reduce the importance of 2D drawings. Recently things are changing in the shipbuilding industry. To reduce the number of 2D drawings or to reduce the quantity of information contained in 2D drawings, some attempts that can substitute for 2D drawings are being made. One of the attempts is to visualize lightweight 3D manufacturing models in a mobile device. In this paper, a method for displaying lightweight 3D models of a ship in an Android based device is introduced. To overcome the problem with parsing JT files in Android system, JT files are parsed in a Windows based server and as-simple-as-possible visualization data are transmitted to an Android based viewer. A comparison result with a commercial system is also given.

Multi-task sequence-to-sequence learning을 이용한 한국어 형태소 분석과 구구조 구문 분석 (Korean morphological analysis and phrase structure parsing using multi-task sequence-to-sequence learning)

  • 황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-107
    • /
    • 2017
  • 한국어 형태소 분석 및 구구조 구문 분석은 한국어 자연어처리에서 난이도가 높은 작업들로서 최근에는 해당 문제들을 출력열 생성 문제로 바꾸어 sequence-to-sequence 모델을 이용한 end-to-end 방식의 접근법들이 연구되었다. 한국어 형태소 분석 및 구구조 구문 분석을 출력열 생성 문제로 바꿀 시 해당 출력 결과는 하나의 열로서 합쳐질 수가 있다. 본 논문에서는 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 구구조 구문 분석을 동시에 처리하는 모델을 제안한다. 실험 결과 한국어 형태소 분석과 구구조 구문 분석을 동시에 처리할 시 형태소 분석이 구구조 구문 분석에 영향을 주는 것을 확인 하였으며, 구구조 구문 분석 또한 형태소 분석에 영향을 주어 서로 영향을 줄 수 있음을 확인하였다.

  • PDF

딥러닝을 이용한 전이 기반 한국어 품사 태깅 & 의존 파싱 통합 모델 (A Transition based Joint Model for Korean POS Tagging & Dependency Parsing using Deep Learning)

  • 민진우;나승훈;신종훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 2017
  • 형태소 분석과 의존 파싱은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있다. 이러한 핵심적인 역할을 수행하는 형태소 분석과 의존 파싱에 대해 일괄적으로 학습하는 통합 모델에 대한 필요성이 대두 되었고 이에 대한 많은 연구들이 수행되었다. 기존의 형태소 분석 & 의존 파싱 통합 모델은 먼저 형태소 분석 및 품사 태깅에 대한 학습을 수행한 후 이어서 의존 파싱 모델을 학습하는 파이프라인 방식으로 진행되었다. 이러한 방식의 학습을 두 번 연이어 진행하기 때문에 시간이 오래 걸리고 또한 형태소 분석과 파싱이 서로 영향을 주지 못하는 단점이 존재하였다. 본 논문에서는 의존 파싱에서 형태소 분석에 대한 전이 액션을 포함하도록 전이 액션을 확장하여 한국어 형태소 분석 & 의존파싱에 대한 통합모델을 제안하였고 성능 측정 결과 세종 형태소 분석 데이터 셋에서 F1 97.63%, SPMRL '14 한국어 의존 파싱 데이터 셋에서 UAS 90.48%, LAS 88.87%의 성능을 보여주어 기존의 의존 파싱 성능을 더욱 향상시켰다.

  • PDF