• 제목/요약/키워드: Korean parsing

검색결과 326건 처리시간 0.026초

웹기반 언어 학습시스템을 위한 한국어 철자/문법 검사기의 성능 향상 (Improving a Korean Spell/Grammar Checker for the Web-Based Language Learning System)

  • 남현숙;김광영;권혁철
    • 인지과학
    • /
    • 제12권3호
    • /
    • pp.1-18
    • /
    • 2001
  • 이 논문의 목적은 한국어 철자/문법 검사기를 교육적으로 활용한 웹 기반 국어 작문 학습 시스템의 구현이다. 웹 기반 학습시스템 \\`우리말 배움터\\`의 학습효과를 최대화하려면 한국어 철자/문법 검사기의 성능을 꾸준히 향상해야 한다 오늘날 자연어처리 시스템의 성능은 의미처리를 얼마나 정확하게 수행하는가에 달려있다 한국어 철자/문법 검사기에서 의미처리와 관련이 있는 부분은 철자 검사기에서 접사나 꼬리말과 파생하는 단어와 복합명사를 교정하는 처리기와 의미·문체 오류를 교정하는 문법 검사기이다. 본 시스템에서는 의미처리를 위하여 의존문법에 기반하여 부분문장분석과 연어관계정보를 이용한다. 여기에 더 세부적인 규칙을 추가하기 위해 단어를 개념적으로 분류하고 문장의 핵심요소인 동사를 하위범주화한 결과를 적용한다. 의미처리 기능을 강화한 철자/문법 검사기를 온라인으로 운영함으로써 웹에 기반한 한국어 학습시tm템과 통합된 환경에서 능동적이고 지능적인 학습 모형을 구현한다. 이 논문에서 다루는 의미처리의 대상은 주로 구문 단위이기 때문에 여러 개의 절이 모여 하나의 문장이 된 복문이나 중문은 다루지 못하고 있다. 또한 일률적인 체계 속에서 단어를 의미적으로 분류하는 데에도 많은 한계가 있다. 한편 이러한 자연어처리시스템을 웹 기반 학습시스템에 연결하여 효율적인 학습효과를 거두려면 학습내용 구성이나 인터페이스 설계 면에서도 고려해야 할 중요한 문제가 많다. 결론에서는 아직 완전하게 해결하지 못한 문제에 대해 고찰한다.

  • PDF

프레임 기반의 우선순위화를 적용한 네트워크 적응형 HD MPEG-2 스트리밍의 설계 및 구현 (Design and Implementation of Network-Adaptive High Definition MPEG-2 Streaming employing frame-based Prioritized Packetization)

  • 박상훈;이승주;김종원;김우석
    • 한국통신학회논문지
    • /
    • 제30권10A호
    • /
    • pp.886-895
    • /
    • 2005
  • 최근 네트워크 미디어 기술의 발달로 인터넷 망에서 HDTV급의 고화질 비디오를 스트리밍하는 시도가 많이 이루어 지고 있다. 그러나 최선형 서비스(best-effort service)를 기반으로 하는 인터넷 망에서 고화질 비디오를 안정적으로 스트리밍하기 위해서는 네트워크 상황에 적응할 수 있는 전송 기법이 요구된다. 본 논문에서는 MPEG 프레임(I, P, B)기반의 패킷 우선순위화를 적용한 네트워크 적응형 HD MPEG-2 스트리밍 시스템을 설계 및 구현한다. 전송 비디오는 JVC HDV 카메라로부터 실시간으로 입력받으며 19.2 Mbps의 비트율과 MPEG-2 TS (MPEG-2 MP@HL) 형식을 갖는다. 네트워크 상태의 측정은 스트리밍 클라이언트에서의 RTP 패킷 헤더의 파싱을 이용한 패킷 손실율과 평균 지터의 측정을 통해 이루어지며 이 정보는 주기적으로 스트리밍 서버로 피드백 된다. 스트리밍 서버의 네트워크 적응 관리자(network adaptation manager)에서는 네트워크 상태에 따라 프레임의 중요도에 따른 프레임 폐기(frame dropping)를 함으로서 전송률 적응을 수행한다. 이와 관련하여 TS 패킷의 실시간 파싱 및 프레임 기반 패킷 우선순위화 기법이 제안된다. 제안 시스템은 소프트웨어로 구현되며 LAN 환경에서의 실험을 통해 네트워크의 이용 가능한 대역폭이 변동하는 상황에서 HD 스트리밍의 종단 간 서비스 품질을 향상시킴을 보여준다.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

Cross Layer 기반의 무선랜 채널 모니터링을 적용한 네트워크 적응형 HD 비디오 스트리밍 (Network-Adaptive HD Video Streaming with Cross-Layered WLAM Channel Monitoring)

  • 박상훈;윤하영;김종원;조창식
    • 한국통신학회논문지
    • /
    • 제31권4A호
    • /
    • pp.421-430
    • /
    • 2006
  • 본 논문에서는 IEEE 802.11a 무선랜(WLAN) 환경에서 Cross Layer 기반의 채널 모니터링(Cross-Layered Monitoring: CLM)을 이용한 네트워크 적응형 고선명(high definition: HD) MPEG-2 TS 비디오 스트리밍 시스템을 제안한다. 무선 채널 모니터링을 위해 AE(access point)는 MAC(medium access control) 계층의 전송 상태를 주기적으로 측정하고 응용 계층의 스트리밍 서버로 전달한다. 이것은 비디오 스트리밍 응용 프로그램이 피드백 기반의 종단간 모니터링(End-to-End Monitoring: E2EM) 기법을 적용할 때보다 가변적인 무선 채널 상태에 좀 더 빠르고 효과적으로 적응할 수 있게 한다. 스트리밍 서버는 네트워크에 적응적인 전송을 위해 측정된 무선 채널 상태에 따라 우선순위 기반의 프레임 폐기(priority-based frame dropping)를 수행한다. 이를 위해 스트리밍 서버는 실시간 파싱(real-time parsing)과 프레임 기반의 패킷 우선순위화(frame-based prioritized packetization) 기능을 제공한다. 성능 평가를 위해 IEEE 802.11a 무선랜 환경에서의 다양한 스트리밍 실험을 수행한다. 실험 결과는 제안 시스템이 시간에 따라 가변하는 무선 채널 상태에서 기존 기법에 비해 종단간 비디오 스트리밍의 품질을 향상시킬 수 있음을 보여준다.

특이값 분해와 점증적 클러스터링을 이용한 뉴스 비디오 샷 경계 탐지 (News Video Shot Boundary Detection using Singular Value Decomposition and Incremental Clustering)

  • 이한성;임영희;박대희;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.169-177
    • /
    • 2009
  • 본 논문에서는 뉴스 기사 분할 관점에서, 뉴스 비디오 샷 경계 탐지 알고리즘의 특성을 고려한 다음과 같은 설계 기준을 제시하고, 이를 모두 만족하는 새로운 샷 경계 탐지 알고리즘을 제안하고자 한다. 1) 뉴스 비디오 샷 경계 탐지의 재현율을 높임으로써, 앵커 샷 탐지 단계에서 입력으로 사용될 데이타의 오류를 최소화한다; 2) 급격한 장면 변환과 점증적 장면 변환을 하나의 알고리즘으로 탐지함으로써 한번의 데이타 탐색으로 샷 분할을 수행한다; 3) 분할된 샷들을 정적 샷과 동적 샷으로 분류함으로써 앵커샷 탐지 단계의 탐색 공간을 축소한다. 제안된 뉴스 비디오 샷 경계 탐지 알고리즘은 특이간 분해를 기반으로 점증적 클러스터링 알고리즘과 머서 커널을 결합한 구조로서, 위에서 제시한 기준을 모두 만족하도록 설계되었다. 제안된 방법론은 특이간 분해를 통해 특징 벡터의 차원축소 뿐만 아니라, 뉴스 비디오를 구성하는 연속적인 프레임에서의 잡음과 아주 작은 변화를 제거함으로써 분류 성능을 높일 수 있다. 또한 머서 커널의 도입은 쉽게 분류되지 않는 데이타를 고차원 공간으로 매핑함으로써 구분하기 어려운 샷 경계의 탐지 가능성을 높여준다. 실험을 통하여 제안된 방법론이 매우 높은 재현율을 보이며, 앵커 샷 탐지를 위한 탐색 공간 축소를 효과적으로 수행함을 보인다.

Improved Method for Learning Context-Free Grammar using Tabular representation

  • Jung, Soon-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.43-51
    • /
    • 2022
  • 이 논문은 문법적 추론에서 유전자 알고리즘의 진화대상으로 테이블 표현(Tabular representation: TBL)을 이용한 문맥자유 문법(Context-free grammar: CFG)을 학습하는 기존의 방법을 개선하여 더 효율적인 결과를 얻은 그 방법과 실험 결과를 제시한다. 이 논문에서 소개하는 개선된 점은 두가지로, 첫째는 적합도 함수를 긍정과 부정의 예들에 대한 학습 평가를 동시에 반영하도록 수식을 개선하고 둘째는 긍정적 학습 예들로부터 생성된 TBL들에 대응되는 파티션(partition)들을 학습 문자열의 크기별로 분류하여 부류별 진화 과정을 진행하며 그 성공률에 따라 구성 비율을 조정하여 다음세대에 생존에 연계하는 학습 방법을 적용한다. 이 개선점들은 학습 예들의 크기에 따른 TBL의 크기가 여러 개체들 사이의 교배와 일반화 단계에서 복잡성과 어려움을 해결하여 기존 방법보다도 좋은 효율을 제공한다. 이 연구는 기존 방법에서 제안된 언어들로 실험하고 그 결과는 기존 방법보다 같은 성공률을 갖는 상태에서 학습 완성의 평균 세대수가 적게 걸리는 다소 빠른 세대속도의 결과를 보여준다. 앞으로 이 방법은 확장된(extended) CYK에 시도할 수 있으며 더 나아가 좀 더 복잡한 파싱 테이블(parsing table)에도 적용할 가능성을 제시한다.

한글문자의 컴퓨터 처리: I. 이론 (Korean Character processing: Part I. Theoretical Foundation)

  • 정원량
    • 대한전자공학회논문지
    • /
    • 제16권3호
    • /
    • pp.1-8
    • /
    • 1979
  • 2부에 걸친 한글의 컴퓨터 처리에 관한 논문으로서, 제1부에서는 한글문자의 컴퓨터 처리의 제문제점을 확인하고 이를 위한 해결책으로 이론적 기반의 확립을 제안 하였다. 한글문자의 일차원적 문법과 이차원적 구조를 각각 BNF와 " patternal structure"를 사용하여 정의하고 이로부터 모아쓰기를 위한 lexical analysis 및 Parsing a1gorithm을 이론적으로 토론 하였다. 모아쓰기 algorithm은 한글의 입력과 출력 모두에 응용이 가능하며, device-independence를 위해 "cardinal symbol set"의 개념을 소개하였다. 제2부에서는 한글 컴퓨터 처리의 역사적 개론과 상기 algorithm의 implementation 문제점들을 토론하고자 한다.

  • PDF

안구운동 추적을 통한 한국어 중의성 해소과정 연구 (Resolving Grammatical Marking Ambiguities of Korean: An Eye-tracking Study)

  • 김영진
    • 인지과학
    • /
    • 제15권4호
    • /
    • pp.49-59
    • /
    • 2004
  • 한국어의 문법적 표지 중의성 해소 과정과, 한국어의 형태론적 정보 처리과정에 관한 길-혼동 의형과 제약-기반 모형의 예측을 비교 검토하기 위해 안구운동 추적 연구를 수행하였다. 최소부착원리에 따라 구문분석될 수 있는 복합 명사구 구조와, 첫 명사에 주격조사 (-가/이), 한정사(-만), 및 주제표지(-는/은)가 부착되는 삽입 관계절 구조를 비교하였다. 실험 결과, 한국어의 표지 중의성이 최소 부착의 원리에 따라 해소됨을 확인할 수 있었고, 주제표지는 재분석 과정에 영향을 끼침을 알 수 있었다. 안구 고정 시간의 양상은 길-혼동 모형과 더 일치했으며, 제약-기반 설명과는 일치하지 않았다. 추후 연구를 위한 제안을 논의하였다.

  • PDF

Syntactic법에 의한 한글의 패턴 인식에 관한 연구 (A Study on the Pattern Recognition of Korean Characters by Syntactic Method)

  • 김태균
    • 대한전자공학회논문지
    • /
    • 제14권5호
    • /
    • pp.15-21
    • /
    • 1977
  • 본 논문은 Syntactic법에 의한 한글의 인식 algorithm에 대하여 논한 것으로 인식절차는 크게 나누어 전처리, graph화, 분할의 3단계로 구성되어 있다. 전처리과정에서는 Hilditch의 thinning algorithm을 이용하여 입력문자의 골격패턴을 얻었다. graph화 단계에서는 세선화패턴으로 부터 4종류의 특징점을 추출하여 입력패턴을 기본패턴의 구성관계로 나타냈다. 분할단에서는 tree문법에 의한 패턴해석을 수행, 입력패턴을 구성하는 각 자모를 순차적으로 추출하였다. 본 algorithm의 효용성을 검토하기 위하여 전자계산기를 이용, 511자의 인쇄체 한글에 대하여 인식실험을 행하였다. 그 결과 약 90%의 정인식율을 얻었다.

  • PDF

A Multi-task Self-attention Model Using Pre-trained Language Models on Universal Dependency Annotations

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.39-46
    • /
    • 2022
  • 본 논문에서는 UD Korean Kaist v2.3 코퍼스를 이용하여 범용 품사 태깅, 표제어추출 그리고 의존 구문분석을 동시에 예측할 수 있는 보편적 다중 작업 모델을 제안하였다. 제안 모델은 사전학습 언어모델인 다국어 BERT (Multilingual BERT)와 한국어 BERT (KR-BERT와 KoBERT)을 대상으로 추가학습 (fine-tuning)을 수행하여 BERT 모델의 자가-집중 (self-attention) 기법과 그래프 기반 Biaffine attention 기법을 적용하여 제안 모델의 성능을 비교 분석하였다.