• 제목/요약/키워드: 단어길이

검색결과 147건 처리시간 0.021초

난이도가 다른 덩이글 읽기에서의 안구운동 양상 (Eye-movements in reading easy and difficult texts)

  • 윤낙영;고성룡
    • 인지과학
    • /
    • 제20권3호
    • /
    • pp.291-307
    • /
    • 2009
  • 본 연구에서는 대학생들이 어려운 글과 쉬운 글을 읽는 동안에 안구운동을 측정하였다. 비교 분석은 전반적인 수준과 어절 수준에서 이루어졌다. 전반적인 수준을 보면, 평균 고정시간은 어려운 글을 읽을 때가 217ms로 쉬운 글을 읽을 때의 190ms에 비해 길었고, 도약거리는 어려운 글을 읽을 때가 3.7자로 쉬운 글을 읽을 때의 4.8자에 비해 짧았다. 어절 수준에서는 어려운 글의 단일 고정시간(single fixation time: 227ms)과주시시간(gaze duration: 266ms)이쉬운글(각각195ms와 210ms)에서보다 더 길었다. 어려운 글과 쉬운 글 모두에서 단어 빈도 효과와 어절 길이 효과가 있었으며 빈도에 따른 고정시간의 차이와 길이에 따른 고정시간의 차이는 모두 어려운 글에서 더 크게 나타났다.

  • PDF

DNA사슬 내에서 다양한 길이의 팰린드롬쌍 검색 연구 (Identifying Variable-Length Palindromic Pairs in DNA Sequences)

  • 김형래;정경희;전도홍
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.461-472
    • /
    • 2007
  • 게놈 프로젝트 연구는 DNA사슬 내에서 생물학적 의미(예, molecule의 진화역사 또는 그 기능)를 추출하기위한 사슬분석 쪽으로 강조가 되어가고 있다. 특히, DNA사슬 내에서 상보적 또는 반복되는 패턴은 생물학적 의미를 가지고 있다. 문제는 상보적 단어가 만들어내는 흥미 있는 패턴과 단어 구성을 찾아 내는 것이다. 본 논문은 다양한 길이의 팰린드롬 쌍을 검색하는 알고리즘에 관한 연구이다. 다양한 길이의 팰린드롬 쌍 내에는 빈 공백을 또한 허용한다. 알고리즘은 팰린드롬 알고리즘이라고 명명하며 O(N)의 계산 시간을 가진다. 하나의 팰린드롬 쌍은 머리핀 형태로 구성되어 있다. 검출된 여러 팰린드롬 쌍을 활용하여 n-쌍 팰린드롬 형태를 구성하였다. 더욱이 발견된 가장 긴 팰린드롬 쌍을 DNA 사슬 원형 구조에 점으로 표현하여 가시성을 제고하였다. 본 알고리즘은 여러 게놈 상에서 실시되었으며 E.coli K12의 결과를 나타내었다. 실험결과 DNA 안에는 랜덤한 경우에는 확률상 매우 발생하기 힘든 긴 팰린드롬 패턴들이 존재 한다는 것을 발견할 수 있었다.

한국에 유음 /l/의 변이음들의 음성적 실현과 운율적 위상과의 상관관계에 관하여 (On the relationship between the phonetic realizations of the allophones of the Korean liquid /l/ and their prosodic status)

  • 이숙향
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.85-91
    • /
    • 1999
  • 본 연구는 한국어 유음 /l/의 두 변이음 중 [r]의 음성적 실현에 대해 실험음성학적으로 고찰해보았다. 분절음들의 음성학적 실현은 인접해 있는 분절음으로부터 영향을 받을 뿐만 아니라 분절음의 운율적 위치 또한 영향을 미친다. 본 연구는 이런 운율적 위치가 변이음 [r]의 음성적 실현에 어떤 영향을 미치는지 살펴보았다. 운율적 위치는 발화문장 초, 억양구 초, 악센트구 초, 그리고 악센트구 말로 분류하였으며 그리고 단어 내 위치에 따른 영향 또한 살펴보기 위하여 단어 초, 단어 중간, 단어 말로 분류하였다. 네 명의 피험자를 대상으로 음성 실험과 그에 따른 통계 분석 결과, [r]의 음성적 실현은 다양한 것으로 나타났다. 가장 약화 정도가 심한 공명음에서부터, 마찰음, 그리고 [r]의 전형적인 음성적 실현인 짧은 파열음으로까지 다양하게 실현되었다. 짧은 파열음 내에서도 폐쇄구간과 VOT의 길이 또한 다양하게 나타났다. 이들의 다양한 음성적 실현에 미치는 요인 중의 하나는 단어 내 [r]이 나타나는 위치로서 단어 초(때에 따라서는 단어 말에서도)에서가 단어 중간에서보다 약화 현상이 덜한 것으로 나타났다. 이는 음성, 운율 단위초 강화 현상과 단위말 장음화 현상에 기인하는 것으로 판단된다. 그리고 운율적 위치에 따라서도 다양하게 실현되었는데 일반적으로 운율적으로 약한 자리에서가 강한 자리에서보다 약화된 형태인 공명음 또는 마찰음으로 실현되는 경향이 큰 것으로 나타났다. 폐쇄구간이 약화되지 않고 짧은 폐쇄음으로 실현될 경우 폐쇄구간 지속시간은 운율위치와 뚜렷한 상관관계를 보이지 않는 반면 VOT 지속시간은 단어 초 위치에서 높은 상관관계를 보였다. 즉, 발화문장 초와 억양구 초에서가 악센트구 초와 악센트구 중간에서보다 강하게, 즉 길게 실현되는 것으로 나타났다. 이는 [r]의 음성적 실현이 운율적 계층성에 따라 달라지며 운율적으로 강한 자리에서가 약한 자리에서 보다. 또는, 계층적으로 높은 위치에서가 낮은 위치에서보다 분절음 자신의 음성적 특성의 변형(약화)을 덜 입는 것으로 해석할 수 있겠다.

  • PDF

언어 정보를 반영한 문장 점수 측정 기반의 문장 압축 (Sentence Compression based on Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.389-392
    • /
    • 2021
  • 문장 압축은 원본 문장의 중요한 의미를 보존하는 짧은 길이의 압축 문장을 생성하는 자연어처리 태스크이다. 문장 압축은 사용자가 텍스트로부터 필요한 정보를 빠르게 획득할 수 있도록 도울 수 있어 활발히 연구되고 있지만, 기존 연구들은 사람이 직접 정의한 압축 규칙이 필요하거나, 모델 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 사전 학습된 언어 모델을 통한 perplexity 기반의 문장 점수 측정을 통해 문장을 압축하여 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않은 연구 또한 존재하지만, 문장 점수 측정에 문장에 속한 단어들의 의미적 중요도를 반영하지 못하여 중요한 단어가 삭제되는 문제점이 존재한다. 본 논문은 언어 정보 중 품사 정보, 의존관계 정보, 개체명 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 측정에 반영하는 방법을 제안한다. 또한 제안한 문장 점수 측정 방법을 활용하였을 때 문장 점수 측정 기반 문장 압축 모델의 문장 압축 성능이 향상됨을 확인하였으며, 이를 통해 문장에 속한 단어의 언어 정보를 문장 점수 측정에 반영하는 것이 의미적으로 적절한 압축 문장을 생성하는 데 도움이 될 수 있음을 보였다.

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

한국어의 형태론적 모호성 유형 및 해결 방안 (Classification and Disambiguation of Morphological Ambiguity of the Korean Language)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.83-87
    • /
    • 1997
  • 한국어는 실질형태소와 형식형태소가 결합되는 교착어라는 특성 때문에 품사 모호성을 비롯한 여러 가지 유형의 형태론적 모호성이 발생한다. 형태론적 모호성 해결의 관점에서 형태론적 모호성을 한국어의 특성에 따라 어근 유형 모호성, 형태소 분리 모호성, 형태소 길이 모호성, 불규칙 용언의 원형 복원 모호성, '아/에/이' 탈락 모호성 등으로 분류한다. 이 때 임의의 두 분석 결과에서 발생하는 모호성이 특정 유형에만 속하도록 모호성 유형들을 서로 독립적으로 정의한다. 또한 품사 모호성을 계층적 품사 분류 체계에 따라 $1{\sim}3$차적 품사 모호성으로 구분하고 국어사전에서 발견되는 품사 모호성을 분석한다. 이를 기반으로 형태론적 모호성의 유형을 단어 내에서 해결 가능한 것과 그렇지 않은 것으로 구분하여, 단어 내에서 해결 가능한 모호성을 해결하는 방법을 제안한다.

  • PDF

멀티프로세서 구조를 이용한 Wave Digital Filter의 구현 (Implementation of Wave Digital Filters Based on Multiprocessor Architecture)

  • 김형교
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2303-2307
    • /
    • 2006
  • Wave Digital Filter(WDF)는 그 구조상 반올림 오차에 의한 잡음에 아주 강하기 때문에 필터로 구현되는 DSP 알고리듬에 있어 그 필터의 계수의 단어길이가 짧을 경우 아주 유용하게 이용될 수 있다. 본 논문에서는 멀티프로세서 구조를 채택하여 입력의 샘플링 속도, 프로세서의 수, 그리고 주어진 입력에 대한출력의 지연에 있어 최적인 WDF를 구현하고자 한다. 이 구현은 제어신호를 포함한 완전한 회로도로 주어지며, 이 화로도는 기존의 실리콘 컴 파일러를 이용하여 VLSI 레이아웃으로 용이하게 변환 될 수 있다.

AC-3 복호화 알고리듬의 고정 소수점 오차 최적화 (Fixed-point Error Optimization of AC-3 Decoding Algorithm)

  • 이근섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.438-441
    • /
    • 1998
  • 최근 미국 내 표준안으로서 많이 사용되고 있는 AC-3 오디오 알고리듬은 그 복잡성으로 인하여 실시간 구현을 위해선 프로세서로 구현하는 것이 적합하다. AC-3 복호화 알고리듬은 많은 부분이 실수연산으로 이루어져 있으므로 소수점을 고려한 연산이 필요한데, 프로세서로 구현할 때는 적은 비용과 빠른 속도로 실수연산을 수행하기 위해서 부동소수점보다는 고정소수점 연산이 유리하다. 그러나 고정소수점 연산시 발생하는 유한 단어길이 효과로 인하여 양자화 오차가 발생하므로 복호화된 오디오 신호의 음질저하를 최소화하기 위해서는 최적화가 필요하다. 본 논문에서는 AC-3 복호화 알고리듬의 부분별 양자화 오차를 분석하고 그 결과 가장 많은 오차를 발생시키는 역 TDAC 변환의 오차를 최적화하였다. Fast TDAC 변환이 FFT로 이루어져 있으므로 고정 소수점 연산시 오차가 적은 FFT 구조를 제안하였다. 제안된 구조를 사용하여 AC-3 고정소수점 복호화기를 C 언어를 사용하여 구현하였으며, AC-3 부동소수점 복호화기와 최종 PCM을 비교하여 그 성능을 평가하였다.

  • PDF

CRF를 이용한 한국어 운율 경계 추정 (Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean)

  • 김승원;김병창;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.134-138
    • /
    • 2005
  • 본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

  • PDF

호텔예약을 위한 자동통역 시스템 (An Experimental Speech Translation System for Hotel Reservation)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF