• Title/Summary/Keyword: 단위 사용

검색결과 5,600건 처리시간 0.038초

주변 문장 유사도를 이용한 문서 재사용 측정 모델 (A Text Reuse Measuring Model Using Circumference Sentence Similarity)

  • 최성원;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

가변합성단위를 사용한 문서 음성 변환 시스템 (Text-to-Speech System Using Variable Synthesis Units)

  • 조관선;이철희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.99-102
    • /
    • 1998
  • 본 논문에서는 자연스러운 음성을 합성하기 위해 가변합성단위를 사용한 합성시스템을 제안한다. 음소나 diphone과 같은 작은 단위를 사용하는 기존의 시스템은 음성세그먼트 연결시 접속점이 많아지는 단점이 있다. 반면에 단어나 복합음소와 같이 큰 단위를 사용할 경우 접속점의 수가 감소하여 음질이 향상되지만 단위수 증가로 무제한 합성이 어려워진다. 이러한 문제를 해결하기 위하여 본 논문에서는 접속점의 수를 줄이고 적정한 크기의 메모리로 향상된 음질을 얻기 위한 방법으로 어절 및 CVC와 같은 큰 단위와 반음절과 같은 작은 단위를 선택적으로 사용하여 음성을 합성한다. 실험은 특정문장을 대상으로 각각 반음절, CVC로 합성한 음성과 이들을 어절과 혼합하여 합성한 음성을 비교하였으며 그 결과 가변단위를 사용하여 합성한 음성이 비교적 자연스러움을 알 수 있었다.

  • PDF

중등 과학교과서에서 사용된 염분 단위 분석 및 단위 개정을 위한 제안 (Analyses of Salinity Unit in the Secondary School Science Textbook and Suggestion for Its Correction)

  • 박경애;최지영
    • 한국지구과학회지
    • /
    • 제30권4호
    • /
    • pp.513-526
    • /
    • 2009
  • 해양 염분의 단위가 퍼밀(%o)에서 다른 단위로 바뀐 지 오랜 세월이 지났다. 하지만 우리나라 중학교, 고등학교 과학 및 지구과학 교과서는 여전히 오래 전에 정의한 염분 단위인 퍼밀(%o)을 사용하고 있다. 본 연구의 목적은 염분단위의 변화와 측정 기술에 대한 역사적 발달 과정을 개괄적으로 다루고, 염분 단위들 사이의 차이를 제시하며, 그리고 교과서에서의 염분 단위 수정에 대한 필요성과 타당성을 강조하는데 있다. 이를 위해 제 7차 교육과정에 기초한 27종의 중등 과학교과서에서 다루고 있는 염분 단위의 표현, 염분의 정의들을 조사하였다. 분석 결과는 1967년부터 2008년까지 한국해양학회지에 게재된 논문들에서 사용하고 있는 염분 단위 사용의 빈도수와 비교하였다. %o 사용의 백분율은 교과서 본문에서 96.3%, 그림과 표에서 83.8%에 달하였다. 이에 반해 과학적 논문들은 1994년부터 psu를 사용하기 시작하였으며, 2004년 이후로는 %o을 거의 사용하지 않고 있었다.

의사 형태소 단위의 연속 음성 인식 (Pseudo-Morpheme-Based Continuous Speech Recognition)

  • 이경님
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.309-314
    • /
    • 1998
  • 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소를 정의하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 37개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다. 각 음성신호 구간에 해당되는 의사 형태소가 인식되면 언어모델을 사용하여 구성된 의사 형태소 단위의 상위 5개 문장을 기반으로 시작 시점과 끝 시점, 그리고 확률 값을 가진 의사 형태소 격자를 생성하고, 음성 사전으로부터 태그 정보를 격자에 추가하였다. Tree-trellis 탐색 알고리즘 기반에 의사 형태소 접속정보를 사용하여 음성언어 형태소 해석을 수행하였다. 본 논문에서 제안한 의사 형태소를 문장의디코딩 단위로 사용하였을 경우, 사전의 크기면에서 어절 기반의 사전 entry 수를 현저히 줄일 수 있었으며, 문장 인식률면에서 문자기반 형태소 단위보다 약 20% 이상의 인식률 향상을 얻을 수있었다. 뿐만 아니라 형태소 해석을 수행하기 위해 별도의 분석과정 없이 입력값으로 사용되며, 전반적으로 문자을 구성하는 디코딩 수를 안정화 시킬 수 있었다. 이 결과값은 상위레벨 언어처리를 위한 입력?으로 사용될 뿐만 아니라, 언어 정보를 이용한 후처리 과정을 거쳐 더 나은 인식률 향상을 꾀할 수 있다.

  • PDF

$k$-NN으로 확장된 한국어 단위화 (Expanded Korean Chunking by $k$-NN)

  • 박성배;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.182-184
    • /
    • 2000
  • 대부분의 자연언어처리에서 단위화는 구문 분석 이전의 매우 기본적인 처리 단계로, 텍스트 문장을 문법적으로 서로 관련된 단위로 분할하는 것이다. 따라서, 단위화를 이용하면 구문 분석이나 의미 분석 등에서 메모리와 시간을 효율적으로 줄일 수 있다. 일반적으로 통찰에 의한 규칙을 사용해서도 비교적 높은 단위화 성능을 얻을 수 있지만, 본 논문에서는 기계 학습 기법인 k-NN을 사용하여 보다 정확한 단위화를 구현한다. 인터넷 홈페이지에서 얻은 1,273 문장을 대상으로 학습한 결과, k-NN으로 단위화를 확장했을 때에 확장하지 않았을 때보다 2.3%의 정확도 증가를 보였다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

식물생산과 관련한 광의 물리학적 용어 및 개념

  • 김용현
    • Journal of Biosystems Engineering
    • /
    • 제22권4호
    • /
    • pp.503-512
    • /
    • 1997
  • 최근들어 원예학, 농학, 식물학 등의 분야에서 각종 환경요인에 대한 식물의 생장반응을 연구하기 위한 기초 실험의 상당 부분이 인공광원을 사용한 가운데 이루어지고 있다. 또한 상기의 기초연구 이외에 식물공장에서와 같이 인공광과 태양광의 병용 또는 인공광만을 사용한 식물생산의 상업화에 대한 연구가 활발하게 이루어지고 있는 가운데 조직 배양묘, 접목묘, 실생묘 등을 인공광하에서 효율적으로 생산하기 위한 식물묘 생산의 실용화 연구도 수행되고 있다. 그런데 식물생산과 밀접하게 관련된 광(또는 복사)에 관련된 용어의 정의 또는 단위가 물리학, 조명 공학, 생물학 등의 전문 분야에 따라 서로 다른 경우가 있으며, 식물을 연구 대상으로 삼는 분야에서도 관련 용어와 단위가 뒤섞여 사용되기도 한다. 즉 하나의 용어가 복수의 의미로 사용되거나, 반대로 하나의 정의에 대해서 다수의 용어가 사용되기도 한다. 이러한 경우 단위가 명확하게 표시되지 않으면 사용된 용어의 의미가 애매하게 전달될 수 있다. 그러므로 식물생산과 관련된 용어 또는 단위의 사용에 혼란이 초래되지 않도록 용어와 단위를 통일하는 것이 바람직 할 것으로 판단된다.(중략)

  • PDF

법정계량단위와 생활계량단위의 공존방안 (Proposals for the Coexisting of Legal Units and Living Measures)

  • 손진현
    • 한국콘텐츠학회논문지
    • /
    • 제8권9호
    • /
    • pp.185-193
    • /
    • 2008
  • 정부는 2007년 7월 1일부터 ‘평’이나 ‘돈’과 같은 비(非)법정계량단위를 상거래 활동에서 기준단위로 사용하는 것뿐만 아니라 보조적으로 표시하는 행위까지 단속하고 있다. 그런데 평이나 돈과 같은 단위는 여전히 그 형태가 다른 방식으로 유지되고 있다. 이러한 이유는 평이나 돈과 같은 생활계량단위가 나름대로의 의미를 지니고 있어 생활 속에서 사용하기 편리하기 때문이다. 본 연구에서는 나름대로의 편리함을 지니고 있는 생활계량단위들을 재정비함으로써 법정단위와 생활단위가 함께 공존할 수 있는 방안을 제안하였다.

데이터베이스상의 한글 자모단위 비교를 통한 데이터 정정기법 (A Revising Method using Phoneme Comparison for Databases with Korean Character Set)

  • 김대환;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.532-534
    • /
    • 2003
  • 코드로써 관리되어있지 않은 데이터베이스 내의 다양한 속성들이 시간이 흐름에 따라 정보로써 가치를 갖게 되면서. 비코드성 한글 데이터의 정형화에 대한 요구가 증가하고 있다. 정형화에 있어 한글의 특수성 중에 하나는 한글자료의 경우 KSC5601, CP949등을 사용하여 음절단위의 문자셋을 사용하여 음절단위로 저장 관리한다. 그런데 입력 시정에서는 자판기등을 이용하여 음소단위로 데이터를 입력하면서 발생하는 오류 및 비정형 데이터의 유입의 문제 등을 내포하고 있다. 이러한 문제를 해결하기 위하여 데이터의 저장단위인 음절이 아닌 음소 단위의 비교를 통하여 데이터를 정정하는 기법을 제안하고자 한다.

  • PDF

복합 단위 정보를 이용한 차트 파서 (Chart Parser Using Compound Unit Information)

  • 정한민;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.291-295
    • /
    • 1997
  • 본 논문은 복합 단위 정보를 이용하여 모호성을 감소시키고 자연스러운 대역어 정보를 제공할 수 있는 차트파서를 기술한다. 복합 단위 정보를 사용하는 파싱은 태깅과 구문 분석 과정 사이에서 여러 단어들을 하나의 단위로 만들어서 형태론적/구문적 모호성과 파스 트리의 수를 감소시킨다. 우리는 Bottom-up 차트 파싱을 사용하는데, 이는 모호성 있는 태깅 결과가 많을수록 파스 트리의 생성 시간과 수의 증가를 초래하므로 복합 단위를 사용하여 파서에 대한 입력 단어의 수 및 모호성을 감소시켜 안정적인 파싱 결과를 얻을 수 있게 한다. 실험 결과는 복합 단위 정보를 사용한 차트 파싱이 차트들의 크기와 파스 트리의 수를 50%까지 감소시킴을 보여준다.

  • PDF