• Title/Summary/Keyword: 단어길이

Search Result 147, Processing Time 0.023 seconds

Customized Query Recommendation by Agent Based on User's Query Pattern (사용자 질의패턴 기반 에이전트에 의한 맞춤형 질의추천)

  • Lim, Yo-Han;Park, Gun-Woo;Lee, Sang-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06b
    • /
    • pp.200-204
    • /
    • 2008
  • 검색엔진을 사용해 질의를 입력 후 사용자가 원하는 정보를 얻을 때까지의 검색 결과정보의 탐색 범위에 대해 설문한 연구 보고서에 검색 결과정보의 첫 페이지만 보는 사용자가 설문인원의 41%를 차지했고, 상위 3페이지만 사용하는 사용자는 88%에 달한다고 하였다. 따라서 검색결과의 상위순위는 사용자의 정보 존재여부를 판단하는 중요한 척도가 된다. 또한 인터넷의 방대한 정보로 인해 정보 홍수에 빠진 사람들은 정보에 대한 까다로운 요구를 하고 있다. 이를 테면 개인화 또는 맞춤화된 정보를 제공 받기를 원하고 있다. 정보검색시 대다수의 사용자들은 질의의 길이를 2단어 이하의 키워드를 사용하여 질의가 특정한 토픽을 지향하도록 하고 있다. 본 논문에서는 데이터 마이닝의 연관규칙을 적용 사용자 프로파일 DB내 질의에 대한 사용자 질의패턴을 분석하여 '분석 Agent' 통한 연관 질의 리스트를 생성하고 '추천 Agent'는 사용자들의 취향변화 즉 시간에 따라 변하는 관심영역 또는 사용자 질의 변화에 대해서 날짜별 가중치를 부여하여 사용자와 상호교류를 통해 사용자에게 맞춤형 질의를 추천하는 방안을 제시하고자 한다.

  • PDF

Auditory Representations for Robust Speech Recognition in Noisy Environments (잡음 환경에서의 음성 인식을 위한 청각 표현)

  • Kim, Doh-Suk;Lee, Soo-Young;Kil, Rhee-M.
    • The Journal of the Acoustical Society of Korea
    • /
    • v.15 no.5
    • /
    • pp.90-98
    • /
    • 1996
  • An auditory model is proposed for robust speech recognition in noisy environments. The model consists of cochlear bandpass filters and nonlinear stages, and represents frequency and intensity information efficiently even in noisy environments. Frequency information of the signal is obtained by zero-crossing intervals, and intensity information is also incorporated by peak detectors and saturating nonlinearities. Also, the robustness of the zero-crossings in estimating frequency is verified by the developed analytic relationship of the variance of the level-crossing interval perturbations as a function of the crossing level values. The proposed auditory model is computationally efficient and free from many unknown parameters compared with other auditory models. Speaker-independent speech recognition experiments demonstrate the robustness of the proposed method.

  • PDF

Design of Singularly Perturbed Delta Operator Systems with Low Sensitivity (낮은 민감도를 지니는 특이섭동 델타연산자 시스템의 설계)

  • Shim, Kyu-Hong;Sawan, M.E.;Lee, Kyung-Tae
    • Journal of the Korean Society for Aeronautical & Space Sciences
    • /
    • v.32 no.7
    • /
    • pp.76-82
    • /
    • 2004
  • A method of designing a state feedback gam achieving a specified insensitivity of the closed-loop trajectory by the singularly perturbed unified system using the operators is proposed. The order of system is reduced by the singular perturbation technique by ignoring the fast mode in it. The proposed method takes care of the actual trajectory variations over the range of the singular perturbation parameter. Necessary conditions for optimality are also derived. The previous study was done in the continuous time system The present paper extends the previous study to the discrete system and the ${\delta}-operating$ system that unifies the continuous and discrete systems. Advantages of the proposed method are shown in the numerical example.

Design and Implementation of Finite-State-Transducer Preprocessor for an Efficient Parsing and Translation in Korean-to-English Machine Translation (한영 기계번역에서의 효율적인 구문분석과 번역을 위한 유한상태 변환기 기반 전처리기의 설계 및 구현)

  • Park, Jun-Sik;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.128-134
    • /
    • 1999
  • 기계번역이나 정보검색 등에 적용되는 자연언어처리기술에 있어서 구문분석은 매우 중요한 위치를 차지한다. 하지만, 문장의 길이가 증가함에 따라 구문분석의 복잡도는 크게 증가하게 된다. 이를 해결하기 위한 많은 노력 중에서 전처리기의 지원을 통해 구문분석기의 부담을 줄이려는 방법이 있다. 본 논문에서는 구문분석의 애매성과 복잡성을 감소시키기 위해 유한상태 변환기 (Finite-State-Transducer FSI)를 이용한 전처리기를 제안한다. 유한상태 변환기는 사전표현, 단어분할, 품사태깅 등에 널리 사용되어 왔는데, 본 논문에서는 유한상태 변환기를 이용하여 형태소 분석된 문장에서 시간표현 등의 제한된 표현들을 구문요소화하는 전처리기를 설계 및 구현하였다. 본 논문에서는 기계번역기에서의 구문분석기 뿐만 아니라 변환지식의 모듈화를 지원하기 위해 유한상태 변환기를 이용하여 시간표현 등의 부분적인 표현들을 번역하는 방법을 제안한다. 또한 유한상태 변환기의 편리한 작성을 위하여 유한상태 변환기 작성 지원도구를 구현하였다. 본 논문에서는 전처리기의 적용을 통해 구문분석기의 부담을 덜어 주며 기계번역기의 변환부분의 일부를 성공적으로 담당할 수 있음을 보여 준다.

  • PDF

Trends of Web-based OPAC Search Behavior via Transaction Log Analysis (트랜잭션 로그 분석을 통한 웹기반 온라인목록의 검색행태 추이 분석)

  • Lee, Sung-Sook
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.23 no.2
    • /
    • pp.209-233
    • /
    • 2012
  • In this study in order to verify the overall information seeking behavior of the Web-based OPAC users, it was analyzed transaction log file for 7 years. Regarding Web-based OPAC information seeking behavior, it was studied from the perspective of information seeking strategy and information seeking failure. In search strategy, it was analyzed search type, search options, Boolean operator, length of search text, number of uses of word, number of use Web-based OPAC, number of use by time, by week day. Also, in search failure, search failure ratio, search failure ratio by search options, search failure ratio by Boolean operator were analyzed. The result of this study is expected to be utilized for OPAC system and service improvement in the future.

Lossless Coding Scheme for Lattice Vector Quantizer Using Signal Set Partitioning Method (Signal Set Partitioning을 이용한 격자 양자화의 비 손실 부호화 기법)

  • Kim, Won-Ha
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.38 no.6
    • /
    • pp.93-105
    • /
    • 2001
  • In the lossless step of Lattice Vector Quantization(LVQ), the lattice codewords produced at quantization step are enumerated into radius sequence and index sequence. The radius sequence is run-length coded and then entropy coded, and the index sequence is represented by fixed length binary bits. As bit rate increases, the index bit linearly increases and deteriorates the coding performances. To reduce the index bits across the wide range of bit rates, we developed a novel lattice enumeration algorithm adopting the set partitioning method. The proposed enumeration method shifts down large index values to smaller ones and so reduces the index bits. When the proposed lossless coding scheme is applied to a wavelet based image coding, the proposed scheme achieves more than 10% at bit rates higher than 0.3 bits/pixel over the conventional lossless coding method, and yields more improvement as bit rate becomes higher.

  • PDF

DDAG: An Efficient Method for Morphological Analysis of Korean (DDAG: 효율적인 한국어 형태소 해석 방법)

  • Kim, Deok-Bong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.341-353
    • /
    • 1993
  • 기존의 한국어 형태소 해석 시스템들은 철자 변화형 어절에 대한 처리가 매우 효율적이지 못했다. 대개가 문제를 일으키는 형태소들의 변형들을 모두 사전에 등록하여 후처리 형태로 다루려 하거나, 각 형태/음운 규칙을 적용한 다음 거기에 대응하는 후보 단어들을 사전 검색을 통해 확인하는 방법들을 취하고 있다. 그러나 이러한 방법들은 과다한 사전 정보의 중복이나 계산의 중복으로 인하여 비효율적인 면을 많이 내포한다. 또한, 기존의 한국어 형태소 시스템들은 거의 모두가 형태소해석 엔진과 언어학적인 지식(특히, 철자 규칙과 형태소 배열 규칙)이 제대로 분리되지 않아 시스템 확장이 매우 어려웠다. 이 논문에서는, 철자 변화형 어절을 후처리에 의하지 않고, 사전 검색과 함께 하나의 오토마타에 의해 처리하면서, 형태소 해석시 발생하는 중복 계산을 최대한 배경하고, 또한 형태소 해석 엔진과 언어학적인 지식을 완전히 분리하여 시스템의 확장성을 한층 높인, 효율적인 한국어 형태소 해석 시스템 DDAG를 소개한다. 이 시스템의 주요 알고리즘의 계산적인 복잡도는 n이 입력 어절의 길이이고, m이 입력 어절을 이루고 있는 형태소의 최대 수라고 할 때 다음과 같이 분석된다: (1) 철자 변화의 처리와 사전 검색 부분의 계산적인 복잡도는 $O(n^2)$이고, (2) 형태소 배열 검사와 모든 가능한 결과를 출력해 내는 부분은 $O(2^m)$이다. 여기에서 m의 실질적인 값은 복잡한 한국어 용언의 경우 최대 8이다.

  • PDF

Automatic Text Summarization using Noun-Verb Cooccurrence Pattern (명사-동사 공기패턴을 이용한 문서 자동 요약)

  • Nam, Ki-Jong;Lee, Chang-Beom;Kang, Dae-Wook;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.611-614
    • /
    • 2002
  • 문서 자동 요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문의 목적은 어휘 연관성 정보를 이용하여 한국어 문서를 자동으로 요약하는 효율적이며 효과적인 모형을 개발하는 것이다. 제안한 방법에서는 신문기사와 같은 특정 부류에 국한되는 단어간의 어휘연관성을 이용하여 명사-명사 공기패턴과 명사-동사 공기패턴을 구축하여 문서요약에 이용한다. 크게 불용어 처리 단계, 공기패턴 구축 단계, 문장 중요도 계산 단계, 요약 생성단계의 네 단계로 나누어 요약을 생성한다. 30% 중요문장 추출된 신문기사를 대상으로 평가한 결과 명사-명사 공기패턴과 빈도만을 이용한 방법보다 명사-동사 공기패턴을 이용한 방법이 좋은 결과를 가져 왔다.

  • PDF

Segment and Word Duration Produced by Preschool Children (학령전기 아동의 분절음 및 단어 길이)

  • Kang, Eunyeong
    • Journal of The Korean Society of Integrative Medicine
    • /
    • v.8 no.4
    • /
    • pp.291-305
    • /
    • 2020
  • Purpose : The duration of speech segments reflects children's speech motor development. The purpose of this study was to determine whether segmental sound and word duration varies by age among preschool children. Methods : A total of 60 children aged 4~5 years participated in this study. Participants took the picture-naming test to produce single-word speech data. The duration of the consonant at the initial position of the word and the final position of the word, the voice onset time of plosive, the duration of the vowel following the initial consonant, and the duration of the word were measured. Results : As age increased, the duration of the initial consonant, the duration of the word, and the voice onset time decreased significantly. The main effects of age, manner of articulation, and place of articulation on the duration of the initial consonant were significant. The duration of consonants in the nasal sound and plosives and the duration of bilabial and alveolar sound differed significantly between groups. The main effects of age and vocal type on voice onset time were significant. The main effect of age on the duration of the consonant in the final position of word and on the duration of the vowel were not statistically significant. Conclusion : The results of this study showed that the duration of segmental sound and the word were associated with speech development between 4 and 5 years old. Accordingly, duration of the segmental sound and the word may serve as an acoustic cue as they reflect speech development and speech motor control maturity.

KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension (KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋)

  • Kim, Youngmin;Lim, Seungyoung;Lee, Hyunjeong;Park, Soyoon;Kim, Myungji
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.97-102
    • /
    • 2019
  • KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

  • PDF