• 제목/요약/키워드: Token Frequency

검색결과 23건 처리시간 0.019초

Gradient Reduction of $C_1$ in /pk/ Sequences

  • Son, Min-Jung
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.43-60
    • /
    • 2008
  • Instrumental studies (e.g., aerodynamic, EPG, and EMMA) have shown that the first of two stops in sequence can be articulatorily reduced in time and space sometimes; either gradient or categorical. The current EMMA study aims to examine possible factors_linguistic (e.g., speech rate, word boundary, and prosodic boundary) and paralinguistic (e.g., natural context and repetition)_to induce gradient reduction of $C_1$ in /pk/ cluster sequences. EMMA data are collected from five Seoul-Korean speakers. The results show that gradient reduction of lip aperture seldom occurs, being quite restricted both in speaker frequency and in token frequency. The results also suggest that the place assimilation is not a lexical process, implying that speakers have not fully developed this process to be phonologized in the abstract level.

  • PDF

Adjusting Weights of Single-word and Multi-word Terms for Keyphrase Extraction from Article Text

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.47-54
    • /
    • 2021
  • 핵심구 추출은 문서의 내용을 대표하는 주제 용어를 자동 추출하는 작업이다. 비지도 방식 핵심구 추출에서는 문서 텍스트로부터 핵심구 후보 용어가 되는 단어나 구를 추출하고 후보 용어에 부여된 중요도에 기반하여 최종 핵심구들이 선택된다. 본 논문에서는 비지도 방식 핵심구 후보 용어 중요도 계산에서 단어 유형 후보 용어와 구 유형 후보 용어의 중요도를 조정하는 방법을 제안한다. 이를 위해 핵심구 추출 대상 문서 텍스트로부터 후보 용어 집합의 타입-토큰 비율과 고빈도 대표 용어의 정보량을 단어 유형과 구 유형으로 구분하여 수집한 후 중요도 조정에 활용한다. 실험에서는 영어로 작성된 full-text 논문을 대상으로 구축된 4개 서로 다른 핵심구 추출 평가집합들을 사용하여 성능 평가를 수행하였고, 제안된 중요도 조정 방법은 3개 평가집합들에서 베이스 라인 및 비교 방법들보다 높은 성능을 보였다.

NFT(Non-Fungible Token) Patent Trend Analysis using Topic Modeling

  • Sin-Nyum Choi;Woong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.41-48
    • /
    • 2023
  • 본 논문은 여러 산업 분야에서 범용적으로 활용될 수 있는 NFT(Non-Fungible Token)에 대해 토픽 모델링 기법을 활용하여 최근의 NFT 산업 동향에 대한 분석 결과를 제시한다. 본 연구에서는 산업 동향을 파악하기 위해 특허 데이터를 활용하였으며, NFT 표준안이 처음으로 발표되었던 2017년부터 2023년 10월까지 특허정보검색서비스 키프리스에 등록된 NFT 관련 국내·외 특허 각각 371건, 454건의 특허 데이터를 수집하였다. 다음으로 전처리 작업에서 불용어, 표제어를 제거 후 명사 단어만을 추출하였고, 분석 방법으론 빈도수에 따른 상위 50개의 단어를 나열하고, 단어마다 계산된 TF-IDF 값을 같이 확인하여 산업 동향의 핵심 키워드를 도출하였다. 다음으로, LDA 알고리즘을 활용해 국내·외 별로 특허 데이터에서 잠재된 4개의 주요 주제를 도출하였다. 도출한 주제별로 내용을 분석하고, 실제 NFT 산업사례를 근거로 들어 NFT 산업 동향 분석내용을 제시하였다. 선행연구에서는 논문 데이터를 통해 학술적 관점에서 동향을 제시하였다면 본 연구는 현장 실무에 기반을 둔 데이터를 활용하여 실용적인 동향 내용을 제공했다는 점에서 의의가 있으며, NFT 산업계 관련자들이 시장 현황 파악 및 새로운 아이템 창출을 위한 참고용으로 활용될 것으로 기대한다.

Shapes of Vowel F0 Contours Influenced by Preceding Obstruents of Different Types - Automatic Analyses Using Tilt Parameters-

  • Jang, Tae-Yeoub
    • 음성과학
    • /
    • 제11권1호
    • /
    • pp.105-116
    • /
    • 2004
  • The fundamental frequency of a vowel is known to be affected by the identity of the preceding consonant. The general agreement is that strong consonants trigger higher F0 than weak consonants. However, there has been a disagreement on the shape of this segmentally affected F0 contours. Some studies report that shapes of contours are differentiated based on the consonant type, but others regard this observation as misleading. This research attempts to resolve this controversy by investigating shapes and slopes of F0 contours of Korean word level speech data produced by four male speakers. Instead of entirely relying on traditional human intuition and judgment, I employed an automatic F0 contour analysis technique known as tilt parameterisation (Taylor 2000). After necessary manipulation of an F0 contour of each data token, various parameters are collapsed into a single tilt value which directly indicates the shape of the contour. The result, in terms of statistical inference, shows that it is not viable to conclude that the type of consonant is significantly related to the shape of F0 contour. A supplementary measurement is also made to see if the slope of each contour bears meaningful information. Unlike shapes themselves, slopes are suspected to be practically more practical for consonantal differentiation, although confirmation is required through further refined experiments.

  • PDF

XML 스키마 메타모델에서 OCL 생성 (Generate of OCL on XML Sechma Meta Model)

  • 이돈양;최한용
    • 한국콘텐츠학회논문지
    • /
    • 제6권6호
    • /
    • pp.42-49
    • /
    • 2006
  • XML이 인터넷에서 정보전송을 위한 메타언어의 표현방법으로 급속하게 이용되고 있다. 아울러 XML 스키마는 XML 데이터의 다양한 유형을 표현하는데 사용하는 빈도수가 늘고 있다. 본 논문에서는 UML을 이용한 XML 스키마의 simpleType형 메타모델에 대한 설계를 하였다. 그러나 XML 스키마의 구조가 복잡하고 다양한 데이터의 유형을 지원하기 때문에 UML에서 나타내고 있는 모델의 속성에 대한 사용자의 이해와 적용에 어려운 부분이 많이 발생하는 것을 알 수 있다. 이를 해결하는 방법으로 본 연구에서는 OCL의 기능을 적용하여 XML 스키마 메타모델에서 구조적인 표현을 명확하게 명시할 수 있도록 하였으며, 아울러 이를 바탕으로 컴파일단계에서 어휘분석과 구문분석을 위한 파스트리와 토큰생성에 대한 구체적인 설계방법을 제시하였다.

  • PDF

코퍼스 분석방법을 이용한 『동의보감(東醫寶鑑)』 영역본의 어휘 분석 (An Analysis on the Vocabulary in the English-Translation Version of Donguibogam Using the Corpus-based Analysis)

  • 정지훈;김동율;김도훈
    • 한국의사학회지
    • /
    • 제28권2호
    • /
    • pp.37-45
    • /
    • 2015
  • Objectives : A quantitative analysis on the vocabulary in the English translation version of Donguibogam. Methods : This study quantitatively analyzed the English-translated texts of Donguibogam with the Corpus-based analysis, and compared the quantitative results analyzing the texts of original Donguibogam. Results : As the results from conducting the corpus analysis on the English-translation version of Donguibogam, it was found that the number of total words (Token) was about 1,207,376, and the all types of used words were about 20.495 and the TTR (Type/Token Rate) was 1.69. The accumulation rate reaching to the high-ranking 1000 words was 83.54%, and the accumulation rate reaching to the high-ranking 2000 words was 90.82%. As the words having the high-ranking frequency, the function words like 'the, and of, is' mainly appeared, and for the content words, the words like 'randix, qi, rhizoma and water' were appeared in multi frequencies. As the results from comparing them with the corpus analysis results of original version of Donguibogam, it was found that the TTR was higher in the English translation version than that of original version. The compositions of function words and contents words having high-ranking frequencies were similar between the English translation version and the original version of Donguibogam. The both versions were also similar in that their statements in the parts of 'Remedies' and 'Acupuncture' showed higher composition rate of contents words than the rate of function words. Conclusions : The vocabulary in the English translation version of Donguibogam showed that this book was a book keeping the complete form of sentence and an Korean medical book at the same time. Meanwhile, the English translation version of Donguibogam had some problems like the unification of vocabulary due to several translators, and the incomplete delivery of word's meanings from the Chinese character-culture area to the English-culture area, and these problems are considered as the matters to be considered in a work translating Korean old medical books in English.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

특이 벡터 영역에서 디지털 영상 워터마킹 방법 (Digital Image Watermarking Scheme in the Singular Vector Domain)

  • 이적식
    • 융합신호처리학회논문지
    • /
    • 제16권4호
    • /
    • pp.122-128
    • /
    • 2015
  • 멀티미디어 정보들이 인터넷 공간에 확산됨에 따라서 원래 정보 소유자의 권리 보호와 원본 증명 등의 문제가 대두되고 있다. DCT, DFT, DWT 등의 여러 영상 변환들을 이용하여 소유권의 징표로 워터마크를 원본 영상에 삽입하는 방법을 많이 사용하였으나, 보다 최근에는 수치해석 분야에 많이 쓰이는 SVD(Singular Value Decomposition) 방법을 부가적으로 사용하고 있다. 본 논문에서는 SVD의 특이 벡터와 동시에 Gabor 코사인과 사인 변환을 이용하여 디지털 표지 영상에 워터마크를 삽입하고 추출하는 방법을 제안한다. 워터마크가 삽입된 영상에 잡음, 공간 변형, 필터링, 압축 등의 공격을 가한 후, GCST-SVD의 워터마크 추출 알고리즘을 적용한다. 워터마킹 성능을 평가하기 위해서 삽입한 워터마크와 추출한 워터마크 사이의 유사성 척도로써 정규화한 상관계수값을 측정한다. 또한 추출한 워터마크 영상으로부터 시각적으로 직접 원본 워터마크인지를 판단한다. 가장 낮은 수직 교류 주파수 대역에 워터마크를 삽입한 실험으로부터 SVD의 특이 벡터를 이용한 워터마킹 방법은 대부분 공격에서 0.9이상의 큰 상관값과 삽입한 워터마크의 특징들을 시각적으로 파악할 수 있었다.

피드백 구조를 갖는 Self-Timed Ring 기반의 경량 TRNG (A Self-Timed Ring based Lightweight TRNG with Feedback Structure)

  • 최준영;신경욱
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.268-275
    • /
    • 2020
  • 정보보안 응용에 적합한 self-timed 링 (ring) 기반 TRNG (true random number generator)의 경량 하드웨어 설계에 관해 기술한다. TRNG의 하드웨어 복잡도를 줄이기 위해 피드백 구조의 엔트로피 추출기를 제안하였으며, 이를 통해 링 스테이지 수를 최소화 하였다. 본 논문의 FSTR-TRNG는 동작 주파수와 엔트로피 추출 회로를 고려하여 링 스테이지 수가 11의 배수가 되도록 결정되었으며, 링 발진기가 등간격 모드로 진동할 수 있도록 토큰 (token)과 버블(bubble) 개수의 비를 결정하였다. FSTR-TRNG는 FPGA 디바이스에 구현하여 난수 생성 동작을 검증하였다. Spartan-6 FPGA 디바이스에 구현된 FSTR-TRNG로부터 2,000만 비트의 데이터를 추출하여 NIST SP 800-22에 규정된 통계학적 무작위성 테스트를 수행한 결과, 15개의 테스트가 모두 기준을 만족하는 것으로 확인되었다. Spartan-6 FPGA 디바이스로 합성한 FSTR-TRNG는 46 슬라이스로 구현이 되었으며, 180 nm CMOS 표준셀로 합성하는 경우에는 약 2,500 등가 게이트로 구현되었다.

코퍼스 기반 영어 통사론 학술 어휘목록 구축 및 어휘 분포 분석 (A Corpus-based English Syntax Academic Word List Building and its Lexical Profile Analysis)

  • 이혜진;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.132-139
    • /
    • 2021
  • 본 코퍼스 기반 연구는 통사론 영역에서 자주 등장하는 학술어휘들을 목록화하고 추출된 단어 목록을 Coxhead(2000)의 학술어휘 목록(AWL) 및 West(1953)의 기본어휘 목록(GSL)과 비교하여 통사론 코퍼스 내의 어휘 분포와 범위를 조사하였다. 이를 위해 영어교육 전공자들이 주로 사용하는 필수 통사론 전공 서적을 546,074 단어 수준의 전문 코퍼스로 구축한 다음 AntWordProfiler 1.4.1로 분석하였다. 빈도를 기준으로 분석한 결과 16회 이상 등장한 학술어휘는 288개(50.5%), 15회 이하 등장한 학술어휘는 218개(38.2%)로 나타났다. AWL과 GSL의 출현 범위는 각각 9.19%와 78.92%로 나타났으며 GSL과 AWL을 포함한 비중은 전체 토큰의 88.11%에 달하였다. AWL이 광범위한 학술 요구를 충족시키는데 중추적인 역할을 할 수 있다는 점을 감안할 때, 본 연구는 학문 문식성과 학업 능력을 향상시키기 위한 방안으로 학문 분야별 학술 어휘목록을 편성할 필요가 있음을 강조하였다.