• 제목/요약/키워드: Abbreviations

검색결과 50건 처리시간 0.024초

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

트라이 인덱스를 이용한 이형태 검색 (Searching for Variants Using Trie-Index)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1986-1992
    • /
    • 2009
  • 사용자는 정보검색에서 단어의 약어나 부분문자열, 혹은 오타가 포함된 단어와 같은 이형태로 자료를 검색하고자 한다. 이형태 검색을 위한 단순한 방법은 사전에 모든 이형태를 등록하는 것이다. 그러나 이 방법은 이형태 사전 구축에 막대한 시간과 비용이 필요할 뿐만 아니라 오타로 인해 생기는 이형태를 처리할 수 없는 문제점이 있다. 이에 대한 대안으로 근사 문자열 매칭 기법을 이용한 방법이 개발되었으나 이 방법 또한 약어 형태의 이형태를 처리하기 어렵다는 단점이 있다. 본 논문에서는 트라이 인덱스를 이용해 약어나 오타를 포함한 대부분의 이형태를 검색할 수 있는 방법을 제안한다. 먼저, 패스 가중치의 계산을 통한 이형태 매칭 방법을 보이고, 검색 속도 향상을 위한 이형태 검색 알고리즘을 제시한다.

한·중 인물지칭 신어 조어방식에 관한 고찰 - 2017년과 2018년을 중심으로 - (A review on the method of coined words by Korean and Chinese characters)

  • 왕연
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.178-185
    • /
    • 2022
  • 본 연구는 2017년과 2018년 한·중 인물지칭 신어 197개를 조어방식에 따라 단일어, 합성어, 파생어, 축약어, 혼성어로 나누어 신어의 특성을 비교·분석했다. 인물지칭 신어 중 단일어의 경우 한국어는 영어와 중국어에서 차용된 단어들이었으며, 중국어에서는 단일어가 나타나지 않았다. 다음으로 합성어의 경우 중국어 합성법의 형식이 훨씬 다양하고 생성력이 한국보다 더 강하다는 특징이 있었다. 파생어의 경우 양국 접두파생어는 모두 많지 않다는 특징을 보였다. 한국어 접미파생어 중에서는 외래어나 고유어 접미사에 비해 한자어 접미사의 생산력이 강했다. 외래어 접미사는 한국어에서 중국어에 비해 보다 빈번하게 나타났다. 다음으로 축약어의 경우 한국어에 나타난 축약어 신어는 어두 음절의 생산력이 더 강한 반면 중국어의 축약어 신어에서는 비어두 음절어의 생산력이 더 강하다는 것을 알 수 있었다. 끝으로 혼성어의 경우 한국어의 혼성 형식이 중국어보다 훨씬 다양하게 나타났다. 본 연구는 중국인 한국어 학습자가 한국어 신어의 형성과정을 이해하는 데에 도움을 줄 수 있으며, 나아가 그들이 한국어 학습 과정에서 한국어 단어의 의미를 추측하는 능력을 함양하는 데에 이론적 단서를 제공한다는 점에서 의미가 있다.

Language- Independent Sentence Boundary Detection with Automatic Feature Selection

  • Lee, Do-Gil
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1297-1304
    • /
    • 2008
  • This paper proposes a machine learning approach for language-independent sentence boundary detection. The proposed method requires no heuristic rules and language-specific features, such as part-of-speech information, a list of abbreviations or proper names. With only the language-independent features, we perform experiments on not only an inflectional language but also an agglutinative language, having fairly different characteristics (in this paper, English and Korean, respectively). In addition, we obtain good performances in both languages. We have also experimented with the methods under a wide range of experimental conditions, especially for the selection of useful features.

  • PDF

문장에 포함된 외국어의 자연스러운 발음 표현을 위한 LSTM 방법 (An LSTM Method for Natural Pronunciation Expression of Foreign Words in Sentences)

  • 김성돈;정재희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권4호
    • /
    • pp.163-170
    • /
    • 2019
  • 한국어는 "을/를/이/가/와/과"와 같은 조사가 체언에 붙어 문장의 의미를 더해준다. 문장 중에 외국어 표기를 그대로 사용하는 경우나 외국어의 약자가 포함되어 있는 경우, 외국어의 발음에 따른 적절한 조사가 연결되지 않는 경우가 있다. 때로는 문장의 자연스러운 표현을 위하여 "을(를)"과 같이 괄호 형식으로 표현하여 조사를 두 개 다 수용 가능한 형태로 사용되어지기도 한다. 본 연구에서는 문장 내에 외국어가 포함되어 있는 경우, 조사가 부자연스럽게 연결되는 예를 찾고 체언의 종성 발음을 학습하여 자연스러운 조사 연결을 위한 방법을 알아보고자 한다. 제안하는 방법은 순환신경망 모델을 이용하여 외국어에 연결된 조사를 자연스럽게 표현하는 것이다. 제안된 모델로 학습 및 테스트하여 방법의 필요성을 입증함으로써, 향후 기계 번역에서 영문 약자나 새로운 외국어 삽입 시 자연스러운 조사 연결로 완전한 문장을 연결하는데 사용될 수 있을 것으로 기대한다.

Analysis and Implications of Twitter Data during the 2012 Election

  • 윤홍원
    • 한국산업정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.7-13
    • /
    • 2014
  • Twitter is a microblogging service that allows users to post short messages on a variety of topics in real-time. In this work, we analyze Twitter messages posted during the 2012 elections and find those implications. This study uses Twitter messages related to the 2012 South Korean presidential campaign. The three main candidates are represented by the abbreviations A, M, and P. According to the statistical analysis, the number of tweets and re-tweets for candidate P was relatively stable over the entire campaign period. Candidate P had the highest percentage of terms related to elections pledges, and candidates A and M were judged to be a little bit poorer with respect to campaign promises. The positive terms ratio for candidate P was higher than those for the other two candidates. The negative terms ratio in the Twitter messages of P was considerably smaller than those of candidates A and M. After considering all these results, it is suggested cautiously that Twitter messages posted during an election campaign could be correlated with the outcome of the election.

Improved Algorithms for the Identification of Yeast Proteins and Significant Transcription Factor and Motif Analysis

  • Lee Seung-Won;Hong Seong-Eui;Lee Kyoo-Yeol;Choi Do-Il;Chung Hae-Young;Hur Cheol-Goo
    • Genomics & Informatics
    • /
    • 제4권2호
    • /
    • pp.87-93
    • /
    • 2006
  • With the rapid development of MS technologiesy, the demands for a more sophisticated MS interpretation algorithm haves grown as well. We have developed a new protein fingerprinting method using a binomial distribution, (fBIND). With the fBIND, we improved the performance accuracy of protein fingerprinting up to the maximum 49% (more than MOWSE) and 2% than(at a previous binomial distribution approach studied by of Wool et al.) as compared to the established algorithms. Moreover, we also suggest a the statistical approach to define the significance of transcription factors and motifs in the identified proteins based on the Gene Ontology (GO). Abbreviations: fBIND, fingerprinting using binomial distribution; GO, Gene Ontology; MS, Mass Spectrometry; PMF, peptide mass fingerprinting; nr, nonredundant; SGD, Saccharomyces Genome Database

약어와 두문자어의 모호성 해결을 통한 임상 의무기록의 정규화 (Normalization of Clinical Medical Records by Disambiguating Abbreviations and Acronyms)

  • 배인호;김진상;김윤년
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.676-678
    • /
    • 2008
  • 임상 의무기록에 나타나는 많은 두문자어들은 기계적인 처리과정에서 의무기록의 모호성을 크게 증가시키기 때문에, 정보추출이나 텍스트 마이닝을 하기 전에 전처리 과정으로 의무기록이 정규화 되어야 한다. 본 연구에서는 임상 의무기록 중 하나인 퇴원요약지에 사용된 약어와 두문자어들의 모호성을 제거하기 위한 정규화 시스템을 설계하고 구현했다. 정규화를 위해 문맥정보를 이용하여 의무기록의 종류와 기록내 위치정보를 파악하였고 이를 이용하여 약어와 두문자어의 의미를 학습하고 분류하였다. 본 연구에서 구현한 정규화 시스템은 실험에서 6가지 두문자어들이 가지는 16가지 의미들에 대해 94.7%의 정확률을 얻었다.

문헌정보학과 WWW홈페이지의 필요성과 준비에 관한 연구- 한국과 북미주 지역 대학을 중심으로 -

  • 박일종
    • 한국도서관정보학회지
    • /
    • 제24권
    • /
    • pp.413-448
    • /
    • 1996
  • Nowadays, the World Wide Web (WWW) has become an important resource of timely information for the information-related people such as information scientists, librarians, and students in Library and Information Sciences area. They are information professionals who navigate the information on the internet. Also, they need to be information providers who build a WWW homepage. This paper is a study of the necessity, preparation, and building WWW Homepage files for school of Library and Information Sciences in the age of competition among disciplines. It is particularly focused on the colleges and universities in Republic of Korea (ROK) and North America area. The purpose of this study is to provide various kinds of reference information to prepare a homepage in the future as utilizing information on the internet effectively. Even though a Web page was necessary for a school of Library and Information Sciences to show news, and introduce the purpose of the disciplines and the curriculum of the school, and the professors of a class etc., it was not well-prepared yet in ROK. However, a web page was used well enough and prosperous in North America area (Canada, the United States, and Puerto Rico) comparatively. Those web pages were analyzed and studied to prepare for a good designing of homepages for school of Library and Information Sciences in Korea and for the age of competition among disciplines in this paper. Suggestions for designing a good homepage and guidelines for preparing a best one were studied after both reviewing literature and utilizing experiences by the author who currently serves in the School of Library and Information Sciences in Keimyung University and builds homepage for the school. As a result, the major suggestions are ; premiered, and they are as follows: (1) English version of a homepage is necessary, (2) Provide a multimedia presentation about the nature of a school (3) Incorporate a place to let people make suggestions on the contents (of a homepage), (4) Bear in mind that potential users must be familiar with abbreviations you used, (5) Absolutely do not use abbreviations that may make the content more difficult to understand, (6) Add a feature on the every single page that will take the user back to the main page, (7) Use clear, short and well-structured sentences and remember to divide text into paragraphs, (8) Date with a creation or modification date in the homepage to indicate the updated date, (9) Being a multimedia environment, use colors effectively (the guidelines were also suggested), and (10) Put colleges' name into the title of bookmarks to find out them easily.

  • PDF

대중문화 콘텐츠 변화에 따른 한중 신조어 비교 연구 (A Comparative Study on New Words of Korean and Chinese According to Changes in Popular Culture Contents)

  • 맹상삼;이광호
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권6호
    • /
    • pp.125-137
    • /
    • 2020
  • 본 논문은 대중문화 콘텐츠 변화에 의한 신조어를 비교 연구한 것이다. 한국과 중국은 교류가 긴밀해지면서 언어까지 영향을 주고받는다. 이에 따라 신조한 국어와 동일한 언어 특성을 가진 신조중국어가 발견된다. 또한 신조어는 언어의 새로운 발전 결과물이라고 여긴다. 이러한 신조어는 한국과 중국의 젊은층에서 널리 사용하고 있는 상황이다. 따라서 언어가 소통을 전제로 한다는 측면에서 학문적인 연구를 통하여 한중 신조어를 명확히 인식하는 것이 바람직하다. 2018년 신조중국어의 특성을 중심으로 먼저 2017년 이전의 신조중국어와 합성, 약어, 대치 등의 형태적인 요소와 비유, 은어 등 의미적인 측면에 의해 비교하여 분석하였다. 이를 통해 2018년 신조중국어의 특성을 추출하였다. 다음에 이러한 신조어의 구성방법에 의해 2018년의 신조한국어와의 공통점과 차이점도 확인하였다. 그리고 한국어와 중국어 신조어를 분석한 결과, 기존의 언어 재활용 현상이 두드러짐도 확인하였다. 이러한 한중 신조어가 표준어로 정착하는 과정을 보기 위해 신조어의 구성방법을 정확하게 탐색해보고자 하는 것이 중요하다.