• Title/Summary/Keyword: 개방어 처리

Search Result 10, Processing Time 0.035 seconds

Probabilistic Segmentation and Tagging of Unknown Words (확률 기반 미등록 단어 분리 및 태깅)

  • Kim, Bogyum;Lee, Jae Sung
    • Journal of KIISE
    • /
    • v.43 no.4
    • /
    • pp.430-436
    • /
    • 2016
  • Processing of unknown words such as proper nouns and newly coined words is important for a morphological analyzer to process documents in various domains. In this study, a segmentation and tagging method for unknown Korean words is proposed for the 3-step probabilistic morphological analysis. For guessing unknown word, it uses rich suffixes that are attached to open class words, such as general nouns and proper nouns. We propose a method to learn the suffix patterns from a morpheme tagged corpus, and calculate their probabilities for unknown open word segmentation and tagging in the probabilistic morphological analysis model. Results of the experiment showed that the performance of unknown word processing is greatly improved in the documents containing many unregistered words.

Design of a Contextual Lexical Knowledge Graph Extraction Algorithm (맥락적 어휘 지식 그래프 추출 알고리즘의 설계)

  • Nam, Sangha;Choi, Gyuhyeon;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체 중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

Design of a Contextual Lexical Knowledge Graph Extraction Algorithm (맥락적 어휘 지식 그래프 추출 알고리즘의 설계)

  • Nam, Sangha;Choi, Gyuhyeon;Hahm, Younggyun;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.147-151
    • /
    • 2016
  • 본 논문에서는 Reified 트리플 추출을 위한 한국어 개방형 정보추출 방법을 제시한다. 시맨틱웹 분야에서 지식은 흔히 RDF 트리플 형태로 표현되지만, 자연언어문장은 복수개의 서술어와 논항간의 관계로 구성되어 있다. 이러한 이유로, 시맨틱웹의 대표적인 지식표현법인 트리플을 따름과 동시에 문장의 의존구조를 반영하여 복수개의 술어와 논항간의 관계를 지식화하는 새로운 개방형 정보추출 시스템이 필요하다. 본 논문에서는 문장 구조에 대한 일관성있는 변환을 고려한 새로운 개방형 정보추출 방법을 제안하며, 개체중심의 지식과 사건중심의 지식을 함께 표현할 수 있는 Reified 트리플 추출방법을 제안한다. 본 논문에서 제안한 방법의 우수성과 실효성을 입증하기 위해 한국어 위키피디아 알찬글 본문을 대상으로 추출된 지식의 양과 정확도 측정 실험을 수행하였고, 본 논문에서 제안한 방식을 응용한 의사 SPARQL 질의 생성 모듈에 대해 소개한다.

  • PDF

Building a Korean Sentiment Lexicon Using Collective Intelligence (집단지성을 이용한 한글 감성어 사전 구축)

  • An, Jungkook;Kim, Hee-Woong
    • Journal of Intelligence and Information Systems
    • /
    • v.21 no.2
    • /
    • pp.49-67
    • /
    • 2015
  • Recently, emerging the notion of big data and social media has led us to enter data's big bang. Social networking services are widely used by people around the world, and they have become a part of major communication tools for all ages. Over the last decade, as online social networking sites become increasingly popular, companies tend to focus on advanced social media analysis for their marketing strategies. In addition to social media analysis, companies are mainly concerned about propagating of negative opinions on social networking sites such as Facebook and Twitter, as well as e-commerce sites. The effect of online word of mouth (WOM) such as product rating, product review, and product recommendations is very influential, and negative opinions have significant impact on product sales. This trend has increased researchers' attention to a natural language processing, such as a sentiment analysis. A sentiment analysis, also refers to as an opinion mining, is a process of identifying the polarity of subjective information and has been applied to various research and practical fields. However, there are obstacles lies when Korean language (Hangul) is used in a natural language processing because it is an agglutinative language with rich morphology pose problems. Therefore, there is a lack of Korean natural language processing resources such as a sentiment lexicon, and this has resulted in significant limitations for researchers and practitioners who are considering sentiment analysis. Our study builds a Korean sentiment lexicon with collective intelligence, and provides API (Application Programming Interface) service to open and share a sentiment lexicon data with the public (www.openhangul.com). For the pre-processing, we have created a Korean lexicon database with over 517,178 words and classified them into sentiment and non-sentiment words. In order to classify them, we first identified stop words which often quite likely to play a negative role in sentiment analysis and excluded them from our sentiment scoring. In general, sentiment words are nouns, adjectives, verbs, adverbs as they have sentimental expressions such as positive, neutral, and negative. On the other hands, non-sentiment words are interjection, determiner, numeral, postposition, etc. as they generally have no sentimental expressions. To build a reliable sentiment lexicon, we have adopted a concept of collective intelligence as a model for crowdsourcing. In addition, a concept of folksonomy has been implemented in the process of taxonomy to help collective intelligence. In order to make up for an inherent weakness of folksonomy, we have adopted a majority rule by building a voting system. Participants, as voters were offered three voting options to choose from positivity, negativity, and neutrality, and the voting have been conducted on one of the largest social networking sites for college students in Korea. More than 35,000 votes have been made by college students in Korea, and we keep this voting system open by maintaining the project as a perpetual study. Besides, any change in the sentiment score of words can be an important observation because it enables us to keep track of temporal changes in Korean language as a natural language. Lastly, our study offers a RESTful, JSON based API service through a web platform to make easier support for users such as researchers, companies, and developers. Finally, our study makes important contributions to both research and practice. In terms of research, our Korean sentiment lexicon plays an important role as a resource for Korean natural language processing. In terms of practice, practitioners such as managers and marketers can implement sentiment analysis effectively by using Korean sentiment lexicon we built. Moreover, our study sheds new light on the value of folksonomy by combining collective intelligence, and we also expect to give a new direction and a new start to the development of Korean natural language processing.

A New Korean Morphological Analyzer using Eojeol Pattern Dictionary (어절패턴 사전을 이용한 새로운 한국어 형태소 분석기)

  • Hong, Jeen-Pyo;Cha, Jeong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

Design and Implementation of Dictionary-based Column Name Standardization System (사전기반 항목명 표준화 시스템 설계 및 구현)

  • Shin, Su-Mi;Moon, Young-Su
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.621-624
    • /
    • 2021
  • 최근 빅데이터에 대한 관심이 높아지면서 분석을 위해 필요한 데이셋의 표준화에 대한 중요성이 강조되고 있다. 데이터 표준화를 위해서는 업무 처리에 필요한 모든 데이터의 명명 규칙을 규정하고 그 기준에 따라 표준 명칭을 부여하여야 한다. 본 연구에서는 사전을 기반으로 하는 항목명 표준화 시스템을 제안하였다. 제안한 시스템은 공개된 표준단어사전을 활용하여 유의어를 포함한 참조 사전을 구축하고 이를 기반으로 표준사전을 구축하여 표준 항목명을 제공한다. 기 구축된 데이터셋의 항목명을 입력하거나 사용자가 원하는 새로운 항목명을 입력하면 항목명 표준화 시스템은 표준화된 한글 항목명과 영문 항목명, 그리고 테이블 설계에 사용하는 영문 약어명을 출력한다. 본 연구에서 제안한 시스템을 테이블 설계에 활용하거나 기 구축된 데이터셋을 표준화하는데 적용하면 일관된 데이터 해석이나 관리가 가능할 것으로 기대된다.

  • PDF

A Study on a Prevention Method for Personal Information Exposure (개인정보 노출의 예방 방법에 관한 연구)

  • Lee, Ki-Sung;Ahn, Hyo-Beom
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.968-971
    • /
    • 2011
  • 정보통신망의 발전과 함께 인터넷 사용 인구와 다양한 개방적 구조의 서비스 이용률이 지속적으로 증가하고 있다. 하지만 서비스 이용자들의 보안의식은 크게 달라지지 않아 서비스 이용자들의 직접적인 입력으로 인터넷상에 노출되는 개인정보가 늘어나고 있는 실정이며 이로 인한 이차적인 침해로 인하여 개인에게 정신적인 피해와 금전적 손괴 심지어는 신체적인 위험을 주는 각종범죄가 행해지고 있다. 본 논문에서는 이와 같은 개인정보의 노출을 예방하기 위해 서비스 이용자가 게시물을 등록하는 과정에서 개인정보의 노출을 예방 할 수 있는 게시물의 등록 방법을 제시한다. 이 방법은 게시물 등록시 게시물에서 검출된 개인정보의 목록과 위험의 정도 그리고 개인정보 노출로 인한 이차적 침해유형을 서비스 이용자에게 명시하고 해당 개인정보에 대한 처리를 서비스 이용자에게 결정하도록 하는 방법으로서 서비스 이용자의 개인 정보보호 의식 수준을 끌어올려 개인정보 노출과 이차적인 침해사고를 일차적으로 예방할 수 있다.

Investigating Major Topics Through the Analysis of Depression-related Facebook Group Posts (페이스북 그룹 게시물 분석을 통한 우울증 관련 주제에 대한 고찰)

  • Zhu, Yongjun;Kim, Donghun;Lee, Changho;Lee, Yongjeong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.53 no.4
    • /
    • pp.171-187
    • /
    • 2019
  • The study aims to analyze the posts of depression-related Facebook groups to understand major topics discussed by group users. Specifically, the purpose of the study is to identify the topics and keywords of the posts to understand what users discuss about depression. Depression is a mental disorder that is somewhat sensitive in the online community, which is characterized by accessibility, openness and anonymity. The researchers have implemented a natural language-based data analysis framework that includes components ranging from Facebook data collection to the automated extraction of topics. Using the framework, we collected and analyzed 885 posts created in the past one year from the largest Facebook depression group. To derive more complete and accurate topics, we combined both automated and manual (e.g., stop words removal, topic size determination) methods. Results indicate that users discuss a variety of topics including depression in general, human relations, mood and feeling, depression symptoms, suicide, medical references, family and etc.

A Study on University Students' Perception for Liberal Arts Class Using Padlet During the COVID-19 (코로나 시기 패들렛 활용 교양 수업에 대한 학습자 인식 고찰)

  • Ok Hee Park
    • Journal of Industrial Convergence
    • /
    • v.21 no.4
    • /
    • pp.73-80
    • /
    • 2023
  • This study aims to explore college students' perception for offline class using the online platform Padlet as a tool in liberal arts class during the COVID-19 lockdown. Thirty seven students participated in the study, and quantitative and qualitative methods were used. The statistical results and analysis for open-ended questions are as follows; Firstly, the participants showed satisfaction as the highest variable followed by learning effect, then motivation but participation rated the lowest(p< .001). Secondly, there was statistical significance except participation depending on gender(p< .001). Female students felt higher satisfaction, learning effect, and motivation than male students. Thirdly, there was statistical significance between freshmen and senior depending on grade(p< .001). Freshmen felt higher satisfaction, participation, learning effect, and motivation than seniors. Fourthly, qualitative analysis showed participants felt positive about using Padlet as a education tool in offline class. Finally, the pedagogical implication and suggestions were discussed.

완전미 가공시설 실태조사 연구

  • 최희석;박회만;정성근;홍성기;조광환
    • Proceedings of the Korean Society of Postharvest Science and Technology of Agricultural Products Conference
    • /
    • 2003.10a
    • /
    • pp.175-176
    • /
    • 2003
  • 쌀의 연간 생산량은 재배기술의 발달과 더블어 500만톤 이상을 꾸준히 유지해 오고 있는 반면에 식생활패턴은 점차 인스턴트화 되고 육류소비가 증가함으로써 1인당 소비량이 1990년 119.6kg에서 2002 년 87.0kg으로 급격히 감소하는 추세를 보이고 있다. 이러한 현상은 재고누적으로 이어져 2002년말 기준으로 1,190만석의 재고가 발생되고 있으며, 더욱이 WTO체제하에서 쌀시장 개방압력이 강화되고 있는 실정으로 앞으로 재고문제는 더욱 심화될 것으로 전망되고 있다. 이렇게 쌀이 남아도는 현실에서 국내 유통미의 품위는 싸라기 및 분상질립, 피해립, 이물 등 불완전립의 비율이 매우 높아 일본산이나 미국산에 비해 품질이 현저히 떨어지고 있어 고품질 가공을 통한 차별화가 시급히 요청되고 있는 실정이다. 따라서 본 연구에서는 최근 고품질 쌀 가공을 위해 설치 운영되고 있는 완전미 가공시설을 중심으로 완전미 가공기계장치의 구성 실태 및 제품의 품위 등을 조사분석하여 완전미 가공 기계장치의 개량요인을 도출하고, 이를 토대로 기계장치를 보완하기 위한 기초자료를 얻고자 하였으며, 그 결과를 요약하면 다음과 같다. 현재 보급되어 있는 완전미 가공시설의 구성형태는 기존 미곡가공시설에 홈선별기를 1대를 추가 설치한 제 I유형, 색채선별기1대 + 홈선별기 1대를 추가설치한 제II유형, 색채선별기 1대+입선별기 (개조) 1대를 추가한 제III유형으로 크게 나누어지고 있다. 이들 시설의 도정능력은 백미 가공시에는 I, II, III유형에서 각각 24.0, 27.7, 24.0톤으로 높았던 반면에 완전미 가공시에는 각각 3.1, 5,3, 4.5톤으로 처리능력이 크게 떨어지는 것으로 나타났다. 가공수율면에서는 일반백미로 가공시 72.0% 수준이었으나 완전미로 가공시에는 64.3%로 7.7%의 수율 감소를 가져왔지만 완전립률이 일반백미로 가공시 I, II, III유형에서 각각 89.08, 91.57, 88.00% 에서 완전미로 가공시에는 각각 98.02, 98.43, 97.78% 높아져 품질이 크게 향상되었다. 따라서 완전미 가공시설을 도입할 경우 쌀의 외관품질을 크게 높일수 있는 것으로 나타났다. 또 현재의 완전미 가공시설에 있어서 개량이 필요한 부분은 미숙립 등을 효율적으로 제거해 가공효율을 높이기 위해서는 입선별기의 개량이 요구되었으며, 홈선별기의 경우에는 선별정도는 문제가 없었으나 처리능력의 향상이 필요한 것으로 나타났다. 따라서 완전미 가공효율을 높이기 위한 선별기 개량연구를 계속 수행중에 있다.

  • PDF