A Case Study on Universal Dependency Tagsets of Japanes (일본어의 Universal Dependency 태그셋 적용 사례 연구 - 한국어와의 비교를 중심으로)

  • Lee, Jin;Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • 2018.10a
    • pp.323-328
    • 2018
  • 한국어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 한국어에 적용하는 것에는 많은 어려움이 있다. 이를 해결하기 위해서 형태통사적 특성이 유사한 일본의 UD 적용 사례를 살펴보고 한국어의 UD 적용 양상과의 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰해 보고자 한다. 한국어와 일본어는 동일한 교착어로서 비슷한 특성을 지니고 있으나, 주석의 기본 단위 설정에서 차이를 보이면서 UD를 적용하는 양상이 달라졌음을 확인하였다. 일본어의 UD 주석에서 형태 분석 기본 단위인 단단위(Short unit word, 長單位)를 기본 구문 주석 단위로 하되 장단위(Long unit word, 短單位)와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 기준으로 의존 관계를 주석하는 방안에 대해서도 고려할 필요가 있다.

Word Sense Disambiguation using Word2Vec (Word2Vec를 이용한 단어 의미 모호성 해소)

  • Kang, Myung Yun;Kim, Bogyum;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • 2015.10a
    • pp.81-84
    • 2015
  • 자연어 문서에 출현하는 단어에는 중의적 단어가 있으며, 이 단어에서 발생되는 의미 모호성은 대개 그 문맥에 따라 해소된다. 의미 모호성 해소 연구 중, 한국어 단어 공간 모델 방법은 의미 태그 부착 말뭉치를 이용하여 단어의 문맥 정보를 구축하고 이를 이용하여 모호성을 해결하는 연구로서 비교적 좋은 성능을 보였다. 본 연구에서는 Word2Vec를 이용하여 기존 연구인 한국어 단어 공간 모델의 단어 벡터를 효과적으로 축소할 수 있는 방법을 제안한다. 세종 형태 의미 분석 말뭉치로 실험한 결과, 제안한 방법이 기존 성능인 93.99%와 유사한 93.32%의 정확률을 보이면서도 약 7.6배의 속도 향상이 있었다.

A Machine Learning Approach for Automatic Protein Name Extraction from Journal Articles (기계학습 알고리즘에 근거한 단백질 이름의 자동 추출)

  • 김정호;백은옥;이공주
    • Proceedings of the Korean Information Science Society Conference
    • 2004.04b
    • pp.259-261
    • 2004
  • 생물학 분야의 문헌으로부터 유전자 및 단백질 이름을 추출하는 기술은 바이오 텍스트 마이닝 분야의 기반 기술로 그 중요성이 점차 증대되고 있다. 이 연구에서는 생물학 분야 문헌의 초록으로부터 하나의 토큰으로 구성된 single gene name은 물론 여러 개의 토큰으로 이루어진 multi gene name까지 유전자나 단백질의 이름을 자동으로 추출하는 시스템 TagGeN(Tagger for Gene Name)을 제안한다. TagGeN은 기존의 태거와 달리, 문자나 숫자 이외의 기호를 포함한 유전자나 단백질 이름의 품사 처리에 있어 개선 방안을 제시하고, 여러 토큰으로 이루어진 이름의 인식에 있어 나란한 두 토큰이 갖는 태그 정보를 이용한 조건부 확률에 근거하여 Markov 모델을 도입한다. 위와 같은 개선방안을 구현한 TagGeN은 성능면에서 기존의 유사시스템에 비해 recall 20.8%, precision 4.7%의 성능향상을 보임으로써 본 연구에서 제안한 방법론의 효과를 입증한다.

A Smart System for Product Recommendation Using NFS tags (NFC태그를 이용한 스마트 상품 추천 시스템)

  • Kim, Hyun-Chul;No, Hyun-Duck;Kim, Jea-Gu;Kim, Woo-Sung;Im, Dong-Hyuk;Park, Geun-Duk
    • Annual Conference of KIPS
    • 2015.04a
    • pp.720-721
    • 2015
  • 본 논문에서는 스마트폰 NFC 기술을 이용하여 모바일 쿠폰 및 포인트 적립 등을 하며, 고객의 관심사를 프로파일화 하고 사용자가 찾아가 가게의 상품 데이터베이스와 온톨로지 데이터를 사용하여 유사 매칭을 시도하여 상품을 추천하는 어플리케이션을 개발하였다. 고객용 어플리케이션과 가게용 어플리케이션을 각각 따로 개발하여 데이터를 따로 보관하게 구현 하였으며, 고객의 데이터는 우리가 규정한 데이터로 확인하여 가게에서는 고객의 성함과 관심 품목만 나타나게 구현하였다.

Design and Implementation of an Image Portal Site for On-Line Album with Content-Based Retrieval (앨범 기능을 포함한 이미지 포탈 사이트의 설계 및 구현)

  • Kim, Gun-Hee;Shin, Dong-Kyoo;Shin, Dong-Il
    • Annual Conference of KIPS
    • /
    • /
    • /
    • 2000
  • 본 논문에서 소개할 온라인 앨범 사이트는 텍스트 기반의 이미지 검색과 색상 기반 검색이 가능한 검색 엔진을 갖추었다. 기존의 검색 엔진들은 매우 단순한 키워드 매칭만을 통하여 이미지를 검색하여 그 결과 이미지와 사용자가 찾고자 하는 이미지 사이의 유사성이 낮은 경우가 많았다. SUMMIT(Sejong University MultiMedia Information Technology)은 등록된 각 사용자에게 개별 공간을 할당하여 사용자가 스스로 원하는 이미지를 업로드하거나 다운로드하게 한다. 또한, 각 사용자는 자신이 구성한 앨범 내에서의 키워드 검색과 내용기반 검색을 수행할 수 있으며 다른 사용자가 공개한 이미지나 시스템 데이터베이스에 저장된 이미지까지 포함한 포괄적인 검색 결과도 획득할 수 있다. 본 시스템은 각 사용자별 페이지 내에서의 검색이 가능하므로 검색의 정확도와 활용도를 높일 수 있다. 사용자는 SUMMIT에 올린 이미지나 타인이 공개한 이미지를 자신 혹은 기타 홈페이지에 직접 하이퍼링크할 수 있으며 어느 페이지에서도 같은 이미지 링크 태그를 사용할 수 있다는 용이함도 취할 수 있다.

Detection of inappropriate advertising content on SNS using k-means clustering technique (k-평균 군집화 기법을 활용한 SNS의 부적절한 광고성 콘텐츠 탐지)

  • Lee, Dong-Hwan;Lim, Heui-Seok
    • Annual Conference of KIPS
    • 2021.11a
    • pp.570-573
    • 2021
  • 오늘날 SNS를 사용하는 사람들이 증가함에 따라, 생성되는 데이터도 많아지고 종류도 매우 다양해졌다. 하지만 유익한 정보만 존재하는 것이 아니라, 부정적, 반사회적, 사행성 등의 부적절한 콘텐츠가 공존한다. 때문에 사용자에 따라 적절한 콘텐츠를 필터링 할 필요성이 증가하고 있다. 따라서 본 연구에서는 SNS Instagram을 대상으로 콘텐츠의 해시태그를 수집하여 데이터화 했다. 또한 k-평균 군집화 기법을 적용하여, 유사한 특성의 콘텐츠들을 군집화하고, 각 군집은 실루엣 계수(Silhouette Coefficient)와 키워드 다양성(Keyword Diversity)을 계산하여 콘텐츠의 적절성을 판단하였다.

The implementation of the depth search system for relations of contents information based on Ajax (콘텐츠 정보의 연관성을 고려한 Ajax기반의 깊이 검색 시스템 구현)

  • Kim, Woon-Yong;Park, Seok-Gyu
    • Journal of Advanced Navigation Technology
    • v.12 no.5
    • pp.516-523
    • 2008
  • Recently, the Web has been constructed based on collective intel1igence and growing up quickly. User created contents have been made the mainstream in this environments. So it's required to make an efficient technique of searching for the contents. The current searching technique mainly is achieved by key words. Semantic Web based on similarity and relationship of a language and using user tags in web2.0 also have been researched with activity. Generally, the web of the participation architecture has a lot of user created contents, various forms and classification. Therefore, it is necessary to classify and to efficiently search for a lot of user created contents. In this paper, we propose a depth searching technique considering the relationship among the tags that descript user contents. It is expected that the proposed depth searching techniques can reduce the time taken to search for the unwanted contents and the increase the efficiency of the contents searching using a service of suggestion words in tags groups.

Interference Analysis of RFID Gen-2 System Considering Both PHY and MAC Layers (PHY/MAC 계층을 모두 고려한 RFID Gen-2 시스템의 간섭 분석)

  • Yoon, Hyun-Goo;Choi, Sun-Woong;Jang, Byung-Jun
    • The Journal of Korean Institute of Electromagnetic Engineering and Science
    • v.21 no.7
    • pp.752-760
    • 2010
  • This paper investigates the performance of EPCglobal Generation-2(Gen-2) radio frequency identification(RFID) protocol under reader-to-reader interfering environments. We establish a modified discrete-time Markov chain(DTMC) model for the Gen-2 and accordingly obtain quantitative results of query success rate(QSR) and tag identification speed (TIS). Extensive simulations validate our theoretical analysis and demonstrate that the number of tags over 100 has little impact on the performance. TIS linearly decreases by 10 tags/sec/reader as the number of interfering readers increases. Our model for Gen-2 protocol is also useful to study the performance of other RFID protocols.

A Robust Marker Detection Algorithm Using Hybrid Features in Augmented Reality (증강현실 환경에서 복합특징 기반의 강인한 마커 검출 알고리즘)

  • Park, Gyu-Ho;Lee, Heng-Suk;Han, Kyu-Phil
    • The KIPS Transactions:PartA
    • v.17A no.4
    • pp.189-196
    • 2010
  • This paper presents an improved marker detection algorithm using hybrid features such as corner, line segment, region, and adaptive threshold values, etc. In usual augmented reality environments, there are often marker occlusion and poor illumination. However, existing ARToolkit fails to recognize the marker in these situations, especially, partial concealment of marker by user, large change of illumination and dim circumstances. In order to solve these problems, the adaptive threshold technique is adopted to extract a marker region and a corner extraction method based on line segments is presented against marker occlusions. In addition, a compensating method, corresponding the marker size and center between registered and extracted one, is proposed to increase the template matching efficiency, because the inside marker size of warped images is slightly distorted due to the movement of corner and warping. Therefore, experimental results showed that the proposed algorithm can robustly detect the marker in severe illumination change and occlusion environment and use similar markers because the matching efficiency was increased almost 30%.

A Query Index for Processing Continuous Queries over RFID Tag Data (RFID 태그 데이타의 연속질의 처리를 위한 질의 색인)

  • Seok, Su-Wook;Park, Jae-Kwan;Hong, Bong-Hee
    • Journal of KIISE:Databases
    • v.34 no.2
    • pp.166-178
    • 2007
  • The ALE specification of EPCglobal is leading the development of RFID standards, includes the Event Cycle Specification (ECSpec) describing how long a cycle is, how to filter RFID tag data and which reader is interested in. The ECSpec is a specification for filtering and collecting RFID tag data. It is registered to a middleware for long time and is evaluated to return results satisfying the requirements included in it. Thus, it is quite similar to the continuous query. It can be transformed into a continuous query as its predicate in WHERE clause is characterized by the long interval. Long intervals cause problems deteriorating insertion and search performance of existing query indices. In this paper, we propose a TLC-index as a new query index structure for long interval data. The TLC-index has hybrid structure that uses the cell construct of CQI-index with the virtual construct of VCR-index for partitioning long intervals. The TLC-index can reduce the storage cost and improve the insertion performance through decomposing long intervals into one or more cell constructs that have long size. It can also improve the search performance through decomposing short intervals into one or more virtual constructs that have short size enough to fit into those intervals.