• Title/Summary/Keyword: 인접 단어

Search Result 39, Processing Time 0.023 seconds

A Search Efficiency Improvement Method using Internal Contiguity in Query Terms (질의 내부 단어 인접도를 이용한 검색 효율 향상 기법)

  • Yoon, Soung-Woong;Chae, Jin-Ki;Lee, Sang-Hoon
    • Journal of KIISE:Databases
    • /
    • v.35 no.2
    • /
    • pp.192-198
    • /
    • 2008
  • It is difficult to get relevant information on vast Web data. Search engines summarize and store Web information and show the ranked lists based on user queries affected by relative importance and user-adaptation. But these have limitation with showing user-intended information at the top priority. User intention is presented in general within query itself. In this paper, we propose the selective rankup methodology of user-intended search results based on weighting internal contiguity in query terms. With experimental results, we can find user-intended results with 75.8% probability using this simple method only, and efficiency of rerank proposed outperforms ordinary case by $13{\sim}20%$.

Deep Learning Application for Core Image Analysis of the Poems by Ki Hyung-Do (딥러닝을 이용한 기형도 시의 핵심 이미지 분석)

  • Ko, Kwang-Ho
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.3
    • /
    • pp.591-598
    • /
    • 2021
  • It's possible to get the word-vector by the statistical SVD or deep-learning CBOW and LSTM methods and theses ones learn the contexts of forward/backward words or the sequence of following words. It's used to analyze the poems by Ki Hyung-do with similar words recommended by the word-vector showing the core images of the poetry. It seems at first sight that the words don't go well with the images but they express the similar style described by the reference words once you look close the contexts of the specific poems. The word-vector can analogize the words having the same relations with the ones between the representative words for the core images of the poems. Therefore you can analyze the poems in depth and in variety with the similarity and analogy operations by the word-vector estimated with the statistical SVD or deep-learning CBOW and LSTM methods.

Source Codes Plagiarism Detection By Using Reserved Word Sequence Matching (예약어 시퀀스 탐색을 통한 소스코드 표절검사)

  • Lee Yeong-Ju;Kim Seung;Gang Seok-Ho
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2006.05a
    • /
    • pp.1198-1206
    • /
    • 2006
  • 프로그램 소스코드 표절 검사에 대한 기존 방법은 크게 지문(finger-print)법과 구조기반 검사법으로 나뉘며, 주로 단어의 유사성이나 발생빈도를 사용하거나 소스코드 구조상의 특징으로 두 소스간의 유사성을 비교한다. 본 연구에서는 프로그래밍 언어의 예약어 시퀀스를 사용하여 소스코드들 간의 유사성을 비교하고, 이 결과를 FCA(Formal Concept Analysis)를 통해 해석하고 시각화 하는 방법을 제시한다. 일반적인 VSM(Vector Space Model)과 같은 단일 단어 분석으로는 단어의 인접성을 구분할 수 없으므로 단어의 시퀀스 분석이 가능하도록 알고리즘을 구성하였으며 이러한 방식은 지문법의 단점인 소스코드의 부분적인 표절 탐지의 난점을 해결할 수 있고 함수의 호출 순서나 수행 순서에 상관없이 표절을 탐지할 수 있는 장점을 가진다. 마지막으로 유사도 측정결과는 FCA를 이용하여 격자(lattice)로 시각화됨으로써 이용자의 이해도를 높일 수 있다.

  • PDF

A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search (검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구)

  • Jeong, So-Na;Jeong, Ji-Na
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.5
    • /
    • pp.596-607
    • /
    • 2017
  • This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.

Query Related Issue Detection using Related Term Extraction (연관 어휘 추출을 통한 질의어 관련 이슈 탐지)

  • Kim, Je-Sang;Kim, Dong-Sung;Jo, Hyo-Geun;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.133-136
    • /
    • 2013
  • 근래 트위터와 페이스북 등의 SNS(Social Network Service)에서 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하는 많은 연구가 이루어지고 있다. 본 논문에서는 검색어에 대한 연관 어휘 추출을 통해 검색어에 연관된 이슈나 화제를 트위터에서 추출하기 위한 방법을 제안한다. 본 논문에서는 연관성이 높은 단어는 서로 가깝게 발생할 것으로 기대하고, 단어 간 거리가 가까울수록, 공기빈도가 높을수록 커지는 단어연관도 계산법을 제안한다. 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다.

  • PDF

서초구 방배동 전원 마을

  • Ha, Yu-Jeong
    • 주택과사람들
    • /
    • s.208
    • /
    • pp.34-37
    • /
    • 2007
  • '친환경, 웰빙, 로하스' 이 단어들은 요즘 아파트나 주택 분양 광고에서 빠지지 않고 등장하는 수식어들이다. 최근 1-2년 사이에 주거 수요자들은 커뮤니티와 편의 시설 못지않게 자연과 인접한 조용한 주거 공간을 선호한다. 쾌적한 주거 환경에 대한 욕구 때문에 전원 주택 단지와 타운하우스가 주목 받고 있는 추세. 이러한 트렌드를 좇아 도심에 위치한 방배동 전원 마을을 찾았다.

  • PDF

HMM-based Korean Named Entity Recognition (HMM에 기반한 한국어 개체명 인식)

  • Hwang, Yi-Gyu;Yun, Bo-Hyun
    • The KIPS Transactions:PartB
    • /
    • v.10B no.2
    • /
    • pp.229-236
    • /
    • 2003
  • Named entity recognition is the process indispensable to question answering and information extraction systems. This paper presents an HMM based named entity (m) recognition method using the construction principles of compound words. In Korean, many named entities can be decomposed into more than one word. Moreover, there are contextual relationships among nouns in an NE, and among an NE and its surrounding words. In this paper, we classify words into a word as an NE in itself, a word in an NE, and/or a word adjacent to an n, and train an HMM based on NE-related word types and parts of speech. Proposed named entity recognition (NER) system uses trigram model of HMM for considering variable length of NEs. However, the trigram model of HMM has a serious data sparseness problem. In order to solve the problem, we use multi-level back-offs. Experimental results show that our NER system can achieve an F-measure of 87.6% in the economic articles.

Word Separation in Handwritten Legal Amounts on Bank Check by Measuring Gap Distance Between Connected Components (연결 성분 간 간격 측정에 의한 필기체 수표 금액 문장에서의 단어 추출)

  • Kim, In-Cheol
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.1
    • /
    • pp.57-62
    • /
    • 2004
  • We have proposed an efficient method of word separation in a handwritten legal amount on bank check based on the spatial gaps between the connected components. The previous gap measures all suffer from the inherent problem of underestimation or overestimation that causes a deterioration in separation performance. In order to alleviate such burden, we have developed a modified version of each distance measure. Also, 4 class clustering based method of integrating three different types of distance measures has been proposed to compensate effectively the errors in each measure, whereby further improvement in performance of word separation is expected. Through a series of word separation experiments, we found that the modified distance measures show a better performance with over 2 - 3% of the word separation rate than their corresponding original distance measures. In addition, the proposed combining method based on 4-class clustering achieved further improvement by effectively reducing the errors common to two of three distance measures as well as the individual errors.

Development of Similar Bibliographic Retrieval System based on Neighboring Words and Keyword Topic Information (인접한 단어와 키워드 주제어 정보에 기반한 유사 문헌 검색 시스템 개발)

  • Kim, Kwang-Young;Kwak, Seung-Jin
    • Journal of Korean Library and Information Science Society
    • /
    • v.40 no.3
    • /
    • pp.367-387
    • /
    • 2009
  • The similar bibliographic retrieval system follows whether it selects a thing of the extracted index term and or not the difference in which the similar document retrieval system There be many in the search result is generated. In this research, the method minimally making the error of the selection of the extracted candidate index term is provided In this research, the word information in which it is adjacent by using candidate index terms extracted from the similar literature and the keyword topic information were used. And by using the related author information and the reranking method of the search result, the similar bibliographic system in which an accuracy is high was developed. In this paper, we conducted experiments for similar bibliographic retrieval system on a collection of Korean journal articles of science and technology arena. The performance of similar bibliographic retrieval system was proved through an experiment and user evaluation.

  • PDF

On Information Theoretical Research of the Korean Language (한국어의 정보이론적 연구 방향)

  • Lee, Jae-Hong;Yi, Chae-Hag
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.367-375
    • /
    • 1992
  • 한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due

  • PDF