• 제목/요약/키워드: Original documents

검색결과 181건 처리시간 0.075초

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

고려시대 및 조선시대 장류 (A Study on the Classified Jang(Fermented Soybean) in Goryeo and Chosun Dynasty Period)

  • 안용근;우나리야
    • 한국식품영양학회지
    • /
    • 제25권3호
    • /
    • pp.460-482
    • /
    • 2012
  • 한국고전종합 데이터베이스(http://db.itkc.or.kr/itkcdb/mainIndex Iframe.jsp)와 조리서를 통하여 고려시대(918~1392) 및 조선시대(1392~1897) 문헌에 실린 장류와 조리서에 실린 장류를 비교분석하였다. 고려시대의 장류는 문집에 15종류로 그중 장(6), 염장 염시(2), 겨자장(1) 등이 있으나, 조리서는 남아있지 않다. 고려 조정에서는 장을 굶주린 사람들에게 주어 구제하였다. 조선시대의 장류는 문집에 111종류, 조리서에 153종류가 있었다. 일반장류는 문집에 53종류로 그중 장(204), 염장(63), 초장 구장(7), 겨자장(6) 등이 있고, 조리서에는 55종류로 숙황장(9), 대맥장 면장 생황장 유인장(8) 등이 있는데, 그중 13종류가 중국계이다. 간장은 문집에 9종류로, 수장(30, 청장(23), 감장(8), 간장(3) 등이 있고, 조리서에는 12종류로 청장(10), 천리장(4), 간장(3) 등이 있다. 고추장은 문집에 9종류로 초장(12), 고초장(3) 등이 있다. 조리서에는 9종류로 고초장(7), 만초장 급조만초장(4) 등이 있다. 육류장은 문집에 16종류로 해장(15), 혜장 육장(11) 등이 있고, 조리서에는 22종류인데 계란장 및 알장(9), 게장(6), 육장(5), 쇠고기장(4) 등이 있다. 시류(청국장)는 문집에 18종류로, 염시(40), 시(35), 시장(6) 등이 있고, 조리서에는 19종류로 전시전 국장(6), 시 수시장(4)이 있는데 그중 11가지가 중국계이다. 집장은 문집에 6종류로 집장(7), 읍장(4), 포장 장즙(2) 등이 있고, 조리서에는 15종류로 집장(9), 즙저(7), 하절집장(5) 등이 있다. 구황장은 문집에 없으나 나라에서는 일반 장을 구제용으로 사용하였다. 조리서의 구황장은 21종류로 포장(7), 급조청장(6), 사삼길경장(4) 등이 있다. 문헌과 조리서에 모두 있는 장은 건장, 난장, 두장, 말장, 면장, 소두장, 육장, 장이다. 중국계장은 일반장류 조리서와 시류 조리서에만 있고 문집 등의 문헌에는 없으므로 중국계 장류는 일반 백성들에게 전파되지 않은 것으로 나타난다.

중소기업 정보화방법론 개선 연구 (A Study on Improvement of Information Methodology for SMEs)

  • 순남순
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2010년도 춘계국제학술대회
    • /
    • pp.13-19
    • /
    • 2010
  • Information competitiveness accounts for substantial parts of business competitiveness necessary for business management in the knowledge-information society in the 21st century. To improve quality. productivity and competitiveness through information in the fields of SMEs particularly having difficulties under rapidly changing business environment. the government has operated "SME Information Support Project" for the past 8 years. The methodology for developing the standard for this project known as EISDM (Enterprise Information System Development Methodology) provides communication between IT businesses and SMEs participating in this project. and standardized output document formats and how to make out such documents. Infortunately. the number of personnel partaking in the development project for SMEs is no more than 2~4 per site on average. Further. they are required to complete demand analyses. development. testing and operation in about 6 months. which is a very short period. Moreover, there is too much demand for documentation, which is likely to end up being formal work process just for supervision and inspection. That is, the documentation could be for noting but documents. which will prove useless outputs after the project finishes. Therefore, this study proposes an improvement approach as an information system development methodology taking into account SMEs' characteristics and environment so as to relieve developers from such excessive burden of documentation, to save time and resources through efficient management of software development as the original purpose of the methodology, and to produce required quality software.

  • PDF

색인어 말뭉치 처리를 기반으로 한 웹 정보검색 시스템의 설계 (Design of WWW IR System Based on Keyword Clustering Architecture)

  • 송점동;이정현;최준혁
    • 정보학연구
    • /
    • 제1권1호
    • /
    • pp.13-26
    • /
    • 1998
  • 대부분의 정보검색시스템들은 부적절한 색인어들에 의해 가끔 사용자의 의도에 맞지 않는 전혀 다른 검색 결과가 나타난다. 그것은 시스템이 색인어들을 검색하기 위해 그 의미가 아닌, 단지 용어로서만 고려하기 때문이다. 검색 정확도의 증진을 위해 색인어는 연관된 용어 사용 빈도와 역 빈도 사용으로 검색되고 동시 발생어는 원시 문서로부터 추출된다. 결과적으로 색인어는 계산된 상호 정보들을 사용함으로써 그들의 세맨틱에 의해 클러스팅된다. 이 논문은 재현율의 감소없이 클라이언트 사용자 모듈로부터 피드백에 따라 세분된 세맨틱 정보를 사용하여 부적절한 검색 결과를 거절함으로써 검색 효율을 높일 수 있도록 설계하였다.

  • PDF

인간시각시스템을 이용한 하드카피 복사방지기법에 관한 연구 (A Study on the Anti-copying method for hard copy documents using Human Visual System)

  • 이강호
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.291-297
    • /
    • 2006
  • 본 논문에서는 하드카피 문서에 대한 새로운 재생산 방지 기법을 제안한다. 일반 프린터로 일반 용지에 출력한 원본 하드카피를 칼라 복사기로 복사하거나 스캐너로 스캔하여 다시 출력할 경우 원본 하드카피에 포함된 복사방지 패턴에 특별한 문구 패턴이 나타나 복사본임을 육안으로 구분할 수 있는 기술이다. 이를 위하여 본 논문에서는 제안하는 기법은 인간시각시스템(HVS: Human Visual System)의 칼라 인지특성을 이용 우선 배경과 칼라 복사기로 복사하거나 스캐너로 스캔하여 다시 출력할 경우 보일 이진 패턴 맵을 구현하고 원본을 출력하려는 프린너의 도트 게인과 하프토닝 특성을 테스트하는 단계, 하프톤 셀과 스폿을 생성하여 만들어진 하프톤 셀과 스폿을 사용하여 병치 감법혼합으로 농도가 잘 조절된 칼라패턴을 생성한다. 본 논문에서 제안한 하드카피 복사 방지 기법은 기존의 방법에 비해 고해상도 복사 방지 기법으로 유용한 방법이다.

  • PDF

메타 검색에서 외래어 질의 정제 효과 (The Refinement Effect of Foreign Word Transliteration Query on Meta Search)

  • 이재성
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 문서에서 외래어가 일관되게 사용되지 않고 여러 이형태로 사용되고 있기 때문에, 정확한 질의어 일치를 지원하는 검색 시스템에서 외래어 질의로 문서를 검색하는데 어려움이 많다. 본 논문에서는 하나의 외래어로 질의할 경우, 원 질의어와 같은 뜻의 다양한 이형태 외래어 질의로 자동 확장하고 정제하여 더 많은 관련 문서를 손쉽게 검색할 수 있는 메타 검색 방법을 제안한다. 이 방법은 1차로 원 질의어에서 다양한 외래어 이형태를 통계적 방법으로 확장하고, 2차로 그 결과를 각 검색 엔진에게 질의하여 일정 개수 이상의 질의어가 문서에 나타났는지, 원 질의어의 문맥과 유사한 문맥에서 그 질의어가 쓰였는지를 비교하여, 같은 뜻의 유효한 외래어를 판별해 내고 이를 이용하여 검색할 수 있도록 한다. 실험 결과, 기준점으로 쓰인 1차로 만든 이형태로 검색했을 때 F값은 평균 38%이었으나, 제안된 방법인 2차로 정제된 질의어로 검색했을 때의 F값은 평균 81%로 매우 향상된 결과를 보였다.

거래비용측면에서 전자신용장 활용전략에 대한 연구 (A study on the Strategy of e-L/C of Credit Utilization by Transaction Cost)

  • 조원길
    • 통상정보연구
    • /
    • 제16권1호
    • /
    • pp.247-269
    • /
    • 2014
  • 무역거래에 있어 화환신용장은 수입업자에 대한 신용도와 구매대금 지급의 보장기능으로 가장 많이 사용되는 결제수단이었다. 그러나 실무에서 절차상의 복잡성, 수익자가 개설은행에 대금지급을 청구하기 위해서는 신용장에 지정된 서류를 반드시 구비해야 하는데 요구되는 필수서류와 부가서류들의 준비과정과 비용 및 신용장 요구조건과의 일치에 상당한 복잡성이 존재해왔다. 이로 인해 대금결제과정의 시간적 비용적인 측면이 문제점으로 제기되어 왔다. 이러한 기존의 무역거래 절차상 지연 등에서 오는 문제점 등을 거래비용측면에서 전자신용장을 활용함으로써 개선하고자 하는 인식이 요구되는 것이다. 본 연구는 거래비용측면에서 발생할 수 있는 시간적 비용적인 측면을 극복할 수 있는 방안으로서 전자신용장을 활용하는 전략을 제시하는데 있다. 이를 위하여 기존 신용장과 전자신용장의 문제점 파악과 거래비용측면에서의 활용전략을 제시하고자 한다.

  • PDF

인용문헌에 의한 정보검색 효과에 관한 고찰 (A Study on Information Retrieval Effectiveness by Cited References)

  • 이란주
    • 한국문헌정보학회지
    • /
    • 제27권
    • /
    • pp.265-289
    • /
    • 1994
  • Databases publicly available for online searching permit both citation and subject searching, however, subject searching has dominated the online search environment. Despite the power of citation searching, it may be underutilized This study explored the relationship between the number of cited references used in a citation search and information retrieval effectiveness, a relatively unstudied phenomenon. Three articles in the library and information science literature were chosen to represent sample questions. Cited reference searches were conducted for each article and each of its references. All searches were conducted in Social Scisearch and Scisearch on DIALOG. Relevance judgments on the retrieved citations were obtained from the authors of the original articles. This research focused on analyzing, in terms of information retrieval effectiveness, the overlap among postings sets retrieved by various combinations of cited references. The findings from the three case studies clearly showed that the more cited references used for the citation search, the better the performance, in terms of retrieving more relevant documents, up to a point of diminishing retums. In addition, generally the overall level of overlap among relevant documents sets was found to be low. Therefore, if only some of the cited references among many candidates are used for a citation search, a significant proportion of relevant documents may be missed. The analysis of the characteristics of cited references provided the ways to predict which cited refereces would be useful to improve information retrieval. The findings of this comprehensive exploratory study are of interest for both theoretical and practical reasons. They contribute to the development of a theoretical model for the effective use of the citation search. This model might also be implemented in operational online systems. In addition, the findings potentially will help online searchers improve their search strategies using the citation search so that they can better achieve their information retrieval goals: the retrieval of items relevant to a given question and the suppression of nonrelevant items.

  • PDF

고문서 복원 및 재현 시스템 연구 (Restoration and Reproduction Study for Antique Documents)

  • 김영성;김수호;신종일;박수열;신승림;전근;손영아
    • 한국염색가공학회지
    • /
    • 제21권2호
    • /
    • pp.48-53
    • /
    • 2009
  • Reproduction of antique document is of importance with the concept of sharing the their contents and original aspects in terms of textual and artistic message. 'Pine tree ink stick' and 'Oil ink stick' are greatly enjoyed in their uses in the most written documentary works. Thus, it is said that the approach of this study has implied considerable meanings to cultural aspects. In this work, we have performed to investigate the reproduction and restoration study for antique documents. With comparison and analysis of some types of "ink stick", we have prepared several ink samples, controlling viscosity, surfactant, thickness agent, and applied these inks to the target antique document. Several reproduced samples showed a practical application possibility in terms of reproduction and restoration.

워터마크가 삽입된 이차원 바코드와 위.변조 방지 시스템 (Forgery Protection System and 2D Bar-code inserted Watermark)

  • 이상경;고광은;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제20권6호
    • /
    • pp.825-830
    • /
    • 2010
  • 일반적으로 인쇄 문서의 위변조를 방지하기위해 복사방지마크와 이차원 바코드가 많이 사용되고 있다. 하지만 이차원 바코드는 복사 방지 마크와 분리 배치되어 있어 사본 구별이 시각적으로 힘들고, 스캐너로만 인식할 수 있다는 단점이 있다. 따라서 본 논문은 이차원 바코드에 워터마크를 삽입해 시각뿐만 아니라 스캐너로 정확하게 구분 할 수 있는 위변조방지기술에 대해 연구했다. 복사 방지마크는 디지털 입출력 장치의 저주파 필터 특성으로 인해 특정 패턴이 소실되거나 변형되는 것을 이용해 패턴으로 만들었다. 원본과 사본을 스캔한 이미지의 히스토그램을 분석을 통해 성능검증을 했다. 그리고 이차원 바코드를 웹캠이나 핸드폰 카메라로 인식한 인증키로 온라인 서버에 접속해 내용을 확인하는 시스템을 제안했다.