• Title/Summary/Keyword: 추출표

Search Result 459, Processing Time 0.021 seconds

Extracting Web-Table Information Using Decision Tree and Rule Based Approach (기계학습과 규칙 기반 접근 방법을 결합한 의미 있는 표 구분과 헤드 영역 추출)

  • Jung, Sung-Won;Park, Dae-Won;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.5-11
    • /
    • 2004
  • 일반적으로 HTML문서는 크게 내용과 구조로 이루어져 있다. HTML은 일반 문서와 달리 태그라는 것으로 문서에 추가 정보를 주며, 문서의 내용을 더욱 명확하게 한다. 따라서 태그를 이용하면 일반 문서보다 정보를 쉽게 구별하고 추출할 수 있다. 이러한 여러 가지 태그들 중에서 본 연구는 표를 중점적으로 연구한다. 표는 행과 열을 이용하여 어떤 사실을 조직하여 전달하는 것으로, 다른 구조적 특성들 보다 정보를 조직하는데 매우 유용하며, 글로 기술할 많은 분량을 간단히 줄이는 역할을 한다. 이와 같은 표의 특성에 주목하여 표에서 정보를 추출하는 분야를 기존 연구자들은 Web Table Mining 명명하였다. 본 연구는 기존 연구자들이 간과한 표의 구조적인 특성을 이용하여 전체 인터넷 문서에 적용할 수 있는 방법과 함께, 표에서 의미 있는 정보 추출을 위한 단계적인 모형을 제시한다.

  • PDF

Separating Head from Body in Web-Tables (웹상의 표에서 머리와 몸체 분리 방안 연구)

  • Jung, Sung-Won;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.50-56
    • /
    • 2005
  • 본 논문은, 웹상의 표에서 유용한 정보를 뽑기 위하여 표 머릿부분과 몸체부분을 효과적으로 분리하는 방안을 제안한다. 웹상의 표로부터 정보를 뽑기 위해서는 웹상의 표를 기계가 해석할 수 있는 형태, 즉 속성-값의 쌍으로 변환해야 한다. 이중 속성은 보통 표 머리에 해당하며, 그에 해당하는 값은 표 몸체에 해당하는데, 이는 머리가 해당 몸체 부분을 대표하여 나타내는 단어이기 때문이다. 본 연구의 선행 연구에서는 인터넷상의 표가 표 본래의 정보 전달을 위한 목적 이외에 인터넷 문서의 정렬이나 구조화를 목적으로 쓰이는 경우가 많으므로 이러한 표를 제거하고 표 본래의 의미를 전달하는 표(의미 있는 표)만 추출하는 연구를 하였다 본 연구에서는 이를 바탕으로 의미 있는 표에서 표 머리와 몸체를 분리하기 위한 휴리스틱에 기반을 둔 모델을 제안한다. 이를 위하여, 표의 본래 특성과, 표를 작성하는 저자의 작성 습관을 관찰하여 머리와 몸체를 분리하기 위한 방안을 설정하고, 이 방안들을 결합하는 모델을 구축한다. 본 연구에서는 이 결과로 80.3%의 표 머리 추출 정확도를 얻을 수 있었다.

  • PDF

The Extraction of Table Lines and Data in Document Image (문서영상에서 표 구성 직선과 데이터 추출)

  • Jang, Dae-Geun;Kim, Eui-Jeong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.3
    • /
    • pp.556-563
    • /
    • 2006
  • We should extract lines and data which consist of the table in order to classify the table region and analyze its structure in document image. But it is difficult to extract lines and data exactly because the lines are cut and their lengths are changed, or characters or noises are merged to the table lines. These problems result from the error of image input device or image reduction. In this paper, we propose the better method of extracting lines and data for table region classification and structure analysis than the previous ones including commercial softwares. The prposed method extracts horizontal and vertical lines which consist of the table by the use of one dimensional median filter. This filter not only eliminates the noises which attach to the line and the lines which are orthogonal to the filtering direction, but also connects the cut line of which the gap is shorter than the length of the filter tap in the process of extracting lines to the filtering direction. Furthermore, texts attached to the line are separated in the process of extracting vertical lines. This is an example of ABSTRACT format.

Extraction of Meaningful Tables from The Web Documents (웹 문서 중 의미 있는 표의 추출)

  • Jung, Sung-Won;Lee, Won-Hee;Kim, Young-Gi;Kwon, Hyuck-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.332-339
    • /
    • 2002
  • 현재까지 정보 검색 시스템은 색인어 위주로써 문서의 구조적 정보를 고려하지 알았다. 글자의 크기나 글자체, 들여 쓰기, 표 등은 저자의 의도를 구체화하며, 문서를 명확하게 하는 주요한 수단이다. 이 연구에서는 특히 표에 주목한다. 표는 많은 문서에 일반적으로 쓰이며, 글을 명확하게 해 준다. 일반 문서에 비해서 웹 문서는 태그를 이용하여 정보를 추가할 수 있어 표를 쉽게 구분할 수 있다. 하지만, 웹 상의 표는 지식을 구조화하는 근본적인 목적이외에, 단순히 화면을 정렬하려고 하는 목적으로도 많이 쓰인다. 이 연구에서는 정보 검색시스템에 표 정보를 사용하기 위한 전처리 단계로 의미 있는 표를 추출하는 방법을 제시하며, 이를 위하여 결정 트리를 사용한다.

  • PDF

붓스트랩방법의 실제적활용1) -군집표본추출법에 근거한 분할표분석을 중심으로

  • 전명식
    • Communications for Statistical Applications and Methods
    • /
    • v.3 no.1
    • /
    • pp.179-188
    • /
    • 1996
  • 복합조사표본추출법(complex survey sampling)에 근거한 분할표분석에 카이제곱검정법을 사용할 때의 문제점들과 해결방법들을 살펴보았다. 나아가, 군집표본추출의 경우에 붓스트랩방법의 타당성을 보였으며, 실제자료분석을 통하여 실제 활용가능성과 잇점을 제시하였다.

  • PDF

Upper Bound of Tabular Method for Korean Spatial Relation Extraction (표 방법을 이용한 한국어 공간 관계 추출의 상한 계산)

  • Min, Tae Hong;Lee, Jae Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.301-304
    • /
    • 2018
  • 기존의 공간 관계 추출은 관계 속성 추출 후 적합한 개체와의 관계 형성이 불명확한 점과 한 개체가 다중관계에 속할 때 관계 형성이 불확실한 문제가 있다. 이를 해결하기 위하여 본 논문은 최근 개체명 관계 추출에서 사용하는 표 방법을 공간 관계 추출에 적용하였다. 기존 모델과 제안 모델을 비교하기 위하여 상한 성능을 측정하였으며, 그 결과 제안 모델이 더 우수함을 보였다.

  • PDF

Implementation of Information Retrieval System by Table-parsing (Table parsing을 이용한 정보검색시스템의 효율향상)

  • 김영순;권혁철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.413-416
    • /
    • 2001
  • 인터넷 문서에서 구조정보의 대표적인 예라 할 수 있는 표(table)는 의미있는 정보를 가지고 있는 경우가 많다. 하지만 인터넷상의 표는 여러 가지 형태이며, 이것에 맞게 표를 효과적으로 parsing하는 방법이 필요하다. 이렇게 parsing한 표의 정보를 이용하여, 인터넷 문서, 특히 전자상거래 문서에 있는 표를 표준화한 틀에 따라 개념화하여, 의미있는 정보를 추출해 낼 수 있다.

  • PDF

Comparison of Step-Wise and Exact Maximum Likelihood Estimations on Cell Probabilities of Contingency Table (단계별로 얻어진 이차원 분할표의 모수 추정을 위한 정확최대우도추정법과 단계별추출추정법의 비교)

  • Lee, Sang-Eun;Kang, Kee-Hoon;Jeung, Seok-O;Shin, Key-Il
    • Communications for Statistical Applications and Methods
    • /
    • v.17 no.1
    • /
    • pp.67-77
    • /
    • 2010
  • In multinomial scheme with step-wise sampling, maximum likelihood estimates of multinomial probabilities are improved when some frequencies are merged. In this study, for cell probabilities in a I by J independent contingency tables, exact MLE and step-wise estimation methods are applied and the results are compared using MSE and Bias.

Effect of Lentinula edodes water extracts and Lentinan on proliferation of myosatellite cell of Bos taurus Hanwoo (표고 자실체 물 추출물과 베타글루칸이 한우 근육위성세포 증식에 미치는 영향)

  • Sohee Kim;Sehyuk Oh;Sanghun Park;Eunjin Kim;Jungseok Choi;Hwayong Lee
    • Journal of Applied Biological Chemistry
    • /
    • v.66
    • /
    • pp.60-66
    • /
    • 2023
  • Lentinula edodes is one of the most produced mushrooms in the world. In this study, the effects of L. edodes water extracts and lentinan, a beta-glucan from this mushroom, on the proliferation of Bos taurus Hanwoo myosatellite cells were studied. The betaglucan content of the L. edodes water extract was approximately 15.20% at 85 ℃ for 4 h, 13.64% at 100 ℃ for 4 h, 9.48% at 40 ℃ for 8 h and 8.21% at room temperature for 24 h. L. edodes water extract was added to the culture of Hanwoo myosatellite cells. The expression of the MyoD gene increased in the addition of the extract at 40 ℃ for 8 h and 100 ℃ for 4 h, and the expression of the Myogenin gene increased in the addition of the extract at 40 ℃ for 8 h, but proliferation and activity did not increase compared to no addition. However, the addition of lentinan to the culture of Hanwoo myosatellite cells increased the expression of Myogenin gene related to muscle formation increased and the proliferation and viability of the cells. This study proved that the components of L. edodes can affect the proliferation of Hanwoo myosatellite cells, and further research will help develop the mushroom industry and cultured meat industry in the future.

Line Edge-Based Type-Specific Corner Points Extraction for the Analysis of Table Form Document Structure (표 서식 문서의 구조 분석을 위한 선분 에지 기반의 유형별 꼭짓점 검출)

  • Jung, Jae-young
    • Journal of Digital Contents Society
    • /
    • v.15 no.2
    • /
    • pp.209-217
    • /
    • 2014
  • It is very important to classify a lot of table-form documents into the same type of classes or to extract information filled in the template automatically. For these, it is necessary to accurately analyze table-form structure. This paper proposes an algorithm to extract corner points based on line edge segments and to classify the type of junction from table-form images. The algorithm preprocesses image through binarization, skew correction, deletion of isolated small area of black color because that they are probably generated by noises.. And then, it processes detections of edge block, line edges from a edge block, corner points. The extracted corner points are classified as 9 types of junction based on the combination of horizontal/vertical line edge segments in a block. The proposed method is applied to the several unconstraint document images such as tax form, transaction receipt, ordinary document containing tables, etc. The experimental results show that the performance of point detection is over 99%. Considering that almost corner points make a correspondence pair in the table, the information of type of corner and width of line may be useful to analyse the structure of table-form document.