import org.apache.tika.parser.Parser; //導入依賴的package包/類@Overridepublic void extractText(String mimeType, InputStream input, StringBuilder outputText, int maxSize)throws IOException{try{Metadata meta = new Metadata();ContentHandler handler = new BodyContentHandler();Parser parser = new AutoDetectParser(new TikaConfig(getClass().getClassLoader()));parser.parse(input, handler, meta, new ParseContext());String content = handler.toString();if( content.length() > maxSize ){content = content.substring(0, maxSize);}outputText.append(content);if( LOGGER.isDebugEnabled() ){LOGGER.debug("Word Summary:" + content); //$NON-NLS-1$}}catch( Exception e ){throw new RuntimeException(e);}}
import org.apache.tika.parser.Parser; //導入依賴的package包/類/** * Converts a .docx document into HTML markup. This code * is based on <a href="http://stackoverflow.com/a/9053258/313554">this StackOverflow</a> answer. * * @param wordDocument The converted .docx document. * @return */public ConvertedDocumentDTO convertWordDocumentIntoHtml(MultipartFile wordDocument) { LOGGER.info("Converting word document: {} into HTML", wordDocument.getOriginalFilename()); try { InputStream input = wordDocument.getInputStream(); Parser parser = new OOXMLParser(); StringWriter sw = new StringWriter(); SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance(); TransformerHandler handler = factory.newTransformerHandler(); handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8"); handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html"); handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes"); handler.setResult(new StreamResult(sw)); Metadata metadata = new Metadata(); metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-8"); parser.parse(input, handler, metadata, new ParseContext()); return new ConvertedDocumentDTO(wordDocument.getOriginalFilename(), sw.toString()); } catch (IOException | SAXException | TransformerException | TikaException ex) { LOGGER.error("Conversion failed because an exception was thrown", ex); throw new DocumentConversionException(ex.getMessage(), ex); }}
import org.apache.tika.parser.Parser; //導入依賴的package包/類private static String getFullText(final String filepath) throws IOException, SAXException, TikaException { StringWriter writer = new StringWriter(); final TikaInputStream inputStream = TikaInputStream.get(new File(filepath)); try { final Detector detector = new DefaultDetector(); final Parser parser = new AutoDetectParser(detector); final Metadata metadata = new Metadata(); final ParseContext parseContext = new ParseContext(); parseContext.set(Parser.class, parser); ContentHandler contentHandler = new BodyContentHandler(writer); parser.parse(inputStream, contentHandler, metadata, parseContext); } finally { inputStream.close(); } return writer.toString();}
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
華縣隸屬安陽市。1.河南省直管縣華縣位于河南省北部,與濮陽、安陽、鶴壁、新鄉接壤。南距鄭州130公里,北距安陽70公里,東北距濮陽53公里,西南距新鄉70公里。2.滑縣位于河南省北部平原,隸屬安陽市。目前是省直管縣,與濮陽、演金、??h、長垣、封丘、內黃接壤。北距安陽70km,東北距濮陽53km,西南距新鄉70km,西北距鶴壁新城25km。河南的滑縣屬于哪個市?河南省直管縣滑縣?;h是河南省直屬縣,...
太平洋保險是上市公司嗎?太平洋保險于2007年12月25日在上海證券交易所上市。太保于哪一年在上海倫敦上市?2020年6月17日,太保在倫敦證券交易所滬倫通板正式上市,上市成功。此前,太平洋保險已在上海和成功上市,目前是全球首家在A H G上市的保險公司。太保作為國內三大壽險公司之一,國內第二大財險公司,自有實力。2020年全球品牌500強排名第132位。所以也有能力在很多地方同時上市。太保于...
windows server自帶的backup怎么恢復?1. 安裝windows server備份服務。2使用Windows Server Backup進行本地一次性備份。選擇一次性備份后,將啟動一次性備份向導,并在備份向導中選擇備份方法。三。除特殊要求外,不建議備份整個服務器。首先,不建議備份不必要的數據。其次,備份過程相當緩慢。因此,您可以選擇自定義備份。4在選擇要備份的項目頁面中,選擇添加項...